Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[engine] Worker를 활용한 깃 로그 받아오기 #713

Merged
merged 3 commits into from
Sep 12, 2024

Conversation

BeA-Pro
Copy link
Contributor

@BeA-Pro BeA-Pro commented Sep 8, 2024

Related issue

#712

Result

Worker를 활용해 Git 로그를 병렬로 처리하여 효율적으로 받아왔습니다.
기존의 경우와 성능을 비교한 결과는 다음과 같습니다.

레포지토리 : You-Dont-Know-JS
총 로그 수 : 2320개
싱글 쓰레드 : 1.395초
멀티 쓰레드 : 1.520초

레포지토리 : vitest
총 로그 수 : 4014개
싱글 쓰레드 : 8.728초
멀티 쓰레드 : 5.278초

레포지토리 : jest
총 로그 수 : 8392개
싱글 쓰레드 : 1분 30.557초
멀티 쓰레드 : 43.560초

레포지토리 : React
총 로그 수 : 25138개
싱글 쓰레드 : 3분 34.876초
멀티 쓰레드: 1분 35.492초

레포지토리 : drupal
총 로그 수 : 63567개
싱글 쓰레드 : 1분 49.311초
멀티 쓰레드 : 38.225초

Work list

  • getLogCount 함수를 통해 받아올 총 로그의 수를 받아왔습니다.
  • fetchGitLogInParallel 함수를 사용하여 멀티 쓰레드를 활용해 Git 로그를 받아옵니다. getLogCount를 통해 구한 총 로그 수를 totalCnt라고 할 때, 각 쓰레드들은 totalCnt/쓰레드의 수 만큼 로그를 가져오게 됩니다.
  • git.worker.ts는 쓰레드가 실행하는 파일로 각 쓰레드들은 이를 활용하여 할당된 수의 로그를 받아옵니다.

Discussion

로그의 내용에 따라 다르겠지만, 로그 수가 2000개 미만인 경우 오버헤드가 적은 기존 방식이 훨씬 빠릅니다.
하지만 이런 작은 로그 수는 멀티 쓰레드를 활용하더라도 일반적으로 1초 이내에 값을 받아오기 때문에 사용자 경험에는 큰 문제가 없습니다.

Result를 보시면 아시겠지만 Worker를 도입함으로써 확실히 성능이 증가된 것을 확인 할 수 있습니다.
그럼에도 불구하고 여전히 많은 시간이 걸린다고 생각합니다. 이를 위해 추가적인 해결책이 필요할 것 같습니다.

@BeA-Pro BeA-Pro requested review from a team as code owners September 8, 2024 18:16
@BeA-Pro BeA-Pro self-assigned this Sep 9, 2024
@BeA-Pro BeA-Pro added this to the v0.7.2 milestone Sep 9, 2024
Copy link
Contributor

@choisohyun choisohyun left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

와우 이런 식으로 로딩시간을 줄일 수 있군요! worker_thread 알아갑니다! 👍

Comment on lines +82 to +84
// console.time('Single log')
// const testGitLog = await getGitLog(gitPath, currentWorkspacePath);
// console.timeEnd('Single log')
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

요거 지워도 될 것 같아요!

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

위 코드는 기존 방식으로 깃 로그를 받아오는 코드입니다. 추후에 사용할 가능성이 있어, 주석으로 처리해두었습니다.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

다시 생각해보니 굳이 살려둘 필요도 없겠네요, 지우도록 하겠습니다~

output: {
// the bundle is stored in the 'dist' folder (check package.json), 📖 -> https://webpack.js.org/configuration/output/
path: path.resolve(__dirname, "dist"),
filename: "extension.js",
// filename: "extension.js",
filename: "[name].js",
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

(질문) 설정을 이렇게 해두면 extension.js, worker.js 이렇게 두벌 나오는 건가용?

Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

소현님 예리하시군요!! 저도 궁금합니다!

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

넵, 정확하십니다!
생성된 worker.js는 추후에 Worker가 특정 개수의 로그를 받아오는데 사용됩니다.

const worker = new Worker(path.resolve(__dirname, './worker.js'), {
      workerData: {
        gitPath,
        currentWorkspacePath,
        skipCount,
        limitCount,
      },
    });

@@ -74,7 +75,15 @@ export async function activate(context: vscode.ExtensionContext) {

const initialBaseBranchName = await fetchCurrentBranch();
const fetchClusterNodes = async (baseBranchName = initialBaseBranchName) => {
const gitLog = await getGitLog(gitPath, currentWorkspacePath);
console.time('Multi log')
const gitLog = await fetchGitLogInParallel(gitPath, currentWorkspacePath);
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

혹시 fetchClusterNodes 내에서 await이 걸려있는 getGitConfigengine.analyzeGit는 getGitLog보다 시간이 덜 걸릴까요?? 추후에 뭔가 더 많은 곳에서 적용해봐도 좋을 것 같다는 생각이 들어서요!

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

네, fetchClusterNodes에서 가장 많은 시간이 소요되는 부분은 getGitLog입니다.
정확히 수치화 하지는 않았지만 getGitLog가 거의 95% 이상의 시간이 소요되고 나머지 getGitConfig, engine.analyzeGit 등에 대한 처리는 커밋이 만개 정도 되지 않는 이상 1초 이내로 소요되었습니다.

Copy link
Contributor

@ytaek ytaek left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

어제 디스코드에서 논의한대로, 다양한 parameter들에 대해서 테스트를 더 진행해보면,
매우 좋은 결과를 가져올 수 있겠습니다!!

새로운 branch로 올려서 여러가지 작업해서 PR로 올려주시면 감사하겠습니다!!

@@ -12,7 +12,8 @@
}
],
"simple-import-sort/exports": "error",
"no-duplicate-imports": "error"
"no-duplicate-imports": "error",
"import/no-commonjs": "off"
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

추가하신 목적이 궁금합니다~.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

이 부분은 사실 초기에 Worker가 빌드되지 않은(dist에 있지 않은) 외부 파일을 실행할 때 발생한 에러를 고치기 위해 삽입한 코드입니다.
import 대신 require를 사용해야해서 위 코드를 삽입했는데 기억은 잘 나지 않지만 require를 사용해도 문제가 해결되지 않았습니다.
해당 문제는 외부 파일(git.worker.ts)를 따로 번들링하여 해결했습니다.

뭔가 말이 많았는데 해당 코드는 오류 해결을 위해 시도하다가 생긴 코드로 지금은 필요없습니다!
삭제하도록 하겠습니다!

const gitLog = await getGitLog(gitPath, currentWorkspacePath);
console.time('Multi log')
const gitLog = await fetchGitLogInParallel(gitPath, currentWorkspacePath);
console.timeEnd('Multi log')
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

추후(feature 개발이 끝난 이후) 에는 이 부분도 삭제하면 좋겠습니다.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

마지막에 브랜치 병합할 때 삭제하도록하겠습니다

"--all",
];

resolveSpawnOutput(
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

os module을 사용하는 경우, multi OS에서의 테스트도 필요합니다.
가끔 os 별로 다른 결과물이 나오는 경우가 있기도 했네요

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

공부해보고 테스트 케이스 작성해보겠습니다!

const { code, error } = status;

if (code === 0 && !error) {
const commitCount = parseInt(stdout.toString().trim(), 10); // Buffer를 문자열로 변환 후 숫자로 변환
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

10 같은 경우는 변수로 extract 해놓는게 좋겠습니다.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

넵!

@BeA-Pro BeA-Pro changed the base branch from main to feature/712 September 12, 2024 14:29
@BeA-Pro
Copy link
Contributor Author

BeA-Pro commented Sep 12, 2024

새로운 branch 생성하여 base branch로 설정하였습니다

@BeA-Pro BeA-Pro changed the title [engine] 멀티 쓰레드를 활용한 깃 로그 받아오기 [engine] Worker를 활용한 깃 로그 받아오기 Sep 12, 2024
@BeA-Pro BeA-Pro merged commit 3b1da9c into githru:feature/712 Sep 12, 2024
2 checks passed
BeA-Pro added a commit that referenced this pull request Sep 29, 2024
BeA-Pro added a commit that referenced this pull request Oct 1, 2024
[engine] #713 요구사항 적용
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants