Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[EDA] 논문 요약 데이터 분석 #16

Open
sangHa0411 opened this issue Nov 28, 2021 · 0 comments
Open

[EDA] 논문 요약 데이터 분석 #16

sangHa0411 opened this issue Nov 28, 2021 · 0 comments
Assignees
Labels
report Sharing information or results of analysis

Comments

@sangHa0411
Copy link
Contributor

데이터 출처

데이터 적용 여부

  • 확정

데이터 갯수

  • Total : 92051 (중복제거)
  • Train : 73620
  • Test : 18411
  • 8 : 2 비율

EDA 내용

  1. 길이
    스크린샷 2021-11-29 오전 1 10 09

    1. Document가 너무 긴 데이터 ( > 2000) = 268개
    2. Title이 너무 짧은 데이터 ( < 5 ) = 9개
  2. Tokenizing 한 결과
    스크린샷 2021-11-29 오전 1 12 00

    • 해석 : 대부분의 데이터의 Token 갯수가 512 이하이므로 BigBird, LongFormer 등은 논문 데이터에 한해서는 필요가 없어보입니다.
  3. 제목의 핵심 단어들이 본문에 있는 정도
    스크린샷 2021-11-29 오전 1 13 30

    • 정리 : 제목에 있는 핵심 단어들이 본문에 대부분 분포되어 있는 것을 확인했습니다.
    • 해석 : 새로운 단어를 생성요약할 때 추론하는 것이 아니라 본문에 있는 단어들을 사용해서 새롭게 문장을 만드는 문제이므로 엄청 어려운 Task는 아닌 것으로 생각합니다.
@sangHa0411 sangHa0411 added the report Sharing information or results of analysis label Nov 28, 2021
@sangHa0411 sangHa0411 self-assigned this Nov 28, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
report Sharing information or results of analysis
Projects
None yet
Development

No branches or pull requests

1 participant