Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

selenium 및 beautifulsoup을 활용해서 데이터의 제목 복원하기 #18

Open
sangHa0411 opened this issue Nov 29, 2021 · 0 comments
Assignees
Labels
help wanted Extra attention is needed

Comments

@sangHa0411
Copy link
Contributor

  1. Target Data
  • 제목에서 한자가 많은 경우
  • 예시
    스크린샷 2021-11-30 오전 7 10 54
  1. Crawling 구조

    1. selenium을 이용해서 네이버 학술 정보에 접근
    2. 네이버 학술 정보에 생략된 제목을 검색해서 원래 제목을 파악하기
      스크린샷 2021-11-30 오전 7 14 20
    3. 검색해서 결과가 나오면 제일 첫 번째 항목의 논문의 제목을 추출해서 교체 및 저장
      스크린샷 2021-11-30 오전 7 17 01
  2. 정리

  • selenium을 이용해서 네이버 학술 정보에 접근하고 데이터에 있는 제목을 검색하였습니다.
  • 검색된 페이지에서 beautifulsoup을 활용해서 논문의 원래 제목을 추출하여 변경하였습니다.
  • 현재는 데이터를 복원 중이며 마치는데로 수정된 데이터를 HuggingFace hub에 올리도록 하겠습니다.
@sangHa0411 sangHa0411 self-assigned this Nov 29, 2021
@sangHa0411 sangHa0411 added the help wanted Extra attention is needed label Nov 29, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

1 participant