2000년에서 2019년까지 출간된 국어국문학과 박사 학위논문(현대문학) 1,528편의 서지정보를 수집하고 분석해
한국 현대문학 연구 변화와 앞으로의 동향을 전망하는 연구의 파이썬 코드입니다.
데이터 수집 및 분석의 자세한 과정은 아래 논문을 참고하십시오.
논문이나 코드관련 문의는 아래 저자 소개에 있는 이메일로 연락주시거나 깃허브 issue 페이지를 통해 받겠습니다.
- 김병준(성균관대학교 인터랙션사이언스학과 박사과정/국어국문학과 강사, [email protected])
- 천정환(성균관대학교 국어국문학과 교수, [email protected])
Jupyter 코드(ipynb)를 다운받아 로컬에서 활용하거나,
핵심 코드 3개(전처리, 키워드, 모델링)는 Google Colab으로 바로 코드 확인 및 개발 가능.
- keywords : TF/TF-IDF 기준 시기별 키워드. 단어-단어 네트워크 매트릭스
- model : 시계열 토픽 모델링 model 파일
- plot : 토픽 內 단어변화 플롯 및 연도별 상위 20개 단어와 토픽-토픽 네트워크 매트릭스
- riss : RISS에서 다운로드 받은 서지정보 예시 파일
Selenium 을 활용한 RISS 서지정보 자동 내려받기 (2024년 현재 작동 불가)
00RissCrawling.ipynb (RISS 서지정보 자동수집, 코드 활용안내 튜토리얼)
01RissParsing.ipynb (RISS에서 다운로드 받은 서지정보 엑셀파일 합치기)
크롬 드라이버 다운로드
02Preprocess.ipynb (구글 Colab 링크)
- Pandas를 활용한 데이터 전처리
- 사용자 사전 구축
- Khaiii 형태소 분석기
- 불용어 처리
03Keywords.ipynb (구글 Colab 링크)
- 기술 통계량
- TF, TF-IDF 기준 키워드 추출
- 시기별 키워드 추출
04Model.ipynb (구글 Colab 링크)
Dynamic Topic Model 바이너리 Github
Dynamic Topic Model 바이너리 다운로드(윈도우64)
Dynamic Topic Model 바이너리 다운로드(리눅스64)
- 모델링
- 시간에 따른 토픽별 주요단어 변화
- 모델링 결과 시각화
- 토픽-토픽 네트워크