Skip to content

개발자를 위한 AI 북마크 비서 - devook의 블로그 글 crawler 레포지토리입니다.

Notifications You must be signed in to change notification settings

COOL-EWHA/devook-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

49 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

devook-crawler

FastText 모델 학습을 위한 데이터를 수집하는 크롤러 입니다.

기능

Surfit과 Tistory의 카테고리별 데이터를 Python 기반 Selenium을 사용해 크롤링 합니다.

  1. 해당 페이지로부터 html을 가져옵니다.
  2. url, title, description을 파싱합니다.
  3. 해당 데이터를 csv 파일에 저장합니다.

실행

  1. 해당 레포지토리를 git clone 합니다.
  2. 사용하는 크롬 버전에 알맞은 chromedriver를 설치합니다.
  3. surfit.pytistory.py 파일을 실행합니다.

About

개발자를 위한 AI 북마크 비서 - devook의 블로그 글 crawler 레포지토리입니다.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages