COOL-EWHA / devook-crawler Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

개발자를 위한 AI 북마크 비서 - devook의 블로그 글 crawler 레포지토리입니다.

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
blog_crawler		blog_crawler
crawler		crawler
docker		docker
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Repository files navigation

devook-crawler

FastText 모델 학습을 위한 데이터를 수집하는 크롤러 입니다.

기능

Surfit과 Tistory의 카테고리별 데이터를 Python 기반 Selenium을 사용해 크롤링 합니다.

해당 페이지로부터 html을 가져옵니다.
url, title, description을 파싱합니다.
해당 데이터를 csv 파일에 저장합니다.

실행

해당 레포지토리를 git clone 합니다.
사용하는 크롬 버전에 알맞은 chromedriver를 설치합니다.
surfit.py와 tistory.py 파일을 실행합니다.

About

개발자를 위한 AI 북마크 비서 - devook의 블로그 글 crawler 레포지토리입니다.

Custom properties

Report repository

Releases

No releases published

Packages

No packages published

Contributors 2

Languages

Python 100.0%