scrapy_medical

最近毕设，想要做一个疾病诊断系统，需要爬一些数据，正好想要学习一下scrapy框架，因此使用scrapy框架爬取了问医网上的一些医疗疾病数据，里面涉及到了分页，分块，多级嵌套爬取，贴出来和大家一起学习

安装scrapy 和 mongodb

pip install scrapy
brew install mongodb

创建一个scrapy工程

scrapy startproject yourproject 创建好的工程目录结构如下：

yourproject/
   scrapy.cfg
   yourproject/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           ...

其中

scrapy.cfg所在的目录为根目录
items.py为你自己需要定义的爬虫爬下来的格式
pipelines.py为数据的处理和导出
spider目录为你自己需要定义的蜘蛛的目录

具体的实现可参考本工程

other

该工程的爬虫是按照疾病的拼音，爬取所有的疾病信息，包括：病因，概述，症状，化验检查，治疗方法，并发症，如何预防，饮食保健。数据最终存储在本地的mongodb中，格式如下：

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
medicaldata		medicaldata
README.md		README.md
mongodb_data.png		mongodb_data.png
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

scrapy_medical

安装scrapy 和 mongodb

创建一个scrapy工程

other

About

Releases

Packages

Languages

baiyyang/scrapy_medical

Folders and files

Latest commit

History

Repository files navigation

scrapy_medical

安装scrapy 和 mongodb

创建一个scrapy工程

other

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages