爬虫: 爬取英文官方文档, 统计其中英语单词出现的频率, 并按降序排列, 用于英语学习
下载:
$ git clone https://github.com/cnlzxin/spider.git
运行:
$ cd ./spider/
$ scrapy crawl docs # 生成 docs.json 文件
数据处理:
$ python3 docs2dict.py # 在同目录下生成 dict_.json 文件
- 对 Golang 官方文档 进行统计
- 可以爬取任意英文网站文档
- 数据获取和处理一步到位
- 使用Web展示(
Django
) - 添加词根/义, 删除简单词
- 多线程 && 代理池
- 分布式