SCUCrawler

川大系列网站通知爬虫

Support

目前做了教务处、学工部、青春川大

Construction

SCUCrawler 使用 Web-Magic 作为爬虫框架

Dependencies

webmagic-core
webmagic-extension
markdownj-core
RxJava
AVOScloud

Struction

主要分为 task、page、db 三个部分，每一个独立的 Site 作为一个 task, 爬虫会根据该 Site 指定信息爬数据。每个 Site 下的每篇文章都由 Page 处理，并通过 PagePipleline 交给 PageFactory 进一步处理。PageFactory 对数据完成加工后，交给 Task，由 Task 控制 DB 储存。

Task 由 TaskManager 管理，在 main 中进行任务委托，TaskManager 依次运行每个 Task，从 Task 中获取爬虫信息并运行。

PageFactory 用于控制数据筛选及加工，每个 Task 均可注册 Solver 定制加工过程，Solver 调用顺序由注册顺序决定。

DB 部分负责管理 url 及对应内容。

TODO

需要从内容中提取不规范的附件

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
src/main		src/main
.gitignore		.gitignore
README.md		README.md
SCUCrawler.iml		SCUCrawler.iml
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SCUCrawler

Support

Construction

Dependencies

Struction

TODO

About

Releases

Packages

Languages

voidhackett/CPCC

Folders and files

Latest commit

History

Repository files navigation

SCUCrawler

Support

Construction

Dependencies

Struction

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages