GitHub

1.网站分析

网站共28个分类每个分类10000数据,要做全网监控的话,每天要爬28万条数据

2.爬取api 分析

https://www.indiegogo.com/private_api/discover:主数据来源 https://www.indiegogo.com/+"clickthrough_url":通过html.xpath('//meta[@name="sailthru.displayed_contributions"]/@content')[0] 获得众筹支持人数

3.数据库

原始数据成分复杂,冗余成分多,用mongodb做数据库 'funds_raised_amount_'+datetime.now().strftime('%Y-%m-%d')记录每日金额 "raised_"+datetime.now().strftime('%Y-%m-%d')记录每日增加金额方便日后做榜单排名和数据分析

4.绘图

matplotlib.pyplot 绘制折线图方便数据展示

5.可有可无的前端展示

web框架选用flask

模板用jinja2格式

一些问题:

外国网站,网速是爬取速度的最大瓶颈. 会封id,大概为半小时.需要做简单的浏览器伪装.

建议挂外网代理.

日常操作:

爬数据>清洗数据>入库>做增量分析>做排行榜单>提前绘制数据图

代码已写好,可用脚本按顺序执行.

录制的MP4文件展示了一下数据在前端显示的大概样子.以及数据库的结构和文件数据

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.idea		.idea
analys_flask		analys_flask
indiegogo_spider		indiegogo_spider
Config.py		Config.py
README.md		README.md
analys.py		analys.py
headers		headers
mongo_test.py		mongo_test.py
requirements.txt		requirements.txt
test.py		test.py
time_test.py		time_test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

1.网站分析

2.爬取api 分析

3.数据库

4.绘图

5.可有可无的前端展示

一些问题:

日常操作:

About

Releases

Packages

Languages

goshut/spider_q

Folders and files

Latest commit

History

Repository files navigation

1.网站分析

2.爬取api 分析

3.数据库

4.绘图

5.可有可无的前端展示

一些问题:

日常操作:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages