网站共28个分类 每个分类10000数据,要做全网监控的话,每天要爬28万条数据
https://www.indiegogo.com/private_api/discover:主数据来源 https://www.indiegogo.com/+"clickthrough_url":通过html.xpath('//meta[@name="sailthru.displayed_contributions"]/@content')[0] 获得众筹支持人数
原始数据成分复杂,冗余成分多,用mongodb做数据库 'funds_raised_amount_'+datetime.now().strftime('%Y-%m-%d')记录每日金额 "raised_"+datetime.now().strftime('%Y-%m-%d')记录每日增加金额 方便日后做榜单排名和数据分析
matplotlib.pyplot 绘制折线图方便数据展示
web框架选用flask
模板用jinja2格式
外国网站,网速是爬取速度的最大瓶颈. 会封id,大概为半小时.需要做简单的浏览器伪装.
建议挂外网代理.
爬数据>清洗数据>入库>做增量分析>做排行榜单>提前绘制数据图
代码已写好,可用脚本按顺序执行.
录制的MP4文件展示了一下数据在前端显示的大概样子.以及数据库的结构和文件数据