Crawler自动化 #8

zmy · 2014-02-10T11:55:31Z

目前尹福的抓取仍然要每次手动刷新，并且代码写得比较dirty。目前可以：

TerrorJack · 2014-03-29T08:20:41Z

建议重写crawler：

目标改为3g.renren.com，页面parsing容易做，方便抓取超大相册
只保留cookies登录方式。crawler可以定时轮询，遇到需重新登录识别验证码时停止轮询并自动e-mail通知admin，admin自行登录后将cookies远程推送到服务器上并重启轮询。

zmy · 2014-03-29T08:28:21Z

我先去联系下尹福作者看能不能直接访问数据O_O

zmy · 2014-03-29T08:31:27Z

@TerrorJack 3g.renren.com 是返回的html网页？

目前的crawler除了获取相册是html网页，其它都是直接拿的json _

TerrorJack · 2014-03-29T09:42:21Z

抓3g.renren.com拿不到json，全部走html，但是处理起来还是比www.renren.com方便一些，只需要提交cookies即可，不用管token什么的

cgcgbcbc · 2014-05-15T05:19:13Z

@zmy @TerrorJack
close or update this issue?

cgcgbcbc added this to the v0.1.0 milestone May 15, 2014

cgcgbcbc modified the milestones: v1.0.0, v0.1.0 May 22, 2014

cgcgbcbc added the data label May 22, 2014

cgcgbcbc assigned TerrorJack May 28, 2014

zmy unassigned TerrorJack Nov 30, 2014

Provide feedback