-
Notifications
You must be signed in to change notification settings - Fork 925
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【征集】不兼容站点 url #136
Comments
目前如下站点V0.3.2已经测试可以完美读取, 后续大家发现不能读取的网站,欢迎跟帖 |
https://www.gd121.cn/zx/qxzx/list.shtml |
你用最新的 V0.3.5 试试看,我试下来可以啊 |
更新为V0.3.5版本了: |
进不进链接、以及如何提取数据是按你兴趣点设定的,你可以把兴趣点写的详细写,比如2024年12月12日广州市的天气这些……不然的话,任何页面的有关广州天气的信息都会提取(如果页面很多的话,你要等待所有页面都爬取完毕后) |
明白了,非常感谢您 |
测试下来 https://www.zhihu.com/topic/19552832/hot 这个不行 |
学习强国全站效果都一般…… |
wiseflow计划在下一个版本(V0.3.2)引入全新的基于 playwright 的通用爬虫,以实现对复杂页面(尤其是动态页面)的更好适配。
目前初步试验下来,包括之前容易解析为乱码的国内新闻网站,无法获取全部信息的论坛都能得到很好的支持……如果您在实际业务中有发现目前版本不能很好支持的url 或者您业务中常见的 url,欢迎跟帖留言,我将优先进行测试。
感谢大家!
The text was updated successfully, but these errors were encountered: