Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【征集】不兼容站点 url #136

Open
bigbrother666sh opened this issue Dec 2, 2024 · 8 comments
Open

【征集】不兼容站点 url #136

bigbrother666sh opened this issue Dec 2, 2024 · 8 comments

Comments

@bigbrother666sh
Copy link
Member

wiseflow计划在下一个版本(V0.3.2)引入全新的基于 playwright 的通用爬虫,以实现对复杂页面(尤其是动态页面)的更好适配。
目前初步试验下来,包括之前容易解析为乱码的国内新闻网站,无法获取全部信息的论坛都能得到很好的支持……如果您在实际业务中有发现目前版本不能很好支持的url 或者您业务中常见的 url,欢迎跟帖留言,我将优先进行测试。

感谢大家!

@bigbrother666sh
Copy link
Member Author

目前如下站点V0.3.2已经测试可以完美读取,
https://cryptopanic.com/news/
https://mp.weixin.qq.com/s/ (微信公众号普通文章)
https://news.bjx.com.cn/rankinglist/qingneng/
https://www.xuexi.cn/ (学习强国文章)
http://www.people.com.cn/ (人民网文章)

后续大家发现不能读取的网站,欢迎跟帖

@bigbrother666sh bigbrother666sh pinned this issue Dec 6, 2024
@bigbrother666sh bigbrother666sh changed the title 【征集】测试站点 url 【征集】不兼容站点 url Dec 6, 2024
@live-in-the-moment
Copy link

https://www.gd121.cn/zx/qxzx/list.shtml
这个网站无法获取文章数据详情,配置时只能获取列表页面

@bigbrother666sh
Copy link
Member Author

https://www.gd121.cn/zx/qxzx/list.shtml 这个网站无法获取文章数据详情,配置时只能获取列表页面

你用最新的 V0.3.5 试试看,我试下来可以啊

image

@live-in-the-moment
Copy link

https://www.gd121.cn/zx/qxzx/list.shtml 这个网站无法获取文章数据详情,配置时只能获取列表页面

你用最新的 V0.3.5 试试看,我试下来可以啊

image

更新为V0.3.5版本了:
image
还是拿到的列表标题数据,没有进入相关数据标签详情页,拿里面的数据作为 最后的content;
url为:https://ftp.gd121.cn/zx/zhxx/list.shtml

@bigbrother666sh
Copy link
Member Author

https://www.gd121.cn/zx/qxzx/list.shtml 这个网站无法获取文章数据详情,配置时只能获取列表页面

你用最新的 V0.3.5 试试看,我试下来可以啊
image

更新为V0.3.5版本了: image 还是拿到的列表标题数据,没有进入相关数据标签详情页,拿里面的数据作为 最后的content; url为:https://ftp.gd121.cn/zx/zhxx/list.shtml

进不进链接、以及如何提取数据是按你兴趣点设定的,你可以把兴趣点写的详细写,比如2024年12月12日广州市的天气这些……不然的话,任何页面的有关广州天气的信息都会提取(如果页面很多的话,你要等待所有页面都爬取完毕后)

@live-in-the-moment
Copy link

https://www.gd121.cn/zx/qxzx/list.shtml 这个网站无法获取文章数据详情,配置时只能获取列表页面

你用最新的 V0.3.5 试试看,我试下来可以啊
image

更新为V0.3.5版本了: image 还是拿到的列表标题数据,没有进入相关数据标签详情页,拿里面的数据作为 最后的content; url为:https://ftp.gd121.cn/zx/zhxx/list.shtml

进不进链接、以及如何提取数据是按你兴趣点设定的,你可以把兴趣点写的详细写,比如2024年12月12日广州市的天气这些……不然的话,任何页面的有关广州天气的信息都会提取(如果页面很多的话,你要等待所有页面都爬取完毕后)

明白了,非常感谢您

@bigbrother666sh
Copy link
Member Author

测试下来 https://www.zhihu.com/topic/19552832/hot 这个不行
等待后续方案

@bigbrother666sh
Copy link
Member Author

学习强国全站效果都一般……
不是不能获取内容,而是解析不全。这网站有些特殊,等待后续方案

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants