Python

爬虫

最近学正则表达式，刚好知道这个网站美图录，就做了个爬虫拿来练练手，说一说遇到的问题

一 404问题

问题:

由于图片显示页面是分页的，每一页展示5张图片，为了方便没有每次去获取下一页链接，而是使用了拼接字符串的形式，本以为遇到不存在的页面会抛出异常，测试了下，结果当网站遇到404时会直接跳转推荐页，于是requests还能正常返回数据

解决方法:

requests提供了一个req_object.status_code参数，用于返回页面状态码，判断一下这个参数为404就停止生成链接

二文件写入问题

问题:

写入图片文件，图片无法正常显示

解决方法:

requests提供了img.content参数，用于将接受到的信息转换为二进制，然后在文件写入时，写入模式为"wb"，以二进制方式写入

三反爬策略

问题:

爬取图片时发现图片会返回403(禁止访问资源)，原因是网站做了防盗链处理，非本站访问图片都会返回403

解决方法:

在获取图片时添加headers请求头，在请求头中添加

'Referer':'https://m.meitulu.com/item/1.html' 将Referer 值设置为本站的图片展示页链接，这样服务器会认为请求来自本站页面，返回信息就会正常

美图录爬虫

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
meituluPachong.py		meituluPachong.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python

爬虫

一 404问题

问题:

解决方法:

二文件写入问题

问题:

解决方法:

三反爬策略

问题:

解决方法:

About

Releases

Packages

Languages

yangye230147961/meitulu_pachong

Folders and files

Latest commit

History

Repository files navigation

Python

爬虫

一 404问题

问题:

解决方法:

二 文件写入问题

问题:

解决方法:

三反爬策略

问题:

解决方法:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

二文件写入问题

Packages