人类社会已经进入大数据时代,大数据深刻改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所未有的社会价值和商业价值。大数据成为 21 世纪最为重要的经济资源之一。正如马云所言:未来最大的能源不是石油而是大数据。对大数据的获取、处理与分析,以及基于大数据的智能应用,已成为提高未来竞争力的关键要素。
但如何获取这些宝贵数据呢?网络爬虫就是一种高效的信息采集利器,利用它可以快速、准确地采集我们想要的各种数据资源。因此,可以说,网络爬虫技术几乎已成为大数据时代 IT 从业者的必修课程。
我们需要采集的数据大多来源于互联网的各个网站。然而,不同的网站结构不一、布局复杂、渲染方式多样,有的网站还专门采取了一系列 “反爬” 的防范措施。因此,为准确高效地采集到需要的数据,我们需要采取具有针对性的反制措施。网络爬虫与反爬措施是矛与盾的关系,网络爬虫技术就是在这种针锋相对、见招拆招的不断斗争中,逐渐完善和发展起来的。
本书介绍了利用 Python 3 进行网络爬虫开发的各项技术,从环境配置、理论基础到进阶实战、分布式大规模采集,详细介绍了网络爬虫开发过程中需要了解的知识点,并通过多个案例介绍了不同场景下采用不同爬虫技术实现数据爬取的过程。
我坚信,每位读者学习和掌握了这些技术之后,成为一个爬虫高手将不再是梦想!
—— 李舟军,北京航空航天大学教授,博士生导师
——2017 年 10 月