理工教育网

ISBN：978-7-5763-3157-8

主题名：网络爬虫技术

副题名：计算机专业产教融合系列新形态教材

作者：吴月萍主编

层次分类：高职教材

读者对象：适用于高职层次读者。

责任编辑：王玲玲

开本：

装订方式：平装

定价：59.80

全文字数：.00千字

最新印次日期：2024-05-20

中图法分类号：

图书简介：

本书内容主要包含6部分，第1部分认识网页的构造及爬虫的原理，第2部分实现静态网页的爬取，第3部分实现数据存储到文件、数据库，第4部分实现动态网页的爬取，第5部分针对不同反爬限制技术实现数据爬取，第6部分使用Scrapy爬虫框架进行爬取。内容较好地涵盖了企业爬虫岗位所需要掌握得requests、httpx、BeautifulSoup、lxml、parsel、Selenium等第三方库及正则，数据的文本、CSV、JSON文件存储，MySQL、MongoDB数据库存储，中间件集成中的Redis、Kafka等使用，Scrapy框架以及解决如图片验证码、账号限制、IP限制等问题。
本书以企业级的项目为主线进行讲解，每个部分通过“项目-任务-案例”展开，对所需的知识点进行全面的介绍，并给出了任务实现的详细操作步骤和相应的实战练习题。全书由浅入深、实例生动、易学易用，可以满足不同层次读者的需求。

项目1 网页构造的认识 …………………………………………………………………1
任务1.1 认识网络爬虫…………………………………………………………………2
1.1.1 大数据与网络爬虫 …………………………………………………………………2
1.1.2 编程环境及工具包 …………………………………………………………………3
任务1.2 网页构造………………………………………………………………………11
1.2.1 HTTP和HTTPS ……………………………………………………………11
1.2.2 HTML和 CSS …………………………………………………………………15
1.2.3 Session和 Cookie……………………………………………………………18
1.2.4 多线程和多进程 ……………………………………………………………………21
项目2 静态网页爬取 …………………………………………………………………27
任务2.1 实现 HTTP请求 ……………………………………………………………………32
2.1.1 Requests 库的使用 …………………………………………………………………33
2.1.2 HTTPX库的使用……………………………………………………………………38
2.1.3 任务实施 …………………………………………………………………………42
任务2.2 解析网页数据…………………………………………………………………44
2.2.1 BeautifulSoup库的使用 ……………………………………………………………44
2.2.2 lxml库的使用 ………………………………………………………………………55
2.2.3 正则表达式 ………………………………………………………………………62
2.2.4 Parsel库的使用 ……………………………………………………………………70
2.2.5 任务实施…………………………………………………………………………75
任务2.3 基础爬虫案例分析与实战………………………………………………………78
项目3 数据存储 …………………………………………………………………………87
任务3.1 存储到文件……………………………………………………………………88
3.1.1 存储为文本文件 …………………………………………………………………88
3.1.2 存储为CSV文件………………………………………………………………91
3.1.3 存储为 JSON文件 ………………………………………………………………93
3.1.4 任务实施………………………………………………………………………97
任务3.2 存储到数据库…………………………………………………………………100
3.2.1 存储到 MySQL数据库……………………………………………………………100
3.2.2 存储到 MongoDB数据库…………………………………………………………113
3.2.3 任务实施 …………………………………………………………………………120
任务3.3 中间件使用………………………………………………………………………123
3.3.1 Redis的使用 ………………………………………………………………………123
3.3.2 Kafka 的使用 ………………………………………………………………………127
3.3.3 RabbitMQ的使用……………………………………………………………………133
3.3.4 任务实施 …………………………………………………………………………138
项目4 动态网页爬取 …………………………………………………………………145
任务4.1 逆向分析爬取……………………………………………………………………146
4.1.1 Ajax与数据爬取 …………………………………………………………………146
4.1.2 网站加密与 JavaScript Hook ………………………………………………………151
4.1.3 PyExecJS 库的使用 …………………………………………………………………161
4.1.4 任务实施 ……………………………………………………………………………172
任务4.2 使用 Selenium模拟浏览器……………………………………………………175
4.2.1 Selenium爬虫应用 ………………………………………………………………186
4.2.2 任务实施 …………………………………………………………………………190
任务4.3 动态网站分析与爬虫案例实战…………………………………………………194
项目5 反爬限制技术 …………………………………………………………………207
任务5.1 图片校验码……………………………………………………………………209
5.1.1 OCR技术的使用…………………………………………………………………210
5.1.2 手机验证码的处理技术 …………………………………………………………219
任务5.2 账号限制………………………………………………………………………225
任务5.3 IP限制…………………………………………………………………………229
任务5.4 反爬分析与爬虫案例实战………………………………………………………232
项目6 Scrapy 爬虫框架 ………………………………………………………………249
任务6.1 初探 Scrapy …………………………………………………………………250
6.1.1 Scrapy 框架入门 …………………………………………………………………257
6.1.2 Spider的使用 ………………………………………………………………………266
6.1.3 Selector 的使用………………………………………………………………………272
6.1.4 任务实施 …………………………………………………………………………279
任务6.2 Scrapy拓展…………………………………………………………283
6.2.1 对接 Selenium的应用……………………………………………………………283
6.2.2 对接 Splash的应用 …………………………………………………………………292
6.2.3 任务实施…………………………………………………………………………298
任务6.3 Scrapy 爬虫案例实战……………………………………………………………302
附录爬虫的法律法规 ……………………………………………………………………315