国际标准书号(ISBN):978-7-5763-3157-8 |
主 题 名:网络爬虫技术 |
|
开 本: |
副 题 名:计算机专业产教融合系列新形态教材 |
教材规划类别: |
装订方式:平装 |
作 者:吴月萍 主编 |
最新印次日期:2024-05-20 |
定 价:59.80 |
责任编辑:王玲玲 策划编辑:高芳 |
中图法分类号: |
全文字数:.00千字 |
读者对象:适用于高职层次读者。 |
图书简介:
本书内容主要包含6部分,第1部分认识网页的构造及爬虫的原理,第2部分实现静态网页的爬取,第3部分实现数据存储到文件、数据库,第4部分实现动态网页的爬取,第5部分针对不同反爬限制技术实现数据爬取,第6部分使用Scrapy爬虫框架进行爬取。内容较好地涵盖了企业爬虫岗位所需要掌握得requests、httpx、BeautifulSoup、lxml、parsel、Selenium等第三方库及正则,数据的文本、CSV、JSON文件存储,MySQL、MongoDB数据库存储,中间件集成中的Redis、Kafka等使用,Scrapy框架以及解决如图片验证码、账号限制、IP限制等问题。 本书以企业级的项目为主线进行讲解,每个部分通过“项目-任务-案例”展开,对所需的知识点进行全面的介绍,并给出了任务实现的详细操作步骤和相应的实战练习题。全书由浅入深、实例生动、易学易用,可以满足不同层次读者的需求。 |
项目1 网页构造的认识 …………………………………………………………………1
任务1.1 认识网络爬虫…………………………………………………………………2
1.1.1 大数据与网络爬虫 …………………………………………………………………2
1.1.2 编程环境及工具包 …………………………………………………………………3
任务1.2 网页构造………………………………………………………………………11
1.2.1 HTTP和HTTPS ……………………………………………………………11
1.2.2 HTML和 CSS …………………………………………………………………15
1.2.3 Session和 Cookie……………………………………………………………18
1.2.4 多线程和多进程 ……………………………………………………………………21
项目2 静态网页爬取 …………………………………………………………………27
任务2.1 实现 HTTP请求 ……………………………………………………………………32
2.1.1 Requests 库的使用 …………………………………………………………………33
2.1.2 HTTPX库的使用……………………………………………………………………38
2.1.3 任务实施 …………………………………………………………………………42
任务2.2 解析网页数据…………………………………………………………………44
2.2.1 BeautifulSoup库的使用 ……………………………………………………………44
2.2.2 lxml库的使用 ………………………………………………………………………55
2.2.3 正则表达式 ………………………………………………………………………62
2.2.4 Parsel库的使用 ……………………………………………………………………70
2.2.5 任务实施…………………………………………………………………………75
任务2.3 基础爬虫案例分析与实战………………………………………………………78
项目3 数据存储 …………………………………………………………………………87
任务3.1 存储到文件……………………………………………………………………88
3.1.1 存储为文本文件 …………………………………………………………………88
3.1.2 存储为CSV文件………………………………………………………………91
3.1.3 存储为 JSON文件 ………………………………………………………………93
3.1.4 任务实施………………………………………………………………………97
任务3.2 存储到数据库…………………………………………………………………100
3.2.1 存储到 MySQL数据库……………………………………………………………100
3.2.2 存储到 MongoDB数据库…………………………………………………………113
3.2.3 任务实施 …………………………………………………………………………120
任务3.3 中间件使用………………………………………………………………………123
3.3.1 Redis的使用 ………………………………………………………………………123
3.3.2 Kafka 的使用 ………………………………………………………………………127
3.3.3 RabbitMQ的使用……………………………………………………………………133
3.3.4 任务实施 …………………………………………………………………………138
项目4 动态网页爬取 …………………………………………………………………145
任务4.1 逆向分析爬取……………………………………………………………………146
4.1.1 Ajax与数据爬取 …………………………………………………………………146
4.1.2 网站加密与 JavaScript Hook ………………………………………………………151
4.1.3 PyExecJS 库的使用 …………………………………………………………………161
4.1.4 任务实施 ……………………………………………………………………………172
任务4.2 使用 Selenium模拟浏览器……………………………………………………175
4.2.1 Selenium爬虫应用 ………………………………………………………………186
4.2.2 任务实施 …………………………………………………………………………190
任务4.3 动态网站分析与爬虫案例实战…………………………………………………194
项目5 反爬限制技术 …………………………………………………………………207
任务5.1 图片校验码……………………………………………………………………209
5.1.1 OCR技术的使用…………………………………………………………………210
5.1.2 手机验证码的处理技术 …………………………………………………………219
任务5.2 账号限制………………………………………………………………………225
任务5.3 IP限制…………………………………………………………………………229
任务5.4 反爬分析与爬虫案例实战………………………………………………………232
项目6 Scrapy 爬虫框架 ………………………………………………………………249
任务6.1 初探 Scrapy …………………………………………………………………250
6.1.1 Scrapy 框架入门 …………………………………………………………………257
6.1.2 Spider的使用 ………………………………………………………………………266
6.1.3 Selector 的使用………………………………………………………………………272
6.1.4 任务实施 …………………………………………………………………………279
任务6.2 Scrapy拓展…………………………………………………………283
6.2.1 对接 Selenium的应用……………………………………………………………283
6.2.2 对接 Splash的应用 …………………………………………………………………292
6.2.3 任务实施…………………………………………………………………………298
任务6.3 Scrapy 爬虫案例实战……………………………………………………………302
附录 爬虫的法律法规 ……………………………………………………………………315
吴月萍,自2002.8至今在上海第二工业大学任职,系高等职业技术(国际)学院计算机应用技术(IT服务方向)专业负责人。主要研究领域是数据挖掘、算法分析与设计。任现职来,以第一作者发表了20多篇论文,其中3篇中文核心期刊,6篇EI检索,3篇发表在中国科技引证报告正刊,8篇教改论文;出版教材1本,排名第2。主要讲授数据结构、C程序设计、Java程序设计、动态Web编程、python程序设计、网络爬虫技术等课程。