理工教育网──北京理工大学出版社

样书申请
 资源下载
 自助出版
 在线课堂

工业和信息化部
 教育部
 北京理工大学
 国家新闻出版署
 北京理工大学出版社

样书申请流程
 教育出版规划
 书稿格式规范要求
 投稿要求
 投稿方式

地址：北京市丰台区四合庄路6号院
邮编：100081
邮箱：edu@bitpress.com.cn
电话：010-68914026，010-82562903

当前用户来自：局域网，网络服务商为：IP 今日访问IP数：总访问IP数：

理工教育网软著登字第11616917号版权所有：北京理工大学出版社 ©Beijing Institute Technology Press

系统开发&技术支持：出版产业通用数据交换技术重点实验室 & 北京理工大学出版社陈俊武京ICP备 13035462号-1 京公网安备 11010802024304号

理工社官网服务热线：010-68914026，010-82562903

群组交流注册

教育网手机版

扫码访问

首页 > 教材 > 高职教材

分享至：

网络爬虫技术（）

计算机专业产教融合系列新形态教材

作者：吴月萍主编

I S B N：978-7-5763-3157-8

适用对象：适用于高职层次读者。

特别申明：本页面【京东购买】按钮，仅是通过京东API接口以ISBN为关键字搜索京东商城图书信息，本网站及北京理工大学出版社有限责任公司不对京东及其他第三方的销售行为和图书真伪作担保及保证。

扫码申请样书

移动端查看

本书内容主要包含6部分，第1部分认识网页的构造及爬虫的原理，第2部分实现静态网页的爬取，第3部分实现数据存储到文件、数据库，第4部分实现动态网页的爬取，第5部分针对不同反爬限制技术实现数据爬取，第6部分使用Scrapy爬虫框架进行爬取。内容较好地涵盖了企业爬虫岗位所需要掌握得requests、httpx、BeautifulSoup、lxml、parsel、Selenium等第三方库及正则，数据的文本、CSV、JSON文件存储，MySQL、MongoDB数据库存储，中间件集成中的Redis、Kafka等使用，Scrapy框架以及解决如图片验证码、账号限制、IP限制等问题。
本书以企业级的项目为主线进行讲解，每个部分通过“项目-任务-案例”展开，对所需的知识点进行全面的介绍，并给出了任务实现的详细操作步骤和相应的实战练习题。全书由浅入深、实例生动、易学易用，可以满足不同层次读者的需求。

图书详情

基本信息
章节目录
作者简介
图书评论

国际标准书号（ISBN）：978-7-5763-3157-8
主题名：网络爬虫技术		开本：
副题名：计算机专业产教融合系列新形态教材	教材规划类别：	装订方式：平装
作者：吴月萍主编	最新印次日期：2024-05-20	定价：59.80
责任编辑：王玲玲策划编辑：高芳	中图法分类号：	全文字数：.00千字
读者对象：适用于高职层次读者。
图书简介：本书内容主要包含6部分，第1部分认识网页的构造及爬虫的原理，第2部分实现静态网页的爬取，第3部分实现数据存储到文件、数据库，第4部分实现动态网页的爬取，第5部分针对不同反爬限制技术实现数据爬取，第6部分使用Scrapy爬虫框架进行爬取。内容较好地涵盖了企业爬虫岗位所需要掌握得requests、httpx、BeautifulSoup、lxml、parsel、Selenium等第三方库及正则，数据的文本、CSV、JSON文件存储，MySQL、MongoDB数据库存储，中间件集成中的Redis、Kafka等使用，Scrapy框架以及解决如图片验证码、账号限制、IP限制等问题。本书以企业级的项目为主线进行讲解，每个部分通过“项目-任务-案例”展开，对所需的知识点进行全面的介绍，并给出了任务实现的详细操作步骤和相应的实战练习题。全书由浅入深、实例生动、易学易用，可以满足不同层次读者的需求。

项目1 网页构造的认识 …………………………………………………………………1
任务1.1 认识网络爬虫…………………………………………………………………2
1.1.1 大数据与网络爬虫 …………………………………………………………………2
1.1.2 编程环境及工具包 …………………………………………………………………3
任务1.2 网页构造………………………………………………………………………11
1.2.1 HTTP和HTTPS ……………………………………………………………11
1.2.2 HTML和 CSS …………………………………………………………………15
1.2.3 Session和 Cookie……………………………………………………………18
1.2.4 多线程和多进程 ……………………………………………………………………21
项目2 静态网页爬取 …………………………………………………………………27
任务2.1 实现 HTTP请求 ……………………………………………………………………32
2.1.1 Requests 库的使用 …………………………………………………………………33
2.1.2 HTTPX库的使用……………………………………………………………………38
2.1.3 任务实施 …………………………………………………………………………42
任务2.2 解析网页数据…………………………………………………………………44
2.2.1 BeautifulSoup库的使用 ……………………………………………………………44
2.2.2 lxml库的使用 ………………………………………………………………………55
2.2.3 正则表达式 ………………………………………………………………………62
2.2.4 Parsel库的使用 ……………………………………………………………………70
2.2.5 任务实施…………………………………………………………………………75
任务2.3 基础爬虫案例分析与实战………………………………………………………78
项目3 数据存储 …………………………………………………………………………87
任务3.1 存储到文件……………………………………………………………………88
3.1.1 存储为文本文件 …………………………………………………………………88
3.1.2 存储为CSV文件………………………………………………………………91
3.1.3 存储为 JSON文件 ………………………………………………………………93
3.1.4 任务实施………………………………………………………………………97
任务3.2 存储到数据库…………………………………………………………………100
3.2.1 存储到 MySQL数据库……………………………………………………………100
3.2.2 存储到 MongoDB数据库…………………………………………………………113
3.2.3 任务实施 …………………………………………………………………………120
任务3.3 中间件使用………………………………………………………………………123
3.3.1 Redis的使用 ………………………………………………………………………123
3.3.2 Kafka 的使用 ………………………………………………………………………127
3.3.3 RabbitMQ的使用……………………………………………………………………133
3.3.4 任务实施 …………………………………………………………………………138
项目4 动态网页爬取 …………………………………………………………………145
任务4.1 逆向分析爬取……………………………………………………………………146
4.1.1 Ajax与数据爬取 …………………………………………………………………146
4.1.2 网站加密与 JavaScript Hook ………………………………………………………151
4.1.3 PyExecJS 库的使用 …………………………………………………………………161
4.1.4 任务实施 ……………………………………………………………………………172
任务4.2 使用 Selenium模拟浏览器……………………………………………………175
4.2.1 Selenium爬虫应用 ………………………………………………………………186
4.2.2 任务实施 …………………………………………………………………………190
任务4.3 动态网站分析与爬虫案例实战…………………………………………………194
项目5 反爬限制技术 …………………………………………………………………207
任务5.1 图片校验码……………………………………………………………………209
5.1.1 OCR技术的使用…………………………………………………………………210
5.1.2 手机验证码的处理技术 …………………………………………………………219
任务5.2 账号限制………………………………………………………………………225
任务5.3 IP限制…………………………………………………………………………229
任务5.4 反爬分析与爬虫案例实战………………………………………………………232
项目6 Scrapy 爬虫框架 ………………………………………………………………249
任务6.1 初探 Scrapy …………………………………………………………………250
6.1.1 Scrapy 框架入门 …………………………………………………………………257
6.1.2 Spider的使用 ………………………………………………………………………266
6.1.3 Selector 的使用………………………………………………………………………272
6.1.4 任务实施 …………………………………………………………………………279
任务6.2 Scrapy拓展…………………………………………………………283
6.2.1 对接 Selenium的应用……………………………………………………………283
6.2.2 对接 Splash的应用 …………………………………………………………………292
6.2.3 任务实施…………………………………………………………………………298
任务6.3 Scrapy 爬虫案例实战……………………………………………………………302
附录爬虫的法律法规 ……………………………………………………………………315

吴月萍，自2002.8至今在上海第二工业大学任职，系高等职业技术（国际）学院计算机应用技术（IT服务方向）专业负责人。主要研究领域是数据挖掘、算法分析与设计。任现职来，以第一作者发表了20多篇论文，其中3篇中文核心期刊，6篇EI检索，3篇发表在中国科技引证报告正刊,8篇教改论文；出版教材1本，排名第2。主要讲授数据结构、C程序设计、Java程序设计、动态Web编程、python程序设计、网络爬虫技术等课程。

同系列教材

网络爬虫技术

吴月萍主编

978-7-5763-3157-8 ￥59.80

现代物流管理

李阳耿波主编

978-7-5763-3854-6 ￥49.80

大学语文

杨梅杨荔翟雪艳主编

978-7-5763-2873-8 ￥36.00

基础会计（第4版）

袁三梅曾理主编

978-7-5763-2654-3 ￥59.80

船舶组网设计与施工

王宇_主编

978-7-5763-0536-4 ￥39.00

船舶电气设备维护与检修

管旭_主编

978-7-5763-1151-8 ￥55.00

船舶管路系统调试

郑学贵_沈蔷_主编

978-7-5763-0869-3 ￥39.00

船舶电路基础（含实训）

华春梅_主编

978-7-5763-0323-0 ￥42.00

幼儿教师美术技能儿童画

邰康锋_主编

978-7-5763-0868-6 ￥49.00

飞机液压与气动技术

陈儒军_刘清平_主编

978-7-5763-0779-5 ￥49.80

船厂供电系统运行与维护

刘娟_段丽华_主编

978-7-5763-0526-5 ￥49.80

环境监测

王海萍_彭娟莹_主编

978-7-5763-0777-1 ￥39.00