-
内容大纲
网络爬虫是按照一定规则自动请求服务器上的网页,并采集网页数据的一种程序或脚本,它可以代替人进行数据采集,也可以自动采集网页数据、高效利用互联网数据,因此在市场应用中占据了重要位置。
本书以Windows操作系统为主要开发平台,系统、全面地讲解了网络爬虫的相关知识。本书的主要内容包括保存服务器网页到本地、使用正则表达式提取网页内容、爬取豆瓣电影TOP250栏目、使用requests库爬取电影网站、通过模拟用户登录爬取网站、使用Scrapy框架爬取图片网站、使用分布式爬虫爬取腾讯招聘频道,主要知识点囊括网络爬虫基础知识、网页请求原理、抓取静态网页数据、解析网页数据、抓取动态网页数据、网络爬虫的优化、数据的持久化存储、识别验证码、搭建网络爬虫框架、网络分布式爬虫Scrapy-Redis的开发和部署等。
本书内容通俗易懂,案例丰富,实用性强,特别适合Python语言的基础学习者和进阶学习者,也适合Python程序员、爬虫工程师等编程爱好者。本书不仅可以作为高校教材,也可以作为相关培训机构的教材,还可以作为广大网络爬虫开发者的参考书。此外,本书开发了丰富的教学资源库,并免费提供所有素材。 -
作者介绍
-
目录
项目一 保存服务器网页到本地
任务1 认识网络爬虫
任务演示
知识准备
1.初步认识网络爬虫
2.网络爬虫的结构及其工作原理
3.爬虫技术的风险与Robots协议
4.Python的安装
5.Pygame的简单使用
任务实施
任务拓展
1.反爬虫的目的与手段
2.Windo环境下的MongoDB数据库安装和配置
3.Linux环境下的MongoDB数据库安装和配置
任务2 将请求到的网页保存到本地
任务演示
知识准备
1.使用urllib请求网页
2.安装和配置MySQL数据库
任务实施
任务拓展
小结
复习题
项目二 使用正则表达式提取网页内容
任务1 在网页上展示伟大抗疫精神
任务演示
知识准备
1.HTML基础知识
2.CSS基础知识
3.CSS样式选择器
任务实施
任务拓展
1.JavaScript的引入
2.JavaScript的基本语法
任务2 使用正则表达式提取文本中的指定内容
任务演示
知识准备
1.正则表达式的基本语法
2.正则表达式的使用
任务实施
任务拓展
小结
复习题
项目三 爬取豆瓣电影TOP250栏目
任务1 使用urllib框架请求网页
任务演示
知识准备
1.网络爬虫开发的基本流程
2.urllib框架的基本模块
3.字符的编码和解码
任务实施
1.URL分析
2.编码规范
3.爬取豆瓣电影TOP250栏目
任务拓展
任务2 使用BeautifulSoup4解析网页
任务演示
知识准备
1.BeautifulSoup4的四个对象
2.文档的遍历
3.文档的搜索
任务实施
任务拓展
任务3 使用XPath解析网页数据
任务演示
知识准备
任务实施
任务拓展
任务4 数据的持久化存储
任务演示
知识准备
任务实施
任务拓展
小结
复习题
项目四 使用requests库爬取电影网站
任务1 使用requests库请求网页
任务演示
知识准备
1.requests库的安装
2.GET请求
3.POST请求
任务实施
任务拓展
任务2 使用requests-html库解析网页
任务演示
知识准备
1.requests-html库的新功能
2.requests-html库的安装
3.requests-html库的使用
任务实施
任务拓展
1.网络爬虫的优化
2.将请求到的数据保存到MySQL数据库中
小结
复习题
项目五 通过模拟用户登录爬取网站
任务1 模拟用户登录
任务演示
知识准备
1.使用ddddocr模块识别验证码
2.使用在线平台行打码
任务实施
1.对古诗文网的登录验证码行验证
2.实现模拟用户登录
任务拓展
1.携带Cookies请求网页
2.古诗文网登录实现
3.在登录成功后行数据采集
任务2 使用Selenium模拟用户登录豆瓣网
任务演示
知识准备
1.什么是Selenium
2.Selenium的安装
任务实施
任务拓展
小结
复习题
项目六 使用Scrapy框架爬取图片网站
任务1 Scrapy开发环境搭建
任务演示
知识准备
1.常见的爬虫框架
2.Scrapy框架概述
任务实施
任务拓展
任务2 使用Scrapy框架爬取代理IP
任务演示
知识准备
1.XPath选择器
2.CSS选择器
任务实施
任务拓展
任务3 Scrapy数据的持久化存储
任务演示
知识准备
1.基于终端命令存储
2.基于管道存储
任务实施
1.实现基于终端命令的数据持久化存储
2.实现基于管道的数据持久化存储——使用文本存储数据
3.实现基于管道的数据持久化存储—使用MySQL数据库存储数据
4.实现基于管道的数据持久化存储——使用Redis数据库存储数据
5.实现基于管道的数据持久化存储——使用MongoDB数据库存储数据
任务拓展
任务4 爬取图片网站
任务演示
知识准备
任务实施
任务拓展
1.将爬取的图片名及其路径保存到MySQL数据库中
2.使用Scrapy框架爬取图说历史栏目
小结
复习题
项目七 使用分布式爬虫爬取腾讯招聘频道
任务1 搭建Scrapy-Redis开发环境
任务演示
知识准备
1.分布式爬虫的基本概念
2.分布式环境的搭建
3.在Ubuntu系统上安装Scrapy
4.在CentOS 7系统上安装Scrapy
任务实施
任务拓展
任务2 开发分布式爬虫
任务演示
知识准备
任务实施
1.创建Scrapy爬虫
2.初始化配置
3.网站结构分析
4.爬虫的核心代码
5.部署分布式爬虫
任务拓展
1.随机请求头
2.爬取视频
小结
复习题
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...