-
内容大纲
本书以Python语言为基础,介绍了爬虫的基础知识。本书包括6个实战项目,分别为爬取外汇网站数据、爬取名言网站数据、爬取电影网站数据、爬取图书网站数据、爬取商城网站数据、爬取景区网站数据。本书通过这些项目讲解了Python的Web访问技术、BeautifulSoup的数据分析与提取技术、深度优先与广度优先顺序爬取技术、多线程网页爬取技术、scrapy分布式爬取框架技术、selenium爬虫程序技术、AWS中的DynamoDB数据库的NoSQL存储技术等。本书每个项目都遵循由浅入深的学习规律,采取理论与实践相结合的方式来引导读者完成实战。
本书可作为计算机软件技术专业及其相关专业的程序设计课程教材。 -
作者介绍
-
目录
项目1 爬取外汇网站数据
1.1 项目任务
1.2 搭建爬虫程序开发环境
1.2.1 理解爬虫程序
1.2.2 搭建开发环境
1.3 使用Flask创建Web网站
1.3.1 安装Flask框架
1.3.2 创建模拟外汇网站
1.3.3 编写客户端程序并获取网站的HTML代码
1.4 使用GET方法访问Web网站
1.4.1 客户端使用GET方法发送数据
1.4.2 服务器端使用GET方法获取数据
1.5 使用POST方法访问Web网站
1.5.1 客户端使用POST方法发送数据
1.5.2 服务器端使用POST方法获取数据
1.5.3 混合使用GET与POST方法
1.6 使用正则表达式匹配数据
1.6.1 使用正则表达式匹配字符串
1.6.2 使用正则表达式爬取数据
1.7 综合项目 爬取模拟外汇网站数据
1.7.1 创建模拟外汇网站
1.7.2 解析网站的HTML代码
1.7.3 设计存储数据库
1.7.4 编写爬虫程序
1.7.5 执行爬虫程序
1.8 实战项目 爬取实际外汇网站数据
1.8.1 解析网站的HTML代码
1.8.2 爬取网站外汇汇率数据
1.8.3 设计存储数据库
1.8.4 编写爬虫程序
1.8.5 执行爬虫程序
项目总结
练习1
项目2 爬取名言网站数据
2.1 项目任务
2.2 使用BeautifulSoup装载HTML文档
2.2.1 创建模拟名言网站
2.2.2 安装BeautifulSoup程序包
2.2.3 装载HTML文档
2.3 使用BeautifulSoup查找HTML元素
2.3.1 使用find()函数查找
2.3.2 查找元素属性与文本
2.3.3 使用find_all()函数查找
2.3.4 使用高级查找
2.4 使用BeautifulSoup遍历文档元素
2.4.1 获取元素节点的父节点
2.4.2 获取元素节点的直接子节点
2.4.3 获取元素节点的所有子孙节点
2.4.4 获取元素节点的兄弟节点
2.5 BeautifulSoup支持使用CSS语法进行查找
……
项目3 爬取电影网站数据
项目4 爬取图书网站数据
项目5 爬取商城网站数据
项目6 爬取景区网站数据
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...