-
内容大纲
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python程序开发”1+X职业技能等级标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用Scrapy框架进行爬取、爬虫代理、模拟登录、爬取App数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合IT互联网企业、各企事业单位、政府部门等的信息化、数字化部门从事Python程序开发、爬虫开发与维护、数据采集清洗和存储等工作岗位的人员参考。 -
作者介绍
-
目录
项目一 静态网页爬取与解析
任务1 搭建静态网页爬虫环境
任务分析
导学
学习资料
1.爬虫基本概念
2.爬虫实现原理
3.静态网页爬虫环境搭建
任务实施
任务评价
任务2 爬取北京市旅游景点信息
任务分析
导学
学习资料
1.HTTP
2.网页组成
3.urllib库
4.Requests模块
任务实施
任务评价
任务3 解析并保存北京市旅游景点
数据
任务分析
导学
学习资料
1.正则表达式
2.使用XPath
3.Beautiful Soup库
任务实施
任务评价
项目二 爬取动态内容
任务1 安装Selenium
任务分析
导学
学习资料
任务实施
任务评价
任务2 利用Selerlium爬取京东商品信息数据
任务分析
导学
学习资料
1.Selenium简介
2.Selenium的应用
任务实施
任务评价
项目三 利用爬虫框架Scrapy爬虫
任务1 安装Scrapy框架
任务分析
导学
学习资料
1.Anaconda安装
2.Windows下的安装
任务实施
任务评价
任务2 利用Scrapy框架制作Spiders爬取网页数据
任务分析
导学
学习资料
1.Scrapy框架介绍
2.Scrapy的数据流
3.Scrapy常用命令
任务实施
任务评价
项目四 爬虫代理和模拟登录
任务1 爬虫代理
任务分析
导学
学习资料
1.代理基本原理
2.代理的作用
3.代理分类
4.Requests库使用IP代理的方法
5.构建代理池
任务实施
任务评价
任务2 模拟登录
任务分析
导学
学习资料
1.用户登录
2.Cookie
3.Session
4.JWT
5.基于Session和Cookie的模拟登录
6.基于Session和Cookie的模拟登录实例
任务实施
任务评价
项目五 App的爬取
任务1 App爬虫环境搭建
任务分析
导学
学习资料
1.App爬取的主要流程
2.Charles的安装
3.安装JAVA JDK
4.安装Android SDK Tools
5.Appium的安装
任务实施
任务评价
任务2 爬取微博主页推荐信息
任务分析
导学
学习资料
1.Charles简介
2.Appium简介
任务实施
任务评价
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
