欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大数据采集与清洗(微课版)/面向新工科数据科学与大数据技术丛书
      • 作者:编者:阮宗利//陈华//柳毓松//张华清|责编:张雪野
      • 出版社:人民邮电
      • ISBN:9787115669841
      • 出版日期:2025/11/01
      • 页数:286
    • 售价:27.92
  • 内容大纲

        本书详细介绍大数据采集与清洗的相关知识和技术,共9章,分别是概述、网络爬虫基础、网页数据抓取、缓存下载页面、并发/并行爬取、用Selenium抓取动态内容、Scrapy爬虫框架及其应用、大数据平台系统日志采集、pandas数据清洗。本书大体上由数据采集(第2~8章)和数据清洗(第9章)两部分内容构成,以Python作为编程语言。数据采集部分以Web数据采集为主,也涉及Hadoop大数据平台的数据采集,内容由浅入深,循序渐进,理论与实践相结合,帮助读者理解和掌握数据采集的相关技术;数据清洗部分主要介绍pandas库的使用,帮助读者掌握数据清洗的方法。本书每章都有配套的习题,有助于读者巩固所学知识。
        本书可作为高校数据科学与大数据技术、信息管理与信息系统等专业相关课程的教材,也可作为大数据工程师的必备手册,还可作为网络爬虫爱好者和计算机领域的技术人员的参考书。
  • 作者介绍

  • 目录

    第1章  概述
      1.1  大数据来源
      1.2  数据采集方法与基本流程
        1.2.1  数据采集方法
        1.2.2  数据采集基本流程
      1.3  数据清洗方法与基本流程
        1.3.1  数据清洗方法
        1.3.2  数据清洗工具
        1.3.3  数据清洗基本流程
      1.4  本书主要内容及主要案例
        1.4.1  主要内容
        1.4.2  主要案例
        1.4.3  编程工具
      1.5  本章小结
      1.6  习题
    第2章  网络爬虫基础
      2.1  网络爬虫简介
        2.1.1  网络爬虫分类
        2.1.2  网络爬虫应遵守的基本准则
      2.2  调研目标网站
        2.2.1  了解目标网站所采用的技术与审查网页元素
        2.2.2  了解网站结构与规模
        2.2.3  分析robots.txt文件
        2.2.4  分析网站地图文件sitemap.xml
      2.3  使用urllib包下载网页
        2.3.1  下载页面HTML源代码
        2.3.2  设置字符编码
        2.3.3  存储HTML源代码至文件
        2.3.4  异常处理
        2.3.5  下载重试
        2.3.6  设置用户代理
        2.3.7  获取网页字符集
      2.4  使用requests包下载网页
        2.4.1  requests包简介
        2.4.2  基于requests包的页面下载器
      2.5  网络爬虫的实现
        2.5.1  站点地图爬虫
        2.5.2  链接模板爬虫
        2.5.3  链接跟踪爬虫
      2.6  对爬虫限速
        2.6.1  爬虫限速器Throttle类
        2.6.2  限速器安装到链接跟踪爬虫
      2.7  让爬虫遵守站点robots协议
        2.7.1  使用urllib.robotparser模块解析robots.txt文件
        2.7.2  为链接跟踪爬虫添加robot解析器
      2.8  本章小结
      2.9  习题
    第3章  网页数据抓取
      3.1  了解HTML
        3.1.1  什么是HTML

        3.1.2  HTML文档结构
        3.1.3  HTML元素的属性
      3.2  在Web浏览器中审查网页
      3.3  使用正则表达式抓取数据
        3.3.1  正则表达式
        3.3.2  re模块
        3.3.3  使用re模块抓取页面数据
      3.4  使用Beautiful Soup包抓取数据
        3.4.1  Beautiful Soup包
        3.4.2  遍历soup文档树
        3.4.3  搜索soup文档树
        3.4.4  提取元素中的内容文本
        3.4.5  使用Beautiful Soup抓取页面数据
        3.4.6  使用Web浏览器工具测试和获取CSS选择器
      3.5  使用lxml包抓取数据
        3.5.1  lxml中使用CSS选择器
        3.5.2  XPath选择器
        3.5.3  使用Web浏览器工具测试和获取XPath选择器
        3.5.4  使用XPath选择器抓取页面数据
      3.6  3种抓取方法性能对比
      3.7  本章小结
      3.8  习题
    第4章  缓存下载页面
      4.1  将HTML文档缓存至磁盘
        4.1.1  解析URL
        4.1.2  编写磁盘缓存类
        4.1.3  为磁盘缓存添加失效时间
        4.1.4  将磁盘缓存功能集成到爬虫下载器类
        4.1.5  在链接跟踪爬虫中使用新下载器
        4.1.6  在链接跟踪爬虫中使用磁盘缓存
      4.2  使用Redis
        4.2.1  Redis安装与配置
        4.2.2  Redis基本命令
        4.2.3  Redis可视化管理工具
        4.2.4  在Python程序中访问Redis
      4.3  将HTML文档缓存至Redis
        4.3.1  编写Redis缓存类
        4.3.2  在链接跟踪爬虫中使用Redis缓存
      4.4  本章小结
      4.5  习题
    第5章  并发/并行爬取
      5.1  线程与进程
      5.2  使用threading模块创建多线程爬虫
        5.2.1  threading模块
        5.2.2  线程的生命周期
        5.2.3  线程等待
        5.2.4  创建守护线程
        5.2.5  为链接跟踪爬虫创建多线程
      5.3  使用线程池实现多线程
        5.3.1  线程池的使用

        5.3.2  使用线程池实现多线程的链接跟踪爬虫
      5.4  使用multiprocessing包创建多进程爬虫
        5.4.1  multiprocessing包
        5.4.2  为链接跟踪爬虫创建多进程多线程
      5.5  串行爬虫、多线程爬虫与多进程爬虫性能比较
      5.6  本章小结
      5.7  习题
    第6章  用Selenium抓取动态内容
      6.1  了解JavaScript、jQuery和AJAX
        6.1.1  为何抓取数据失败了
        6.1.2  JavaScript、jQuery和AJAX
      6.2  使用Selenium获取动态数据
        6.2.1  安装Selenium与WebDriver
        6.2.2  使用Selenium与浏览器交互
        6.2.3  案例1——爬取火车票信息
        6.2.4  案例2——爬取京东商城数据
      6.3  通过数据请求API获取数据
      6.4  本章小结
      6.5  习题
    第7章  Scrapy爬虫框架及其应用
      7.1  Scrapy爬虫框架简介
        7.1.1  Scrapy爬虫框架结构
        7.1.2  Scrapy基本工作流程
      7.2  安装Scrapy
      7.3  创建Scrapy爬虫项目
        7.3.1  创建基于Scrapy爬虫框架的爬虫项目
        7.3.2  定义数据模型
        7.3.3  创建爬虫
        7.3.4  修改settings.py中的某些参数
        7.3.5  运行爬虫项目
        7.3.6  保存爬取结果
      7.4  使用项目管道
        7.4.1  启用项目管道
        7.4.2  实现项目管道功能
      7.5  使用中间件
        7.5.1  编写爬虫中间件
        7.5.2  下载器中间件
      7.6  本章小结
      7.7  习题
    第8章  大数据平台系统日志采集
      8.1  Hadoop系统及相关集群
        8.1.1  Hadoop系统
        8.1.2  ZooKeeper集群
        8.1.3  Kafka集群
        8.1.4  Flume集群
        8.1.5  Spark集群
        8.1.6  系统架构
      8.2  构建Flume日志采集系统
        8.2.1  安装Flume集群
        8.2.2  使用Flume采集数据

      8.3  构建Kafka分布式消息系统
        8.3.1  安装、配置和启动Kafka集群
        8.3.2  Kafka集群测试
      8.4  集成Flume与Kafka集群
        8.4.1  配置两个Flume Agent文件
        8.4.2  Flume-Kafka-HDFS集群测试
      8.5  本章小结
      8.6  习题
    第9章  pandas数据清洗
      9.1  pandas中的数据对象
        9.1.1  Series对象
        9.1.2  DataFrame对象
        9.1.3  创建数据框
        9.1.4  数据框转换为其他格式的数据
      9.2  数据框数据存取
        9.2.1  []运算符
        9.2.2  loc[]和iloc[]存取器
        9.2.3  at[]和iat[]存取器
        9.2.4  多级标签的存取
        9.2.5  get()函数
        9.2.6  head()函数和tail()函数
        9.2.7  nlargest()函数和nsmallest()函数
        9.2.8  query()函数
      9.3  数据读取与保存
        9.3.1  读写文本文件
        9.3.2  读写Excel文件
        9.3.3  读写SQL数据库
      9.4  操作数据框
        9.4.1  修改列索引与行索引
        9.4.2  添加列、插入新列与删除列
        9.4.3  调整列顺序
        9.4.4  添加行与删除行
        9.4.5  按索引排序与按值排序
        9.4.6  列值转化为行索引与行索引转化为列值
        9.4.7  数据透视与数据融合
      9.5  缺失值处理
        9.5.1  不满足条件的元素置空
        9.5.2  判断元素是否为NA
        9.5.3  统计non   NA元素的数量
        9.5.4  删除含有NA元素的列或行
        9.5.5  填充NA
      9.6  删除重复数据
      9.7  数值运算函数
      9.8  字符串数据处理
      9.9  日期数据处理
      9.10  数据清洗案例
        9.10.1  案例1——清洗影视数据
        9.10.2  案例2——清洗心率数据
      9.11  本章小结
      9.12  习题

    附录 示例网站运行发布操作指南