欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 数据采集与预处理(微课版)/大数据创新人才培养系列
      • 作者:编者:安俊秀//徐传运//戴宇睿|责编:孙澍
      • 出版社:人民邮电
      • ISBN:9787115589903
      • 出版日期:2024/05/01
      • 页数:175
    • 售价:19.92
  • 内容大纲

        本书详细介绍大数据领域数据采集与预处理的相关理论和技术,全面讲解数据采集与预处理的流程及其在多个领域的应用。本书共8章,包括数据采集与预处理概述、数据采集与存储、数据采集进阶、数据清洗、数据规整与分组聚合、豆瓣电影排行榜数据抓取与预处理、使用Scrapy框架与Selenium采集股市每日点评数据并可视化、房产数据预处理。
        本书可作为高等院校大数据、人工智能、计算机等专业的教材,也可供相关从业人员参考。
  • 作者介绍

  • 目录

    第1章  数据采集与预处理概述
      1.1  数据采集简介
        1.1.1  数据采集工具
        1.1.2  爬虫的原理与分类
        1.1.3  网络爬虫实现的核心流程
        1.1.4  爬虫的应用场景
      1.2  数据预处理简介
        1.2.1  数据预处理的目的与意义
        1.2.2  数据预处理技术
        1.2.3  数据预处理工具
      1.3  Python中关于数据采集与预处理的常用库
        1.3.1  请求库
        1.3.2  解析库
        1.3.3  数据存储库
        1.3.4  处理库
      习题
    第2章  数据采集与存储
      2.1  数据格式与操纵
        2.1.1  数据格式介绍
        2.1.2  JSON格式的数据
        2.1.3  CSV格式的数据
      2.2  网页抓取:爬虫基础
        2.2.1  HTTP基本原理
        2.2.2  网页的基本元素
        2.2.3  urllib库
        2.2.4  使用requests库请求网站
        2.2.5  使用正则表达式提取数据
        2.2.6  代理的使用
        2.2.7  使用Cookie登录
      2.3  解析库的使用
        2.3.1  使用BeautifulSoup解析网页
        2.3.2  使用XPath处理HTML
      2.4  数据存储
        2.4.1  将数据存储为JSON格式
        2.4.2  将数据存储为CSV格式
        2.4.3  将数据存储到MySQL数据库中
    第3章  数据采集进阶
      3.1  AJAX数据的抓取
        3.1.1  什么是AJAX
        3.1.2  为什么要学习AJAX
        3.1.3  怎样抓取AJAX数据
      3.2  使用Selenium抓取动态渲染页面
        3.2.1  Selenium的基本介绍与安装方法
        3.2.2  Selenium的简单应用
        3.2.3  Selenium的应用实例
        3.2.4  Selenium的高级操作
      3.3  爬虫框架
        3.3.1  爬虫框架介绍
        3.3.2  爬虫框架机制
      3.4  Scrapy框架

        3.4.1  Scrapy简介与安装方法
        3.4.2  Scrapy的应用
        3.4.3  创建工程项目和Spider模板
        3.4.4  编写Spider
        3.4.5  编写Item Pipeline
        3.4.6  优化配置策略
      习题
    第4章  数据清洗
      4.1  数据清洗概述
      4.2  处理缺失值
        4.2.1  数据缺失的原因
        4.2.2  缺失值的主要处理方法
      4.3  处理重复值和异常值
        4.3.1  删除重复值
        4.3.2  检测异常值
        4.3.3  过滤异常值
      4.4  数据转换
        4.4.1  数据类型转换
        4.4.2  用函数或映射进行数据转换
        4.4.3  重命名轴索引
        4.4.4  连续数据离散化
        4.4.5  哑变量处理
        4.4.6  数据标准化
      习题
    第5章  数据规整与分组聚合
      5.1  数据规整
        5.1.1  数据联合与合并
        5.1.2  分层索引
        5.1.3  数据重塑
      5.2  数据分组
        5.2.1  创建分组数据
        5.2.2  运用groupby()函数分组
      5.3  数据聚合
        5.3.1  groupby对象中预置的聚合函数
        5.3.2  agg()函数与transform()函数
        5.3.3  apply()函数的应用
      习题
    第6章  豆瓣电影排行榜数据抓取与预处理
      6.1  豆瓣电影排行榜数据采集目标
      6.2  豆瓣网页结构分析
        6.2.1  宏观整体页面分析
        6.2.2  微观具体信息抓取
      6.3  创建爬虫
        6.3.1  准备URL
        6.3.2  请求及响应
        6.3.3  提取数据
        6.3.4  保存数据
      6.4  数据预处理
      6.5  数据可视化
      习题

    第7章  使用Scrapy框架与Selenium采集股市每日点评数据并可视化
      7.1  采集目标和准备工作
      7.2  大盘每日点评网页结构分析
      7.3  使用Scrapy框架与Selenium抓取信息
        7.3.1  编写item.py与spider.py
        7.3.2  编写middlewares.py
        7.3.3  编写pipelines.py
        7.3.4  设置settings.py
        7.3.5  运行结果
      7.4  数据预处理与可视化
        7.4.1  数据预处理
        7.4.2  数据可视化
      习题
    第8章  房产数据预处理
      8.1  研究背景和目标分析
      8.2  数据描述与探索
      8.3  数据预处理
        8.3.1  属性归约
        8.3.2  缺失值处理
        8.3.3  异常值处理
        8.3.4  数据变换
        8.3.5  保存数据
      习题
    参考文献