欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • PySpark大数据分析与应用(大数据技术精品系列教材)
      • 作者:编者:戴刚//张良均|责编:初美呈
      • 出版社:人民邮电
      • ISBN:9787115634900
      • 出版日期:2024/04/01
      • 页数:275
    • 售价:27.92
  • 内容大纲

        本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1-5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例强化PySpark在大数据分析中的实际应用;第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款风险分析两个完整的案例实战,结合前5章的PySpark编程知识,实现完整的大数据分析过程。本书大部分章包含实训和课后习题,读者通过练习和操作实践,能够巩固所学的内容。
        本书可作为高校数据科学或大数据相关专业的教材,也可作为机器学习爱好者的自学用书。
  • 作者介绍

  • 目录

    第1章  PySpark大数据分析概述
      1.1  大数据分析概述
        1.1.1  大数据的概念
        1.1.2  大数据分析的概念
        1.1.3  大数据分析的流程
        1.1.4  大数据分析的应用场景
        1.1.5  大数据技术体系
      1.2  Spark大数据技术框架
        1.2.1  Spark简介
        1.2.2  Spark特点
        1.2.3  Spark运行架构与流程
        1.2.4  SparkRDD
        1.2.5  Spark生态圈
      1.3  PySpark大数据分析
        1.3.1  PySpark简介
        1.3.2  PySpark子模块
      小结
      课后习题
    第2章  PySpark安装配置
      2.1  搭建单机模式的PySpark开发环境
        2.1.1  安装JDK
        2.1.2  安装Anaconda
        2.1.3  安装Hadoop
        2.1.4  安装MySQL
        2.1.5  安装Hive
        2.1.6  配置PySpark模块
        2.1.7  运行JupyterNotebook
      2.2  搭建分布式模式的PySpark开发环境
        2.2.1  安装配置虚拟机
        2.2.2  安装Java
        2.2.3  搭建Hadoop分布式集群
        2.2.4  安装MySQL数据库
        2.2.5  安装Hive数据仓库工具
        2.2.6  搭建Spark完全分布式集群
        2.2.7  安装PyCham
        2.2.8  安装Python解释器及PySpark模块
      2.3  Python函数式编程
        2.3.1  Python常用数据结构
        2.3.2  Python函数式编程基础
      小结
      课后习题
    第3章  基于PySpark的DataFrame操作
      3.1  SparkSQL概述
        3.1.1  SparkSQL起源与发展历程
        3.1.2  SparkSQL主要功能
        3.1.3  SparkSQL数据核心抽象DataFrame
      3.2  pyspark.sql模块
        3.2.1  pyspark.sql模块简介
        3.2.2  pyspark.sql模块核心类
      3.3  DataFrame基础操作

        3.3.1  创建DataFrame对象
        3.3.2  DataFrame操作
        3.3.3  DataFrame输出操作
      小结
      实训
        实训1  网站搜索热词统计分析
        实训2  大数据岗位招聘信息统计分析
      课后习题
    第4章  基于PySpark的流式数据
    处理
      4.1  SparkStreaming概述
        4.1.1  流计算简介
        4.1.2  SparkStreaming基本概念
        4.1.3  SparkStreaming工作原理
        4.1.4  SparkStreaming运行机制
      4.2  pyspark.streaming模块
        4.2.1  pyspark.streaming模块简介
        4.2.2  pyspark.streaming模块核心类
        4.2.3  DStream基础操作
      4.3  StructuredStreaming结构化流处理
        4.3.1  StructuredStreaming概述
        4.3.2  StructuredStreaming编程模型
        4.3.3  StructuredStreaming基础操作
        4.3.4  StructuredStreaming编程步骤
      小结
      实训
        实训1  使用SparkStreaming实现菜品价格实时计算
        实训2  使用SparkStreaming实时判别车辆所属地
      课后习题
    第5章  基于PySpark的机器
    学习库
      5.1  MLlib算法
        5.1.1  机器学习
        5.1.2  MLlib
        5.1.3  pyspark.ml模块
      5.2  使用pyspark.ml模块的转换器处理和转换数据
        5.2.1  数据加载及数据集划分
        5.2.2  数据降维
        5.2.3  数据标准化
        5.2.4  数据类型转换
      5.3  pyspark.ml模块的评估器和模型评估
        5.3.1  使用PySpark构建并评估分类模型
        5.3.2  使用PySpark构建并评估回归模型
        5.3.3  使用PySpark构建并评估聚类模型
        5.3.4  使用PySpark构建并评估智能推荐模型
      小结
      实训
        实训1  使用随机森林模型预测是否批准用户申请
        实训2  使用回归模型实现房价预测
      课后习题

    第6章  案例分析:基于PySpark的网络招聘信息的职业类型划分
      6.1  需求与架构分析
        6.1.1  业务需求分析与技术选型
        6.1.2  系统架构分析
      6.2  数据探索
        6.2.1  数据说明
        6.2.2  数据读取
        6.2.3  重复数据与空值探索
        6.2.4  异常数据探索
      6.3  数据预处理
        6.3.1  数据清洗
        6.3.2  中文分词与去停用词
        6.3.3  词特征向量化
      6.4  模型构建与评估
        6.4.1  LDA算法简介
        6.4.2  LDA模型构建与评估
        6.4.3  构建LDA模型
      6.5  制作词云图
      小结
    第7章  案例分析:基于PySpark的信用贷款风险分析
      7.1  需求与架构分析
        7.1.1  业务需求分析
        7.1.2  系统架构分析
      7.2  数据探索
        7.2.1  数据说明
        7.2.2  建立数据仓库并导入数据
        7.2.3  用户信息完善情况与逾期率的关系探索
        7.2.4  用户信息修改情况与逾期率的关系探索
        7.2.5  用户借款月份与逾期率的关系探索
      7.3  数据预处理
        7.3.1  计算用户信息缺失个数及借款月份构建新特征
        7.3.2  用户更新信息重建
        7.3.3  用户登录信息重建
        7.3.4  分类数据预处理
        7.3.5  字符串字段编码处理
        7.3.6  分类数据重编码
        7.3.7  缺失值处理
      7.4  模型构建与评估
        7.4.1  了解GBTs算法
        7.4.2  构建GBTs模型
        7.4.3  评估GBTs模型
      7.5  部署和提交PySpark应用程序
        7.5.1  打包PySpark应用程序
        7.5.2  提交PySpark应用程序
      小结
    参考文献