欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • PySpark大数据分析实战/大数据科学丛书
      • 作者:编者:伍鲜//常丽娟|责编:张淑谦
      • 出版社:机械工业
      • ISBN:9787111739593
      • 出版日期:2023/12/01
      • 页数:372
    • 售价:47.6
  • 内容大纲

        本书是PySpark大数据分析的入门读物,适合有一定Python基础的读者学习使用。本书基于最新版本的PySpark 3.4.x编写,全书共11章,系统地介绍了PySpark大数据分析的方法和技巧,内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术,以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例,带领读者掌握使用Python和Spark进行大数据分析的方法和技巧,从而提高读者的数据处理能力和业务价值。
        本书内容全面、示例丰富、讲解清晰,读者可以直接应用书中的案例。本书适合自学,也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书,用于指导大数据分析编程实践,还可供相关技术人员参考。
  • 作者介绍

        伍鲜,就职于中电金信软件有限公司,担任高级软件工程师。拥有多年金融领域大数据处理实战经验,曾负责多家银行的Teradata数据仓库、FusionInsight大数据集群、阿里云大数据仓库、智能营销客户集市和客户中心建设。     热衷于各种主流技术,对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究。热爱数据科学、机器学习、云计算、人工智能通过了微软Azure开发人员、Azure数据工程师Azure解决方案架构师专家认证,对Databricks的使用有丰富的经验。
  • 目录

    前言
    第1章  初识PySpark
      1.1  关于数据
      1.2  了解Hadoop
        1.2.1  分布式文件系统HDFS
        1.2.2  分布式计算框架MapReduce
        1.2.3  资源调度管理框架YARN
      1.3  了解Hive
      1.4  了解Spark
        1.4.1  Spark是什么
        1.4.2  Spark的发展历程
        1.4.3  Spark的特点
        1.4.4  Spark的生态系统
        1.4.5  Spark的部署模式
        1.4.6  Spark的运行架构
      1.5  PySpark库介绍
      1.6  本章小结
    第2章  Spark环境搭建
      2.1  安装环境准备
        2.1.1  操作系统准备
        2.1.2  Java环境准备
        2.1.3  Python环境准备
        2.1.4  Spark安装包下载
        2.1.5  Hadoop安装包下载
      2.2  Spark本地模式安装
        2.2.1  使用交互式pyspark运行代码
        2.2.2  宽窄依赖和阶段划分
        2.2.3  使用spark-submit提交代码
      2.3  Spark独立集群安装
        2.3.1  配置并启动Spark集群
        2.3.2  使用spark-submit提交代码
        2.3.3  Spark History Server历史服务
        2.3.4  独立集群模式的代码运行流程
      2.4  Spark on YARN模式安装
        2.4.1  安装Hadoop集群
        2.4.2  格式化NameNode
        2.4.3  启动Hadoop集群
        2.4.4  配置Spark运行在YARN上
        2.4.5  使用spark-submit提交代码
        2.4.6  Spark on YARN模式代码运行流程
      2.5  云服务模式Databricks介绍
        2.5.1  Databricks基本概念
        2.5.2  创建集群
        2.5.3  数据集成
        2.5.4  创建笔记本
        2.5.5  运行案例
        2.5.6  创建作业
        2.5.7  运行作业
        2.5.8  其他类型的作业
      2.6  本章小结

    第3章  数据分析基础
      3.1  什么是数据分析
      3.2  Python数据分析工具介绍
        3.2.1  数学计算库NumPy介绍
        3.2.2  数据分析库Pandas介绍
      3.3  数据分析图表介绍
      3.4  Python数据可视化工具介绍
        3.4.1  Matplotlib介绍
        3.4.2  Seaborn介绍
        3.4.3  Pyecharts介绍
        3.4.4  三种可视化工具的对比
      3.5  本章小结
    第4章  选择合适的开发工具
      4.1  使用Databricks探索数据
        4.1.1  使用笔记本开发代码
        4.1.2  【实战案例】阿凡达电影评价分析
      4.2  使用JupyterLab探索数据
        4.2.1  创建虚拟环境
        4.2.2  安装JupyterLab
        4.2.3  集成Spark引擎
        4.2.4  【实战案例】二手房数据分析
      4.3  使用PyCharm探索数据
        4.3.1  安装PyCharm
        4.3.2  安装Python
        4.3.3  创建PyCharm项目
        4.3.4  PyCharm插件介绍
        4.3.5  【实战案例】招聘信息数据分析
      4.4  本章小结
    第5章  核心功能Spark Core
      5.1  SparkContext介绍
      5.2  RDD介绍
      5.3  RDD的特性
      5.4  RDD的创建
        5.4.1  通过并行化本地集合创建RDD
        5.4.2  通过外部文件系统数据创建RDD
        5.4.3  通过已存在的RDD衍生新的RDD
      5.5  RDD的算子
        5.5.1  什么是算子
        5.5.2  算子的分类
      5.6  常用的Transformation算子
        5.6.1  基本算子
        5.6.2  二元组相关的算子
        5.6.3  分区相关的算子
      5.7  常用的Action算子
        5.7.1  基本算子
        5.7.2  Executor端执行的算子
      5.8  RDD的持久化
        5.8.1  缓存
        5.8.2  缓存的特点
        5.8.3  检查点

        5.8.4  缓存和检查点的比较
      5.9  共享变量
        5.9.1  广播变量
        5.9.2  累加器
      5.10  【实战案例】共享单车租赁数据分析
        5.10.1  数据集成
        5.10.2  不同月份的租赁数据分析
        5.10.3  不同时间的租赁数据分析
        5.10.4  不同周期的租赁数据分析
        5.10.5  不同维度的租赁数据分析
        5.10.6  天气对租赁需求的影响
        5.10.7  温度、风速对租赁需求的影响
      5.11  本章小结
    第6章  结构化数据处理Spark SQL
      6.1  Spark SQL概述
        6.1.1  什么是Spark SQL
        6.1.2  Spark SQL的特点
      6.2  Spark SQL的发展历程
        6.2.1  从HDFS到Hive
        6.2.2  从Hive到Shark
        6.2.3  从Shark到Spark SQL
      6.3  SparkSession介绍
      6.4  DataFrame概述
        6.4.1  什么是DataFrame
        6.4.2  DataFrame的组成
      6.5  DataFrame的创建
        6.5.1  通过RDD创建
        6.5.2  通过Pandas的DataFrame创建
        6.5.3  通过外部数据创建
      6.6  DataFrame的基本操作
        6.6.1  DSL语法风格
        6.6.2  Spark Join策略介绍
        6.6.3  SQL语法风格
      6.7  DataFrame的函数操作
        6.7.1  内置函数
        6.7.2  窗口函数
        6.7.3  自定义函数
      6.8  DataFrame的数据清洗
        6.8.1  删除重复行
        6.8.2  缺失值的处理
      6.9  DataFrame的持久化
      6.10  DataFrame的数据写出
        6.10.1  写出数据到文件
        6.10.2  写出数据到数据库
      6.11  【实战案例】世界杯数据可视化分析
        6.11.1  世界杯成绩汇总信息分析
        6.11.2  世界杯比赛信息分析
      6.12  本章小结
    第7章  集成Hive数据仓库
      7.1  Spark on Hive操作数据仓库

        7.1.1  安装Hive
        7.1.2  启动元数据服务
        7.1.3  配置Spark on Hive
        7.1.4  验证Spark on Hive
      7.2  使用MySQL替换Hive元数据服务
        7.2.1  初始化MySQL
        7.2.2  配置Spark on MySQL
        7.2.3  验证Spark on MySQL
      7.3  【实战案例】基于Hive数据仓库的电商数据分析
        7.3.1  数据集成
        7.3.2  爆款产品分析
        7.3.3  月交易情况分析
        7.3.4  忠诚客户分析
        7.3.5  客户区域分析
      7.4  本章小结
    第8章  Spark Streaming流式数据处理
      8.1  流式数据处理概述
        8.1.1  静态数据和流式数据
        8.1.2  批量计算和实时计算
        8.1.3  流式计算
      8.2  Spark Streaming概述
      8.3  StreamingContext介绍
      8.4  DStream介绍
      8.5  DStream的创建
        8.5.1  通过文件创建
        8.5.2  通过套接字创建
        8.5.3  通过RDD队列创建
      8.6  DStream的Transformation操作
        8.6.1  无状态转换
        8.6.2  有状态转换
      8.7  DStream的输出操作
      8.8  DStream的SQL操作
      8.9  DStream的持久化
      8.10  【实战案例】地震数据处理分析
        8.10.1  数据集成
        8.10.2  震级大小分布分析
        8.10.3  震源深度分布分析
        8.10.4  震中坐标分布分析
        8.10.5  中等地震分布分析
      8.11  本章小结
    第9章  Structured Streaming结构化流处理
      9.1  编程模型
        9.1.1  基本概念
        9.1.2  事件时间和延迟数据
        9.1.3  容错语义
      9.2  流式DataFrame的创建
        9.2.1  通过文件源创建
        9.2.2  通过Socket源创建
        9.2.3  通过Rate源创建
        9.2.4  通过Kafka源创建

      9.3  流式DataFrame的操作
        9.3.1  事件时间窗口
        9.3.2  处理延迟数据和水印
        9.3.3  连接操作
        9.3.4  消除重复数据
        9.3.5  不支持的操作
      9.4  启动流式处理查询
        9.4.1  输出模式
        9.4.2  输出接收器
        9.4.3  触发器
      9.5  管理流式查询
      9.6  监控流式查询
      9.7  【实战案例】气象数据处理分析
        9.7.1  数据集成
        9.7.2  云量分布分析
        9.7.3  气温分布分析
        9.7.4  降水量分布分析
      9.8  本章小结
    第10章  Spark机器学习库MLlib
      10.1  机器学习介绍
        10.1.1  基本概念
        10.1.2  评估指标
        10.1.3  主要过程
        10.1.4  基于大数据的机器学习
      10.2  MLlib介绍
      10.3  数据预处理
        10.3.1  缺失值处理
        10.3.2  无量纲化处理
        10.3.3  特征数据处理
      10.4  特征提取和转换
      10.5  回归算法介绍
        10.5.1  线性回归算法介绍
        10.5.2  回归树算法介绍
      10.6  分类算法介绍
        10.6.1  逻辑回归算法介绍
        10.6.2  支持向量机算法介绍
      10.7  聚类算法介绍
        10.7.1  K-means算法介绍
        10.7.2  高斯混合模型介绍
      10.8  【实战案例】信用卡欺诈数据分析
        10.8.1  数据预览
        10.8.2  机器学习训练
      10.9  本章小结
    第11章  综合实战:基于协同过滤的图书推荐系统
      11.1  项目介绍
      11.2  协同过滤算法
        11.2.1  协同过滤算法介绍
        11.2.2  相似度度量
        11.2.3  交替最小二乘法
      11.3  项目实现

        11.3.1  数据集成
        11.3.2  数据分析
        11.3.3  结果导出
      11.4  数据可视化
        11.4.1  Flask框架介绍
        11.4.2  推荐结果展示
      11.5  项目部署
      11.6  本章小结
    参考文献