欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)
      • 作者:编者:李新辉//冯霞//吴功才|责编:徐建军
      • 出版社:电子工业
      • ISBN:9787121472770
      • 出版日期:2024/02/01
      • 页数:300
    • 售价:23.92
  • 内容大纲

        Spark是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终,使用Python详细阐述了Spark大数据环境的搭建、Spark RDD离线数据计算、Spark SQL离线数据处理、Spark Streaming实时数据计算等一系列常见的大数据处理问题,并在此基础上对Spark的核心概念及技术原理进行了详细分析,最后以两个综合案例分别展示了Spark离线数据处理和实时数据处理的具体应用与部署。
        本书践行“做中学”的设计理念,内容编排符合学习与认知规律,从简单细小案例入手,辅以大量配图对学习过程中涉及的枯燥数据、抽象概念和复杂原理进行图示化说明,语言浅显易懂,技术体系清晰,逻辑衔接合理。在本书最后两个综合案例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对Spark大数据项目的整体开发流程有一个比较清晰的认识。
        本书既可作为高校大数据、人工智能等相关专业课程的教材,也可作为从事大数据分析、大数据运维工作的技术人员和广大技术爱好者的参考书。
  • 作者介绍

  • 目录

    第1章  Spark大数据平台与环境搭建
      1.1  引言
      1.2  Spark大数据平台介绍
        1.2.1  Spark是什么
        1.2.2  Spark与大数据的应用场景
        1.2.3  Spark编程环境(PySpark)
        1.2.4  Spark应用程序原理
      1.3  Spark大数据环境搭建
        1.3.1  Linux作系统安装和配置
        1.3.2  Hadoop伪分布集群环境搭建
        1.3.3  Spark单机运行环境搭建
      1.4  Python核心语法概览
      1.5  单元训练
    第2章  Spark RDD离线数据计算
      2.1  引言
      2.2  RDD基本原理
      2.3  RDD编程模型
      2.4  Spark RDD常用作
        2.4.1  RDD的创建
        2.4.2  RDD的转换作
        2.4.3  RDD的行动作
      2.5  Spark RDD数据计算实例
        2.5.1  词频统计案例
        2.5.2  基本TopN问题案例
        2.5.3  用户消费数据处理案例
      2.6  Spark文件的读/写
        2.6.1  文本文件的读/写
        2.6.2  SequenceFile文件的读/写
      2.7  单元训练
    第3章  Spark SQL离线数据处理
      3.1  引言
      3.2  DataFrame基本原理
      3.3  Spark SQL常用作
        3.3.1  DataFrame的基本创建
        3.3.2  DataFrame的查看
        3.3.3  DataFrame的数据作(DSL)
        3.3.4  DataFrame的数据作(SQL)
      3.4  Spark SQL数据处理实例
        3.4.1  词频统计案例
        3.4.2  人口信息统计案例
        3.4.3  电影评分数据分析案例
      3.5  Spark SQL访问数据库
        3.5.1  在Linux作系统上安装MySQL
        3.5.2  DataFrame写入MySQL
        3.5.3  从MySQL中创建DataFrame
      3.6  DataFrame创建和存
        3.6.1  创建DataFrame
        3.6.2  存DataFrame
      3.7  Spark的数据类型转换
      3.8  单元训练

    第4章  Spark Streaming实时数据计算
      4.1  引言
      4.2  Spark Streaming基本原理
      4.3  Spark Streaming词频统计
        4.3.1  Netcat网络工具测试
        4.3.2  DStream词频统计
      4.4  DStream数据转换作
        4.4.1  DStream无状态转换作
        4.4.2  DStream基于状态更新的转换
        4.4.3  DStream基于滑动窗口的转换
      4.5  DStream输出作
      4.6  DStream数据源读取
        4.6.1  读取文件数据流
        4.6.2  读取Kafka数据流
      4.7  单元训练
    第5章  Spark编程进
      5.1  引言
      5.2  搭建PySpark开发环境
        5.2.1  PySpark交互式编程环境
        5.2.2  Jupyter Notebook编程环境
        5.2.3  PyCharm集成开发环境
      5.3  理解RDD
        5.3.1  RDD基本概念
        5.3.2  RDD的分区
        5.3.3  RDD的依赖关系
        5.3.4  RDD的计算调度
      5.4  RDD缓存机制
      5.5  广播变量和累加器
        5.5.1  广播变量
        5.5.2  累加器
      5.6  Spark生态和应用架构
        5.6.1  Spark生态架构
        5.6.2  Spark应用架构
      5.7  Spark集群和应用署
        5.7.1  Spark伪分布集群的搭建
        5.7.2  Spark应用署模式
        5.7.3  Spark应用署实例
      5.8  单元训练
    第6章  Spark大数据分析项目实例
      6.1  引言
      6.2  CentOS7+JDK8虚拟机安装
      6.3  Hadoop+Spark分布式集群环境
        6.3.1  Hadoop+Spark Standalone分布式集群环境搭建
        6.3.2  Hadoop+Spark on YARN分布式集群环境搭建
      6.4  Spark离线数据处理实例
        6.4.1  需求分析
        6.4.2  准备工作
        6.4.3  美妆商品订单数据分析
        6.4.4  美妆商品订单数据可视化
      6.5  Spark实时数据处理实例

        6.5.1  需求分析
        6.5.2  准备工作
        6.5.3  通话记录生产者模拟
        6.5.4  消息接收者测试
        6.5.5  Spark Streaming通话记录消息处理
      6.6  Spark数据分析案例署