-
内容大纲
Spark是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终,使用Python详细阐述了Spark大数据环境的搭建、Spark RDD离线数据计算、Spark SQL离线数据处理、Spark Streaming实时数据计算等一系列常见的大数据处理问题,并在此基础上对Spark的核心概念及技术原理进行了详细分析,最后以两个综合案例分别展示了Spark离线数据处理和实时数据处理的具体应用与部署。
本书践行“做中学”的设计理念,内容编排符合学习与认知规律,从简单细小案例入手,辅以大量配图对学习过程中涉及的枯燥数据、抽象概念和复杂原理进行图示化说明,语言浅显易懂,技术体系清晰,逻辑衔接合理。在本书最后两个综合案例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对Spark大数据项目的整体开发流程有一个比较清晰的认识。
本书既可作为高校大数据、人工智能等相关专业课程的教材,也可作为从事大数据分析、大数据运维工作的技术人员和广大技术爱好者的参考书。 -
作者介绍
-
目录
第1章 Spark大数据平台与环境搭建
1.1 引言
1.2 Spark大数据平台介绍
1.2.1 Spark是什么
1.2.2 Spark与大数据的应用场景
1.2.3 Spark编程环境(PySpark)
1.2.4 Spark应用程序原理
1.3 Spark大数据环境搭建
1.3.1 Linux作系统安装和配置
1.3.2 Hadoop伪分布集群环境搭建
1.3.3 Spark单机运行环境搭建
1.4 Python核心语法概览
1.5 单元训练
第2章 Spark RDD离线数据计算
2.1 引言
2.2 RDD基本原理
2.3 RDD编程模型
2.4 Spark RDD常用作
2.4.1 RDD的创建
2.4.2 RDD的转换作
2.4.3 RDD的行动作
2.5 Spark RDD数据计算实例
2.5.1 词频统计案例
2.5.2 基本TopN问题案例
2.5.3 用户消费数据处理案例
2.6 Spark文件的读/写
2.6.1 文本文件的读/写
2.6.2 SequenceFile文件的读/写
2.7 单元训练
第3章 Spark SQL离线数据处理
3.1 引言
3.2 DataFrame基本原理
3.3 Spark SQL常用作
3.3.1 DataFrame的基本创建
3.3.2 DataFrame的查看
3.3.3 DataFrame的数据作(DSL)
3.3.4 DataFrame的数据作(SQL)
3.4 Spark SQL数据处理实例
3.4.1 词频统计案例
3.4.2 人口信息统计案例
3.4.3 电影评分数据分析案例
3.5 Spark SQL访问数据库
3.5.1 在Linux作系统上安装MySQL
3.5.2 DataFrame写入MySQL
3.5.3 从MySQL中创建DataFrame
3.6 DataFrame创建和存
3.6.1 创建DataFrame
3.6.2 存DataFrame
3.7 Spark的数据类型转换
3.8 单元训练
第4章 Spark Streaming实时数据计算
4.1 引言
4.2 Spark Streaming基本原理
4.3 Spark Streaming词频统计
4.3.1 Netcat网络工具测试
4.3.2 DStream词频统计
4.4 DStream数据转换作
4.4.1 DStream无状态转换作
4.4.2 DStream基于状态更新的转换
4.4.3 DStream基于滑动窗口的转换
4.5 DStream输出作
4.6 DStream数据源读取
4.6.1 读取文件数据流
4.6.2 读取Kafka数据流
4.7 单元训练
第5章 Spark编程进
5.1 引言
5.2 搭建PySpark开发环境
5.2.1 PySpark交互式编程环境
5.2.2 Jupyter Notebook编程环境
5.2.3 PyCharm集成开发环境
5.3 理解RDD
5.3.1 RDD基本概念
5.3.2 RDD的分区
5.3.3 RDD的依赖关系
5.3.4 RDD的计算调度
5.4 RDD缓存机制
5.5 广播变量和累加器
5.5.1 广播变量
5.5.2 累加器
5.6 Spark生态和应用架构
5.6.1 Spark生态架构
5.6.2 Spark应用架构
5.7 Spark集群和应用署
5.7.1 Spark伪分布集群的搭建
5.7.2 Spark应用署模式
5.7.3 Spark应用署实例
5.8 单元训练
第6章 Spark大数据分析项目实例
6.1 引言
6.2 CentOS7+JDK8虚拟机安装
6.3 Hadoop+Spark分布式集群环境
6.3.1 Hadoop+Spark Standalone分布式集群环境搭建
6.3.2 Hadoop+Spark on YARN分布式集群环境搭建
6.4 Spark离线数据处理实例
6.4.1 需求分析
6.4.2 准备工作
6.4.3 美妆商品订单数据分析
6.4.4 美妆商品订单数据可视化
6.5 Spark实时数据处理实例
6.5.1 需求分析
6.5.2 准备工作
6.5.3 通话记录生产者模拟
6.5.4 消息接收者测试
6.5.5 Spark Streaming通话记录消息处理
6.6 Spark数据分析案例署
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...