欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Spark大数据技术与应用(微课版)/大数据应用人才能力培养新形态系列
      • 作者:编者:贺鑫//史宏|责编:李召
      • 出版社:人民邮电
      • ISBN:9787115630094
      • 出版日期:2024/03/01
      • 页数:218
    • 售价:23.92
  • 内容大纲

        本书以初学者的角度详细介绍Spark架构的核心技术,主要围绕Spark的架构、Spark的开发语言、Spark模块的主要功能展开;以IDEA为主要开发工具,CentOS为运行环境,采用“理实一体化”授课模式。本书内容包括Spark导论,Spark环境搭建与使用,Scala语言,Spark弹性分布式数据集,Spark SQL、DataFrame和DataSet,Kafka分布式发布-订阅消息系统,Spark Streaming实时计算框架,Spark MLlib 机器学习算法库,Redis数据库,综合案例—Spark电商实时数据处理。通过对本书的学习,读者可以充分理解常用数据预处理方法的精髓,掌握具体技术细节,并在实践中提升实际开发能力,为学习大数据技能打下扎实基础。
        本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等相关专业的教材,也可作为相关技术人员的参考书。
  • 作者介绍

  • 目录

    第1章  Spark导论
      1.1  认识Spark
        1.1.1  Spark的演进路线
        1.1.2  Spark的特点
        1.1.3  Spark与Hadoop的联系
      1.2  Spark的生态系统
        1.2.1  Spark Core
        1.2.2  Spark SQL
        1.2.3  Spark Streaming
        1.2.4  Spark MLlib
        1.2.5  Spark GraphX
      1.3  Spark运行模式
        1.3.1  Standalone模式
        1.3.2  Mesos模式
        1.3.3  YARN模式
      1.4  Spark架构
        1.4.1  Spark架构组成
        1.4.2  Spark架构运行流程
        1.4.3  Spark架构特点
      1.5  Spark应用场景
      1.6  本章小结
      1.7  习题
    第2章  Spark环境搭建与使用
      2.1  搭建环境前的准备
        2.1.1  Spark的下载
        2.1.2  Scala的下载
        2.1.3  Spark的前置配置
      2.2  Spark集群的部署与操作
        2.2.1  Spark集群的部署
        2.2.2  Spark集群的启动与停止
      2.3  第一个Spark程序
      2.4  Spark Shell的启动
      2.5  本章小结
      2.6  习题
    第3章  Scala语言
      3.1  Scala简介
        3.1.1  什么是Scala
        3.1.2  Scala的特性
        3.1.3  Scala的优势
      3.2  Scala的安装
        3.2.1  Windows下安装Scala编译器
        3.2.2  Linux下安装Scala编译器
      3.3  Scala基础
        3.3.1  Scala快速入门
        3.3.2  在IntelliJ IDEA中创建Scala项目
      3.4  Scala的基本语法
        3.4.1  声明变量
        3.4.2  定义字符串
        3.4.3  数据类型
        3.4.4  运算符

        3.4.5  块表达式
      3.5  Scala的流程控制结构
        3.5.1  顺序结构
        3.5.2  分支结构
        3.5.3  循环结构
        3.5.4  breakable和break()方法
      3.6  Scala的方法与函数
        3.6.1  Scala中方法的定义和调用
        3.6.2  Scala中函数的定义和调用
        3.6.3  Scala中将方法转换成函数
      3.7  Scala面向对象的特性
        3.7.1  类和对象
        3.7.2  private关键字
        3.7.3  继承
        3.7.4  单例对象
        3.7.5  伴生对象
        3.7.6  构造器
        3.7.7  特质
        3.7.8  抽象类
      3.8  Scala的数据结构
        3.8.1  数组
        3.8.2  元组
        3.8.3  集合
      3.9  lazy关键字
      实战训练:数组合并去重
      3.10  本章小结
      3.11  习题
    第4章  Spark弹性分布式数据集
      4.1  RDD简介
        4.1.1  RDD的产生背景
        4.1.2  RDD的特性
      4.2  RDD的创建操作
        4.2.1  从文件系统中加载数据创建RDD
        4.2.2  通过并行集合创建RDD
        4.2.3  从父RDD转换成新的子RDD
      4.3  RDD算子
        4.3.1  转换算子
        4.3.2  动作算子
        4.3.3  RDD常用算子练习
        4.3.4  算子进阶
      实战训练4-1:WordCount词频统计案例
      4.4  RDD的分区
      4.5  RDD的依赖关系
        4.5.1  划分依赖的背景
        4.5.2  划分依赖的依据
        4.5.3  窄依赖
        4.5.4  宽依赖
        4.5.5  Stage的划分
      4.6  RDD机制
        4.6.1  持久化机制

        4.6.2  RDD缓存方式
        4.6.3  容错机制Checkpoint
      4.7  Spark作业流程
        4.7.1  DAG的生成
        4.7.2  任务调度流程
        4.7.3  提交任务的4个阶段
      4.8  共享变量
        4.8.1  广播变量
        4.8.2  累加器
      实战训练4-2:通过相关信息计算用户停留时间
      实战训练4-3:统计学生信息
      4.9  本章小结
      4.10  习题
    第5章  Spark SQL、DataFrame和DataSet
      5.1  Spark SQL简介
        5.1.1  Spark SQL的概念
        5.1.2  Spark SQL的特点
        5.1.3  Spark SQL的运行架构
      5.2  DataFrame基础知识
        5.2.1  DataFrame概念
        5.2.2  创建DataFrame对象
        5.2.3  DataFrame常用操作
      5.3  DataSet基础知识
        5.3.1  DataSet编程
        5.3.2  DataSet的DSL风格操作
      5.4  将RDD转为DataFrame的操作
        5.4.1  通过反射推断Schema
        5.4.2  DSL风格语法
        5.4.3  通过StructType直接指定Schema
      5.5  RDD、DataFrame和DataSet的区别
        5.5.1  RDD的优缺点
        5.5.2  DataFrame的优缺点
        5.5.3  DataSet的优缺点
        5.5.4  Spark SQL的性能与优化
      5.6  通过Spark SQL操作数据源
        5.6.1  操作MySQL数据源
        5.6.2  操作Hive数据源
      实战训练5-1:获取连续活跃用户的记录
      实战训练5-2:计算店铺销售额
      5.7  本章小结
      5.8  习题
    第6章  Kafka分布式发布-订阅消息系统
      6.1  Kafka简介
        6.1.1  什么是Kafka
        6.1.2  消息系统简介
        6.1.3  Kafka术语
      6.2  Kafka与传统消息系统的区别
        6.2.1  应用场景
        6.2.2  架构模型
        6.2.3  吞吐量

        6.2.4  可用性
        6.2.5  集群负载均衡
      6.3  Kafka工作原理
        6.3.1  Kafka的拓扑结构
        6.3.2  分析Kafka工作流程
      6.4  Kafka集群的部署与测试
        6.4.1  集群部署的基础环境准备
        6.4.2  安装Kafka
        6.4.3  启动Kafka服务并进行测试
      6.5  Kafka的入门使用
        6.5.1  Kafka命令行的入门使用
        6.5.2  Kafka API案例
      6.6  Kafka整合Flume
      6.7  Kafka涉及的问题
        6.7.1  存储机制
        6.7.2  Kafka是如何保证数据不丢失的
        6.7.3  如何消费已经被消费过的数据
        6.7.4  Kafka Partition和Consumer的数量关系
        6.7.5  Kafka Topic 副本问题
        6.7.6  ZooKeeper如何管理Kafka
      实战训练:使用Kafka生产车辆模拟信息
      6.8  本章小结
      6.9  习题
    第7章  Spark Streaming实时计算框架
      7.1  流式计算概述
        7.1.1  流式计算简介
        7.1.2  常用的流式计算框架
      7.2  Spark Streaming概述
        7.2.1  Spark Streaming简介
        7.2.2  Spark Streaming工作原理
      7.3  Spark的DStream
        7.3.1  DStream概念
        7.3.2  DStream的转换操作
      7.4  Spark Streaming的数据源
        7.4.1  基本数据源
        7.4.2  高级数据源之Kafka
      7.5  DStream的窗口操作
      7.6  DStream的输出操作
      7.7  Spark Streaming的Checkpoint机制
        7.7.1  Spark Streaming Checkpoint概述
        7.7.2  Checkpoint-MySQL校验
        7.7.3  Checkpoint-Redis校验
      实战训练:新闻热词排序
      7.8  本章小结
      7.9  习题
    第8章  Spark MLlib机器学习算法库
      8.1  初识机器学习
        8.1.1  什么是机器学习
        8.1.2  机器学习的应用
        8.1.3  分类和聚类

        8.1.4  常见的分类与聚类算法
        8.1.5  监督学习、无监督学习与半监督学习
      8.2  机器学习算法库MLlib概述
        8.2.1  MLlib简介
        8.2.2  Spark机器学习的工作流程
        8.2.3  Spark MLlib的架构
      8.3  数据类型
        8.3.1  本地向量
        8.3.2  标签点
        8.3.3  本地矩阵
      8.4  Spark MLlib的基本统计方法
        8.4.1  摘要统计
        8.4.2  相关性
        8.4.3  分层抽样
      8.5  分类和回归
        8.5.1  线性支持向量机
        8.5.2  逻辑回归
        8.5.3  线性最小二乘法
        8.5.4  流的线性回归
      8.6  随机森林
        8.6.1  随机注入
        8.6.2  随机森林的预测
        8.6.3  3个案例
      8.7  朴素贝叶斯
      8.8  协同过滤
        8.8.1  协同过滤推荐算法的原理
        8.8.2  案例需求
        8.8.3  算法实现
        8.8.4  计算相似度的3种常用方法
        8.8.5  案例—如何使用协同过滤
        8.8.6  使用协同过滤算法时的常见问题
      实战训练:利用MLlib实现电影推荐引擎
      8.9  本章小结
      8.10  习题
    第9章  Redis数据库
      9.1  Redis简介
        9.1.1  常见的Redis应用场景
        9.1.2  Redis的特性
        9.1.3  持久化机制
      9.2  Redis的安装和启动
        9.2.1  Redis的安装
        9.2.2  前端启动
        9.2.3  后端启动
      9.3  Redis的客户端
        9.3.1  Redis自带的客户端
        9.3.2  Redis桌面管理工具
        9.3.3  Java客户端Jedis
      9.4  Redis的数据类型
      9.5  Redis的持久化和高可用性
        9.5.1  RDB方式和AOF方式

        9.5.2  Redis的高可用性
      实战训练:Spark SQL整合Redis分析电商数据
      9.6  本章小结
      9.7  习题
    第10章  综合案例—Spark电商实时数据处理
      10.1  项目概述
        10.1.1  介绍项目背景
        10.1.2  设计项目架构
      10.2  搭建项目环境
      10.3  初始化项目结构
        10.3.1  创建Maven工程
        10.3.2  构建SparkSession和StreamingContext实例对象
        10.3.3  构建属性配置文件
        10.3.4  配置Spark Streaming停止工具
      10.4  开发订单数据模块
        10.4.1  模拟订单数据
        10.4.2  启动Kafka服务
      10.5  订单数据处理模块
      10.6  开发报表
      10.7  本章小结