欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Spark Streaming实时流式大数据处理实战
      • 作者:编者:肖力涛
      • 出版社:机械工业
      • ISBN:9787111624325
      • 出版日期:2019/05/01
      • 页数:233
    • 售价:27.6
  • 内容大纲

        本书以透彻的原理分析和充实的实例代码详解,全面阐述了Spark Streaming流式处理平台的相关知识,能够让读者快速掌握如何搭建Spark平台,然后在此基础上学习流式处理框架,并动手实践进行Spark Streaming流式应用的开发,包括与主流平台框架的对接应用,以及项目实战中的一些开发和调优策略等。
        本书共10章,分为3篇。第1篇为Spark基础,主要阐述了Spark的基本原理、平台搭建及实例应用;第2篇为Spark Streaming详解,阐述了Spark Streaming的基本原理,并重点介绍了SDark Streaming与Kafka、ZooKeeper、MySQL、HBase租Redis的配合使用、相关调优策略及实际应用;第3篇为Spark strearning案例实战,主要介绍了实时词频统计处理、用户行为统计和监控报警系统3个实战案例,帮助读者进行实战演练,提升读者的实际项目开发水平。另外,本书附录还对Scala语言基础做了简要讲解。
        本书内容理论结合实战,特别适合大数据技术爱好者及相关从业人员阅读,也可作为他们的常备工具书使用。另外,本书也适合作为大数据培训机构及高校相关专业的教材使用。
  • 作者介绍

        肖力涛,浙江大学计算机硕士,前腾讯优图实验室及WeTest研究员,现拼多多资深算法工程师。长期进行大数据处理、自然语言处理、深度学习、推荐算法的研究与实践,有丰富的项目经验。善于归纳和总结,所撰写的博客文章得到了大量读者的好评。擅长数据分析与处理、算法实践落地、用户行为数据挖掘、大规模数据处理等技术。运营《互联网技术猿》公众号。
  • 目录

    前言
    第1篇  Spark基础
      第1章  初识Spark
        1.1  Spark由来
        1.2  流式处理与Spark Streaming
        1.2.1  流式处理框架
        1.2.2  Spark Streaming初识
        1.2.3  Structed Streaming简述
        1.3  本章小结
      第2章  Spark运行与开发环境
        2.1  Spark的下载与安装
        2.2  Spark运行模式
        2.2.1  本地模式
        2.2.2  本地集群模式
        2.2.3  Standalone模式
        2.2.4  Spark On Yarn模式
        2.2.5  Spark On Mesos模式
        2.3  搭建开发环境
        2.3.1  修改配置
        2.3.2  启动集群
        2.3.3  IDE配置
        2.3.4  UI监控界面
        2.4  实例——Spark文件词频统计
        2.5  本章小结
      第3章  Spark编程模型
        3.1  RDD概述
        3.2  RDD存储结构
        3.3  RDD操作
        3.3.1  Transformation操作
        3.3.2  Action操作
        3.4  RDD间的依赖方式
        3.4.1  窄依赖(Narrow Dependency)
        3.4.2  Shuffle依赖(宽依赖Wide Dependency)
        3.5  从RDD看集群调度
        3.6  RDD持久化(Cachinng/Persistence)
        3.7  共享变量
        3.7.1  累加器(Accumulator)
        3.7.2  广播变量(Broadcast Variables)
        3.8  实例——Spark RDD操作
        3.9  本章小结
    第2篇  Spark Streaming详解
      第4章  Spark Streaming编程模型及原理
        4.1  DStream数据结构
        4.2  DStream操作
        4.2.1  DStream Transformation操作
        4.2.2  DStream输出操作
        4.3  Spark Streaming初始化及输入源
        4.3.1  初始化流式上下文(StreamingContext)
        4.3.2  输入源及接收器(Receivers)
        4.4  持久化、Checkpointing和共享变量

        4.4.1  DStream持久化(Caching/Persistence)
        4.4.2  Checkpointing操作
        4.5  实例——Spark Streaming流式词频统计
        4.6  本章小结
      第5章  Spark Streaming与Kafka
        5.1  ZooKeeper简介
        5.1.1  相关概念
        5.1.2  ZooKeeper部署
        5.2  Kafka简介
        5.2.1  相关术语
        5.2.2  Kafka运行机制
        5.2.3  Kafka部署
        5.2.4  简单样例
        5.3  Spark Streaming接收Kafka数据
        5.3.1  基于Receiver的方式
        5.3.2  直接读取的方式
        5.4  Spark Streaming向Kafka中写入数据
        5.5  实例——Spark Streaming分析Kafka数据
        5.6  本章小结
      第6章  Spark Streaming与外部存储介质
        6.1  将DStream输出到文件中
        6.2  使用foreachRDD设计模式
        6.3  将DStream输出到MySQL中
        6.3.1  MySQL概述
        6.3.2  MySQL通用连接类
        6.3.3  MySQL输出操作
        6.4  将DStream输出到HBase中
        6.4.1  HBase概述
        6.4.2  HBase通用连接类
        6.4.3  HBase输出操作
        6.4.4  “填坑”记录
        6.5  将DStream数据输出到Redis中
        6.5.1  Redis安装
        6.5.2  Redis概述
        6.5.3  Redis通用连接类
        6.5.4  输出Redis操作
        6.6  实例——日志分析
        6.7  本章小结
      第7章  Spark Streaming调优实践
        7.1  数据序列化
        7.2  广播大变量
        7.3  数据处理和接收时的并行度
        7.4  设置合理的批处理间隔
        7.5  内存优化
        7.5.1  内存管理
        7.5.2  优化策略
        7.5.3  垃圾回收(GC)优化
        7.5.4  Spark Streaming内存优化
          7.6  实例——项目实战中的调优示例
        7.6.1  合理的批处理时间(batchDuration)

        7.6.2  合理的Kafka拉取量(maxRatePerPartition参数设置)
        7.6.3  缓存反复使用的Dstream(RDD)
        7.6.4  其他一些优化策略
        7.6.5  结果
        7.7  本章小结
    第3篇  Spark Streaming案例实战
      第8章  实时词频统计处理系统实战
        8.1  背景与设计
        8.2  代码实现
        8.2.1  数据生成器
        8.2.2  分词服务
        8.2.3  流式词频统计
        8.3  环境配置与运行
        8.3.1  相关服务启动
        8.3.2  查看结果
        8.4  本章小结
      第9章  用户行为统计实战
        9.1  背景与设计
        9.1.1  不同状态的保存方式
        9.1.2  State设计
        9.1.3  Redis存储
        9.2  代码实现
        9.2.1  数据生成器
        9.2.2  用户行为统计
        9.3  环境配置与运行
        9.3.1  相关服务启动
        9.3.2  查看结果
        9.4  本章小结
      第10章  监控报警系统实战
        10.1  背景与设计
        10.2  代码实现
        10.2.1  简易爬虫子项目
        10.2.2  流式处理子项目
        10.2.3  归纳统计子项目
        10.2.4  数据表情况
        10.3  环境配置与查看
        10.3.1  启动各个模块
        10.3.2  查看结果
        10.4  本章小结
    附录A  Scala语言基础
      A.1  安装及环境配置
        A.1.1  安装Scala
        A.1.2  开发环境配置
      A.2  Scala语法独特性
        A.2.1  换行符
        A.2.2  统一类型
        A.2.3  Scala变量
        A.2.4  条件和循环语句
        A.2.5  函数和方法
        A.2.6  特质、单例和样例类

      A.3  Scala集合
        A.3.1  集合框架
        A.3.2  核心特质(Trait)
        A.3.3  常用的不可变集合类
        A.3.4  常用的可变集合类
        A.3.5  字符串
        A.3.6  数组
        A.3.7  迭代器(Iterators)
      A.4  其他常用特性
        A.4.1  模式匹配
        A.4.2  异常处理
        A.4.3  文件I/O