-
内容大纲
这是一本理论高度概括的书,从定义(what)、位置(where)、时机(when)和方法(how)的角度讲解流式处理最核心、最本质的概念、特性、设计和思考方式。
本书分为两部分:第一部分以Beam的编程模型为抓手讨论流式处理的种种核心问题,重点是相对高层次地讨论批处理数据处理模型以及流式数据处理模型;第二部分讨论流与表的二象性,即两者之间的类比与差异,对概念进行深入探讨,并讨论关于流式处理的“流和表”的思考方式。本书还概要浏览大数据处理系统的家族历史,深入讨论流式系统发展领域的一些重要贡献。
本书覆盖流式系统的核心理论和本质概念,适合大数据系统爱好者、相关专业学生、数据工程师、数据科学家和开发人员阅读和参考。尽管本书只是流式系统的导论读物,但是仍然需要读者了解大数据处理系统的基本原理并具备相关的使用经验。 -
作者介绍
-
目录
第一部分 Beam模型
第1章 流式处理入门
1.1 术语:什么是流
1.2 数据处理模式
1.3 小结
第2章 数据处理的来龙去脉
2.1 路线图
2.2 批基础:定义及位置
2.3 开始流处理:时机及方法
2.4 小结
第3章 水位
3.1 定义
3.2 源端水位的创建
3.3 水位传播
3.4 百分比水位
3.5 处理时间水位
3.6 案例分析
3.7 小结
第4章 高级开窗
4.1 时机/位置:处理时间开窗
4.2 位置:会话
4.3 位置:自定义开窗
4.4 小结
第5章 精确一次及副作用
5.1 为什么精确一次这么重要
5.2 准确性与完整性
5.3 确保在混洗中精确一次
5.4 解决确定性
5.5 性能
5.6 源端的精确一次
5.7 汇端的精确一次
5.8 用例
5.9 其他系统
5.10 小结
第二部分 流和表
第6章 流和表
6.1 流和表的基础:“流表相对论”的特殊理论
6.2 批处理与流和表
6.3 流和表世界的定义、位置、时机和方法
6.4 “流表相对论”的一般理论
6.5 小结
第7章 持久化状态的实践
7.1 动机
7.2 隐式状态
7.3 广义状态
7.4 小结
第8章 流式SQL
8.1 什么是流式SQL
8.2 回顾:流和表的设计偏好
8.3 展望:迈向健壮的流式SQL
8.4 小结
第9章 流式连接
9.1 所有连接都是流式连接
9.2 非开窗连接
9.3 开窗连接
9.4 小结
第10章 大规模数据处理的演化
10.1 MapReduce
10.2 Hadoop
10.3 Flume
10.4 Storm
10.5 Spark
10.6 MillWheel
10.7 Kafka
10.8 CloudDataFlow
10.9 Flink
10.10 Beam
10.11 小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...