-
内容大纲
本书为想要设计、构建和维护实时分析应用程序的人员(包括数据工程师、架构师和技术领导者)提供了结构合理的基础知识。第1章和第2章简要介绍实时分析,并概述可以构建的实时分析应用程序的类型。第3章介绍一家虚构的比萨公司,该公司已经建立了流处理基础设施,但尚未实现任何实时分析功能。第4~10章展示如何为这家比萨公司实现不同类型的实时分析应用程序。第11~13章介绍将应用程序投入生产时的注意事项、实时分析的一些真实使用案例,以及未来几年该领域可能会出现的情况。 -
作者介绍
马克·尼达姆(Mark Needham),Neo4j公司开发者关系工程师,Neo4j认证专家,曾深度参与Neo4j因果集群的开发工作。马克致力于帮助客户运用图数据库,善于针对富有挑战性的数据问题构建综合的解决方案。 -
目录
序
前言
第1章 实时分析简介
1.1 什么是事件流
1.2 理解流数据
1.3 什么是实时分析
1.4 实时分析的优势
1.4.1 新的收入来源
1.4.2 及时洞察客户
1.4.3 降低基础设施成本
1.4.4 改善整体客户体验
1.5 实时分析用例
1.5.1 面向用户的分析
1.5.2 个性化
1.5.3 指标
1.5.4 异常检测和根本原因分析
1.5.5 可视化
1.5.6 即时分析
1.5.7 日志分析/文本搜索
1.6 对实时分析应用程序进行分类
1.6.1 面向内部与面向外部
1.6.2 面向机器与面向人类
1.7 本章小结
第2章 实时分析生态系统
2.1 定义实时分析生态系统
2.2 经典流处理技术栈
2.2.1 复杂事件处理
2.2.2 大数据时代
2.3 现代流处理技术栈
2.3.1 事件生成器
2.3.2 流处理数据平台
2.3.3 流处理层
2.3.4 服务层
2.3.5 前端
2.4 本章小结
第3章 介绍AATD:比萨外卖店的实时分析
3.1 现有架构
3.2 设置
3.2.1 MySQL
3.2.2 Apache Kafka
3.2.3 ZooKeeper
3.2.4 订单服务
3.2.5 启动组件
3.3 检查数据
3.4 实时分析的应用
3.5 本章小结
第4章 使用Kafka Streams进行查询
4.1 什么是Kafka Streams
4.2 什么是Quarkus
4.3 Quarkus应用程序
4.3.1 安装Quarkus CLI
4.3.2 创建Quarkus应用程序
4.3.3 创建拓扑结构
4.3.4 查询键值存储
4.3.5 创建HTTP端点
4.4 运行应用程序
4.5 查询HTTP端点
4.6 Kafka Streams的局限性
4.7 本章小结
第5章 服务层—Apache Pinot
5.1 为什么不能使用其他流处理器
5.2 为什么不能使用数据仓库
5.3 什么是Apache Pinot
5.4 Pinot如何对数据进行建模和存储
5.4.1 数据模式
5.4.2 表
5.5 配置
5.6 数据摄取
5.7 Pinot数据浏览器
5.8 索引
5.9 更新Web应用程序
5.10 本章小结
第6章 构建实时分析仪表盘
6.1 仪表盘架构
6.2 什么是Streamlit
6.3 配置
6.4 构建仪表盘
6.5 本章小结
第7章 通过CDC获取产品变化
7.1 从业务数据库获取更改信息
7.2 CDC
7.2.1 为什么需要CDC
7.2.2 什么是CDC
7.2.3 实施CDC的策略
7.2.4 基于日志的数据采集
7.2.5 CDC系统的需求
7.2.6 Debezium
7.3 将CDC应用于AATD
7.3.1 配置
7.3.2 将Debezium连接到MySQL
7.3.3 查询商品数据流
7.3.4 更新产品
7.4 本章小结
第 8 章 使用Kafka Streams连接流
8.1 使用Kafka Streams丰富订单数据
8.2 将订单项添加到Pinot
8.3 更新订单服务信息
8.4 刷新Streamlit仪表盘
8.5 本章小结
第9章 服务层的插入更新
9.1 订单状态
9.2 丰富订单流信息
9.3 Apache Pinot的插入更新
9.4 更新订单服务
9.4.1 创建用户资源文件
9.4.2 添加一个所有用户的端点
9.4.3 为用户端点添加订单
9.4.4 添加单个订单端点
9.4.5 实现跨资源共享
9.5 前端应用程序
9.6 仪表盘上的订单状态
9.6.1 每个订单状态的耗时
9.6.2 可能被延误的订单
9.7 本章小结
第10章 地理空间查询
10.1 交付状态
10.2 更新Apache Pinot
10.2.1 订单
10.2.2 交付状态
10.3 更新订单服务
10.3.1 个人订单
10.3.2 按地区划分的延迟订单
10.3.3 使用新的API端点
10.4 本章小结
第11章 生产环境中的注意事项
11.1 前期准备
11.1.1 容量规划
11.1.2 数据分区
11.1.3 吞吐量
11.1.4 数据保留
11.1.5 数据粒度
11.1.6 总数据大小
11.1.7 复制因子
11.2 部署平台
11.2.1 自身技能
11.2.2 数据隐私和安全
11.2.3 成本
11.2.4 控制
11.3 后期管理
11.3.1 监控和报警
11.3.2 数据治理
11.4 本章小结
第12章 现实世界中的实时分析
12.1 内容推荐(专业社交网络)
12.1.1 问题
12.1.2 解决方案
12.1.3 收益
12.2 运营分析(流媒体服务)
12.2.1 问题
12.2.2 解决方案
12.2.3 收益
12.3 实时广告分析(网上商城)
12.3.1 问题
12.3.2 解决方案
12.3.3 收益
12.4 面向用户的分析(协作平台)
12.4.1 问题
12.4.2 解决方案
12.4.3 收益
12.5 本章小结
第13章 实时分析的未来
13.1 边缘分析
13.2 计算存储分离
13.3 湖仓一体
13.4 实时数据可视化
13.5 流式数据库
13.6 流数据平台即服务
13.7 反向ETL
13.8 本章小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...