-
内容大纲
本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的必读书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。 -
作者介绍
鲁克米尼·戈帕兰,是一位产品管理领导者,曾在微软和其他初创公司从事数据基础设施和平台方面的工作。她的目标是向数据架构师和数据开发人员传授构建云数据湖平台的各方面知识。她住在华盛顿州的雷德蒙德,喜欢探索太平洋西北地区,交谈时喜欢喝咖啡。 -
目录
前言
第1章 大数据—超越喧嚣
1.1 什么是大数据
1.2 弹性数据基础设施的挑战
1.3 云计算基础
1.3.1 云计算术语
1.3.2 云的价值主张
1.4 云数据湖架构
1.4.1 本地数据仓库解决方案的限制
1.4.2 什么是云数据湖架构
1.4.3 云数据湖架构的优势
1.5 开启云数据湖之旅
1.6 总结
第2章 云上的大数据架构
2.1 为什么Klodars公司要迁移到云
2.2 云数据湖架构基础
2.2.1 浅谈数据的多样性
2.2.2 云数据湖存储
2.2.3 大数据分析引擎
2.2.4 云数据仓库
2.3 现代数据仓库架构
2.3.1 参考架构
2.3.2 现代数据仓库架构的用例
2.3.3 现代数据仓库架构的优势和挑战
2.4 数据湖仓一体架构
2.4.1 参考架构
2.4.2 数据湖仓一体架构的用例
2.4.3 数据湖仓一体架构的优势和挑战
2.4.4 数据仓库和非结构化数据
2.5 数据网格
2.5.1 参考架构
2.5.2 数据网格架构的用例
2.5.3 数据网格架构的优势和挑战
2.6 什么是适合的架构
2.6.1 了解客户
2.6.2 了解业务驱动因素
2.6.3 考虑增长和未来场景
2.6.4 设计注意事项
2.6.5 混合方法
2.7 总结
第3章 数据湖的设计注意事项
3.1 设置云数据湖基础设施
3.1.1 确定目标
3.1.2 规划架构和可交付成果
3.1.3 云数据湖实施
3.1.4 发布和运行
3.2 在数据湖中组织数据
3.2.1 数据生命中的一天
3.2.2 数据湖区
3.2.3 组织机制
3.3 数据治理简介
3.3.1 数据治理的参与者
3.3.2 数据分类
3.3.3 元数据管理、数据目录和数据共享
3.3.4 数据访问管理
3.3.5 数据质量和可观测性
3.3.6 Klodars公司的数据治理
3.3.7 数据治理总结
3.4 管理数据湖成本
3.4.1 揭秘云上的数据湖成本
3.4.2 数据湖成本策略
3.5 总结
第4章 可扩展的数据湖
4.1 可扩展性探秘
4.1.1 什么是可扩展性
4.1.2 日常生活中的规模
4.1.3 数据湖架构中的可扩展性
4.2 数据湖处理系统的内部
4.2.1 内部数据复制
4.2.2 内部ELT/ETL处理
4.2.3 关于其他交互式查询的说明
4.3 可扩展数据湖解决方案的注意事项
4.3.1 选择合适的云产品
4.3.2 峰值容量规划
4.3.3 数据格式和作业配置文件
4.4 总结
第5章 优化云数据湖架构以提高性能
5.1 度量性能的基础知识
5.1.1 性能的目标和指标
5.1.2 度量性能
5.1.3 优化以提高性能
5.2 云数据湖性能
5.2.1 SLA、SLO和SLI
5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI
5.3 性能驱动因素
5.3.1 复制作业的性能驱动因素
5.3.2 Spark作业的性能驱动因素
5.4 性能调优的优化原则和技术
5.4.1 数据格式
5.4.2 数据组织和分区
5.4.3 在Apache Spark上选择正确的配置
5.5 减少数据传输开销
5.6 优质产品和性能
5.6.1 大型虚拟机案例
5.6.2 闪存案例
5.7 总结
第6章 深入了解数据格式
6.1 为什么我们需要这些开放数据格式
6.1.1 为什么我们需要存储表格数据
6.1.2 为什么在云数据湖中存储表格数据是一个问题
6.2 Delta Lake
6.2.1 为什么开发Delta Lake
6.2.2 Delta Lake如何工作
6.2.3 什么时候使用Delta Lake
6.3 Apache Iceberg
6.3.1 为什么开发Apache Iceberg
6.3.2 Apache Iceberg是如何工作的
6.3.3 什么时候使用Apache Iceberg
6.4 Apache Hudi
6.4.1 为什么孵化Apache Hudi
6.4.2 Apache Hudi如何工作
6.4.3 什么时候使用Apache Hudi
6.5 总结
第7章 架构的决策框架
7.1 云数据湖评估
7.2 云数据湖评估分析
7.2.1 从零开始
7.2.2 将现有数据湖或数据仓库迁移到云
7.2.3 改进现有的云数据湖
7.3 决策框架的第1阶段:评估
7.3.1 了解客户需求
7.3.2 了解改进的机会
7.3.3 了解业务驱动因素
7.3.4 确定需求的优先级来完成评估阶段
7.4 决策框架的第2阶段:定义
7.4.1 确定云数据湖的设计选择
7.4.2 规划云数据湖项目可交付成果
7.5 决策框架的第3阶段:实施
7.6 决策框架的第4阶段:操作
7.7 总结
第8章 数据启迪未来的六大经验
8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和“为什么”
8.2 第2课:权力越大,责任越大—数据也不例外
8.3 第3课:客户引领技术,而不是技术引领客户
8.4 第4课:改变是不可避免的,所以要做好准备
8.5 第5课:建立同理心,分清轻重缓急
8.6 第6课:巨大的影响不会在一夜之间发生
8.7 总结
附录 云数据湖决策框架模板
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...