-
内容大纲
你需要构建安全、稳定的数据平台,需要可以扩展到任何规模的工作负载。当项目从实验室进入生产环境时,你需要确信它可以应对现实工作中的挑战。本书能够帮助你实现这些需求,将讲述如何设计和实现基于云的、可以轻松监控、扩展和修改的数据基础设施。
通过本书,你将学到构建和维护大型企业大数据平台所需的技能。书中包括设置基础设施、编排、工作负载和治理,写作风格清晰、实用。在学习过程中,你将建立高效的机器学习管道,然后掌握省时的自动化和DevOps解决方案。书中基于Azure的示例很容易在其他云平台上实现。
主要内容:
数据字典和数据治理;
数据质量管控、合规和分发;
构建自动化管道以提高可靠性;
数据摄取、存储和分发;
支持生产环境中的数据建模、分析和机器学习。
读者对象:
本书面向数据工程师,讲述如何使用云计算和DevOps进行数据工程。 -
作者介绍
-
目录
第1章 简介
1.1 什么是数据工程
1.2 本书读者对象
1.3 什么是数据平台
1.3.1 数据平台的构成
1.3.2 基础设施即代码,无代码基础设施
1.4 使用云构建
1.4.1 IaaS、PaaS和SaaS
1.4.2 网络、存储和计算
1.4.3 如何使用Azure
1.4.4 与Azure交互
1.5 实现Azure数据平台
1.6 本章小结
第Ⅰ部分 基础设施
第2章 存储
2.1 在数据平台中存储数据
2.1.1 跨多个数据织物存储数据
2.1.2 SSOT
2.2 Azure Data Explorer简介
2.2.1 部署Azure Data Explorer集群
2.2.2 使用Azure Data Explorer
2.2.3 解决查询限制问题
2.3 Azure Data Lake Storage简介
2.3.1 创建Azure Data Lake Storage账户
2.3.2 使用Azure Data Lake Storage
2.3.3 集成Azure Data Explorer
2.4 数据摄取
2.4.1 数据摄取频率
2.4.2 加载类型
2.4.3 数据重建和重新加载
2.5 本章小结
第3章 DevOps
3.1 什么是DevOps
3.2 Azure DevOps简介
3.3 部署基础设施
3.3.1 导出Azure Resource Manager模板
3.3.2 创建Azure DevOps服务连接
3.3.3 部署Azure Resource Manager模板
3.3.4 理解Azure Pipelines
3.4 部署Azure Data Explorer对象和分析
3.4.1 使用Azure DevOps市场扩展
3.4.2 将所有内容都存储在Git并自动部署所有内容
3.5 本章小结
第4章 编排
4.1 导入Bing COVID-19开放数据集
4.2 Azure Data Factory简介
4.2.1 设置数据源
4.2.2 设置数据接收器
4.2.3 设置管道
4.2.4 设置触发器
4.2.5 使用Azure Data Factory进行编排
4.3 Azure Data Factory的DevOps
4.3.1 从Git部署Azure Data Factory
4.3.2 设置访问控制
4.3.3 部署生产环境的Azure Data Factory
4.3.4 小结
4.4 使用Azure Monitor进行监控
4.5 本章小结
第Ⅱ部分 具体的工作任务
第5章 数据处理
5.1 数据建模技术
5.1.1 规范化和反规范化
5.1.2 数据仓库
5.1.3 半结构化数据
5.1.4 小结
5.2 身份钥匙环
5.2.1 构建身份钥匙环
5.2.2 理解钥匙环
5.3 时间线
5.3.1 构建时间线视图
5.3.2 使用时间线
5.4 应用DevOps以保证数据处理能够按计划可靠地运行
5.4.1 使用Git追踪和处理函数
5.4.2 使用Azure Data Factory构建钥匙环
5.4.3 扩展规模
5.5 本章小结
第6章 数据分析
6.1 开发环境和生产环境分离下如何访问数据
6.1.1 对生产数据处理后再部分复制到开发环境
6.1.2 将生产数据完全复制到开发环境
6.1.3 在开发环境中提供生产数据的只读视图
6.1.4 小结
6.2 设计数据分析的工作流程
6.2.1 原型
6.2.2 开发和用户验收测试
6.2.3 生产环境
6.2.4 小结
6.3 让数据科学家能够自助移动数据
6.3.1 基本原则和相关背景
6.3.2 数据合约
6.3.3 管道验证
6.3.4 事后分析
6.3.5 小结
6.4 本章小结
第7章 机器学习
7.1 训练一个机器学习模型
7.1.1 使用scikit-learn训练模型
7.1.2 高消费者模型实现
7.2 引入Azure Machine Learning
7.2.1 创建工作区
7.2.2 创建Azure Machine Learning计算目标
7.2.3 设置Azure Machine Learning存储
7.2.4 在云中运行机器学习
7.2.5 小结
7.3 MLOps
7.3.1 从Git部署
7.3.2 存储管道ID
7.3.3 小结
7.4 机器学习的编排
7.4.1 连接Azure Data Factory与Azure Machine Learning
7.4.2 机器学习编排
7.4.3 小结
7.5 本章小结
第Ⅲ部分 数据治理
第8章 元数据
8.1 理解大数据平台中元数据的需求
8.2 介绍Azure Purview
8.3 维护数据字典
8.3.1 设置扫描
8.3.2 浏览数据字典
8.3.3 小结
8.4 管理数据术语表
8.4.1 添加新的术语
8.4.2 审查术语
8.4.3 自定义模板和批量导入
8.4.4 小结
8.5 了解Azure Purview的高级功能
8.5.1 追踪数据血缘
8.5.2 分类规则
8.5.3 REST API
8.5.4 小结
8.6 本章小结
第9章 数据质量
9.1 数据测试概述
9.1.1 可用性测试
9.1.2 正确性测试
9.1.3 完整性测试
9.1.4 异常检测测试
9.1.5 小结
9.2 使用Azure Data Factory进行数据质量检查
9.2.1 使用Azure Data Factory进行测试
9.2.2 执行测试
9.2.3 创建和使用模板
9.2.4 小结
9.3 扩展数据测试
9.3.1 支持多个数据平台
9.3.2 按计划运行测试和触发运行测试
9.3.3 编写测试
9.3.4 存储测试定义和结果
9.4 本章小结
第10章 合规
10.1 数据分类
10.1.1 特征数据
10.1.2 遥测数据
10.1.3 用户数据
10.1.4 用户拥有的数据
10.1.5 业务数据
10.1.6 小结
10.2 将敏感数据变得不那么敏感
10.2.1 聚合
10.2.2 匿名化
10.2.3 伪匿名化
10.2.4 数据掩码
10.2.5 小结
10.3 访问控制模型
10.3.1 安全组
10.3.2 保护Azure Data Explorer
10.3.3 小结
10.4 GDPR和其他考虑因素
10.4.1 数据处理
10.4.2 数据主体请求
10.4.3 其他考虑因素
10.5 本章小结
第11章 数据分发
11.1 数据分发概述
11.2 构建数据API
11.2.1 Azure Cosmos DB简介
11.2.2 填充Cosmos DB集合
11.2.3 检索数据
11.2.4 小结
11.3 机器学习模型如何对外提供服务
11.4 共享数据进行批量复制
11.4.1 分离计算资源
11.4.2 Azure Data Share简介
11.4.3 小结
11.5 数据共享的最佳实践
11.6 本章小结
附录A Azure服务
附录B KQL快速参考
附录C 运行代码示例
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...