-
内容大纲
本书以功能更广更深、可靠性和安全性要求更高的金融级大数据平台为参照,介绍大数据平台的架构过程及各种大数据技术,不仅包含数据采集、数据集成、作业调度、数据加工、实时数据仓库、数据服务、数据可视化、数据挖掘等常见的应用场景,还加入了数据质量、数据安全、三态投产等广受关注的内容。本书以业务场景、技术选型、技术架构对主要章节进行划分,让读者在理解大数据业务需求的基础上,了解各种大数据技术,并能够选取合适的技术来构建大数据平台。
本书内容丰富,图文并茂,实战性强,适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,以及IT经理、CTO、CIO等快速学习大数据技术,并能快速提升读者的大数据平台架构能力。 -
作者介绍
-
目录
前言
第1部分 概述及数据处理
第1章 金融大数据应用概述
1.1 金融大数据技术发展历程
1.2 大数据技术分类
1.3 金融大数据技术应用场景
第2章 数据采集
2.1 数据采集业务场景
2.2 存储到HDFS的采集技术方案
2.2.1 前端渠道用户行为数据采集
2.2.2 服务端应用层数据采集
2.2.3 数据库层的采集
2.2.4 基于HDFS的数据采集整体架构
2.3 T+0的采集技术方案
2.3.1 T+0采集架构与基于HDFS的采集架构的不同点
2.3.2 T+0采集架构在前端、后端以及数据库端的设计
2.3.3 T+0数据采集整体架构
2.4 全域数据实时采集的技术挑战
2.5 实现全域数据实时采集的技术思路
2.5.1 数据库数据实时采集
2.5.2 基于Flink的采集平台和采集类型算子化
2.5.3 如何保证实时采集链路数据的一致性
2.6 全域数据实时采集的整体技术方案
2.6.1 数据源层
2.6.2 数据采集层
2.6.3 数据存储层
2.6.4 如何选择合适的采集模式
2.7 本章小结
第3章 数据离线处理
3.1 数据离线处理业务场景
3.2 数据离线处理架构的主要难点
3.2.1 数据传输标准
3.2.2 可以快速自由组合大数据处理动作的架构
3.2.3 数据离线处理的整体技术架构
3.2.4 数据离线处理各环节的技术要点
3.3 企业级数据传输标准
3.3.1 标准文件定义
3.3.2 模型演进下的数据传输标准
3.4 快速自由组合大数据作业流的架构要点
3.4.1 大数据离线处理作业开发流程
3.4.2 大数据离线处理作业开发流程技术要点
3.5 数据离线处理整体架构要点
3.5.1 大数据开发人员是写代码还是写SQL语句
3.5.2 是否使用单一的计算引擎
3.5.3 如何解决事务的场景问题
3.5.4 整体架构
3.6 离线处理动作实现要点
3.6.1 数据卸载
3.6.2 数据传输
3.6.3 数据预处理
3.6.4 数据加载
3.6.5 数据加工
3.6.6 数据复制
3.7 本章小结
第4章 流式数据处理
4.1 流式数据处理业务场景
4.2 流式数据处理简介
4.2.1 什么是流式处理
4.2.2 流计算和实时计算有什么区别
4.2.3 流处理引擎
4.2.4 引擎选型思路
4.3 整体方案
4.4 方案难点和解决思路
4.4.1 如何处理延迟与乱序数据
4.4.2 如何实现维表关联
4.4.3 计算结果存在哪里
4.4.4 如何保证数据一致性
4.5 运维注意事项
4.5.1 监控哪些指标
4.5.2 优化并行度
4.5.3 做好数据补偿的准备
4.6 本章小结
第2部分 数据使用
第5章 数据服务
5.1 数据服务业务场景
5.1.1 构建联机同步数据服务的案例
5.1.2 案例扩展
5.1.3 数据服务的需求
5.2 规划的功能架构
5.3 建设思路
5.3.1 服务访问代理层
5.3.2 网关层
5.3.3 服务管理层
5.3.4 数据服务
5.3.5 数据访问代理(查询引擎)
5.4 整体架构和时序图示例
5.4.1 整体架构
5.4.2 时序图示例
5.4.3 注意事项
5.5 本章小结
第6章 数据加速
6.1 数据加速业务场景
6.2 技术选型
6.2.1 选型维度介绍
6.2.2 ClickHouse、Kylin、Elasticsearch和Doris的对比
6.2.3 ClickHouse和Doris的对比
6.2.4 ClickHouse和Kylin的对比
6.2.5 选型结论
6.3 整体架构介绍
6.3.1 功能架构介绍
6.3.2 业务流程介绍
6.4 基于ClickHouse的实战介绍
6.4.1 基于ClickHouse的数据链路
6.4.2 ClickHouse部署架构
6.4.3 部署规划
6.4.4 配置经验
6.5 基于Kylin的实战介绍
6.5.1 基于Kylin的数据链路
6.5.2 配置经验
6.6 本章小结
第3部分 数据治理
第7章 元数据管理
7.1 元数据管理的业务背景
7.1.1 元数据管理的目标
7.1.2 元数据管理的功能需求
7.2 详细设计思路和实现方案
7.2.1 元数据模型
7.2.2 元数据存储
7.2.3 元数据采集与登记
7.2.4 元数据设计与发布
7.2.5 数据权限管理
7.2.6 元数据应用
7.3 整体技术架构介绍
7.4 本章小结
第8章 数据安全管理
8.1 数据安全管理业务背景
8.1.1 需求讨论
8.1.2 数据安全流程
8.2 识别和脱敏的技术难点
8.2.1 如何快速扫描和识别成千上万张表
8.2.2 如何即时解析用户的SQL语句获取查询的表字段
8.2.3 如何保存识别出来的数据保密等级
8.3 识别大量数据
8.3.1 识别数据的主要步骤和思路
8.3.2 自动识别的技术方案
8.4 动态脱敏的技术方案
8.4.1 动态脱敏的主要流程
8.4.2 使用Calcite解析SQL
8.4.3 动态脱敏接口设计
8.5 用MySQL保存识别出来的数据保密等级
8.6 本章小结
第9章 数据质量管理
9.1 数据质量管理业务背景
9.2 技术语言业务化
9.2.1 完善数据字典
9.2.2 元数据信息可视化
9.2.3 检核规则模板化
9.3 数据技术检核任务的自动化生成
9.3.1 技术检核的难点
9.3.2 技术检核任务的自动化
9.4 大数据文件的检核
9.4.1 检核数据方法
9.4.2 大文件快速检核技术实现方案
9.4.3 方案的权衡点
9.5 端到端的架构
9.6 本章小结
第4部分 数据部署与运维
第10章 大数据作业调度
10.1 作业调度的技术难点
10.1.1 架构设计
10.1.2 作业编排
10.1.3 资源管理
10.1.4 作业监控运维
10.1.5 非功能要求
10.2 作业调度整体架构
10.2.1 经典两层作业调度架构
10.2.2 早期分布式作业调度架构
10.2.3 基于MQ/Redis的分布式作业调度架构
10.3 作业排程
10.3.1 作业排程的主要步骤和思路
10.3.2 基于Redis的智能化作业排程方案
10.4 作业资源管理
10.5 调度运维服务
10.5.1 作业影响性分析
10.5.2 故障诊断
10.6 调度非功能设计
10.6.1 性能
10.6.2 可靠性
10.7 业务使用效果及局限性总结
10.8 作业调度发展趋势与未来规划
10.9 本章小结
第11章 大数据计算资源管理
11.1 大数据计算资源管理业务场景
11.1.1 资源管理业务背景
11.1.2 资源类型
11.1.3 大数据平台资源规划
11.1.4 跨AZ资源管理
11.1.5 资源使用监控
11.2 资源管理技术实现思路
11.2.1 资源管理技术实现简介
11.2.2 基于Kubernetes的资源管理实现
11.2.3 基于YARN的Hadoop资源管理实现
11.3 资源管理解决方案设计
11.3.1 资源管理整体流程
11.3.2 资源管理整体实现架构
11.3.3 资源管理中灵活资源配置场景介绍
11.4 资源管理设计不足探讨
11.5 本章小结
第12章 三态投产
12.1 三态投产业务场景
12.1.1 大数据三态
12.1.2 常规软件投产
12.1.3 自研投产部署方案的技术难点
12.2 解决思路
12.2.1 要在三态中投产的大数据应用内容
12.2.2 导入导出的范围控制
12.2.3 导入导出的性能问题
12.2.4 制品和平台及其组件版本的兼容性
12.2.5 制品的数据完整性
12.3 整体方案介绍
12.3.1 整体架构
12.3.2 方案要点
12.4 本章小结
第5部分 综合应用场景
第13章 流批一体
13.1 流批一体业务背景
13.2 流批一体初步架构
13.2.1 场景问题解决思路
13.2.2 架构方案
13.2.3 Lambda架构
13.2.4 存在的问题
13.3 流批同写一张表的架构
13.3.1 什么是流批同写一张表
13.3.2 技术选型
13.3.3 Hudi原理介绍
13.3.4 架构方案
13.3.5 要点和技术难点
13.3.6 待解决的问题
13.3.7 使用效果
13.4 处理层面的流批一体
13.4.1 技术选型
13.4.2 流批处理一体架构方案
13.4.3 关于Kappa架构
13.5 选择什么样的流批一体架构方案
13.5.1 3种流批一体架构方案对比
13.5.2 流批一体是否会取代流处理或批处理
13.6 本章小结
第14章 数据湖应用
14.1 什么是数据湖
14.2 为什么要建设数据湖
14.3 数据湖的规划设计
14.3.1 数据湖和数据仓库的区别与关系
14.3.2 数据湖架构规划
14.4 数据湖的技术选型
14.4.1 数据获取
14.4.2 数据存储
14.4.3 数据处理
14.4.4 访问分析
14.4.5 数据管理
14.5 数据湖的整体架构
14.5.1 技术架构
14.5.2 数据链路介绍
14.6 数据湖建设中的问题
14.7 本章小结
第15章 建设自主可控的信创大数据平台
15.1 建设大数据平台的业务背景
15.1.1 为什么要建设大数据平台
15.1.2 建设大数据平台的架构需求
15.1.3 待解决的架构问题
15.2 组件划分及设计
15.2.1 组件划分
15.2.2 各组件设计思路
15.2.3 组件间协同
15.3 信创适配
15.3.1 什么是信创
15.3.2 信创环境适配常见问题
15.3.3 适配工作
15.4 整体架构
15.5 本章小结
第16章 大数据发展趋势与未来规划
16.1 大数据领域新技术的发展
16.1.1 新型数据存储与计算架构
16.1.2 实时数据处理技术
16.1.3 数据治理和安全隐私保护技术
16.2 大数据与其他技术领域的融合发展
16.2.1 大数据技术领域内部融合
16.2.2 大数据与人工智能技术
16.2.3 大数据与物联网技术
16.2.4 大数据与云原生技术
16.3 技术人员的应对措施
16.3.1 创新思维和跨界思维
16.3.2 持续学习的态度
16.3.3 关注技术的业务价值而不是技术本身
16.4 大数据开发中的几个误区
16.4.1 重“技术”不重“业务”
16.4.2 重“继承”不重“创新”
16.4.3 重“功能”不重“非功能”
16.4.4 技术上重“深度”不重“广度”
后记
同类热销排行榜
[an error occurred while processing this directive]推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
