-
内容大纲
近年来,云计算、物联网、区块链和边缘计算等多种新型应用产生了海量的、有价值的数据,而且呈现出持续增长的趋势。如何有效地存储和管理如此庞大数据是现代工业界和学术界共同关注的重点和难点问题。
本书系统地介绍了数据消冗技术,该技术能够通过有效地检测和排除数据中的冗余部分,达到减轻存储系统的负担和降低成本的目标,从而应对海量数据增长带来的挑战。本书结合作者近十余年在与存储系统领域相关的国际学术会议和期刊上发表的前沿成果,一方面对单个数据消冗技术问题进行深入的理论剖析,另一方面针对多种常见应用场景的数据消冗需求提供丰富的系统级解决方案和技术思路。 -
作者介绍
-
目录
第1章 绪论
1.1 数据增长与数据消冗
1.2 大规模存储系统冗余负载分析
1.3 数据消冗技术的应用与挑战
1.4 本章小结
参考文献
第2章 从传统压缩到大规模数据消冗
2.1 传统压缩技术
2.2 数据去重技术
2.3 差量压缩技术
2.4 本章小结
参考文献
第3章 数据消冗前沿技术概述
3.1 数据分块
3.2 计算加速
3.3 指纹索引
3.4 数据恢复
3.5 垃圾回收
3.6 安全性
3.7 可靠性
3.8 差量压缩
3.9 开源社区实践
3.10 本章小结
参考文献
第4章 极速基于内容分块算法
4.1 技术背景
4.1.1 FSC算法
4.1.2 CDC算法
4.2 典型的CDC算法
4.2.1 基于拉宾指纹的CDC算法
4.2.2 非对称极值CDC算法
4.3 FastCDC算法的技术框架
4.3.1 基于齿轮哈希的CDC算法
4.3.2 分块判断优化
4.3.3 收敛分块策略
4.3.4 循环展开优化
4.4 性能分析
4.4.1 实验设置
4.4.2 分块判断优化评估
4.4.3 收敛分块策略评估
4.4.4 综合评估
4.5 本章小结
参考文献
第5章 流水线化和并行化数据去重技术
5.1 数据去重技术面临的计算挑战
5.1.1 数据去重技术的计算瓶颈与研究背景
5.1.2 数据去重流程的独立性与依赖性
5.2 流水线化和并行化数据去重技术的设计与实现
5.2.1 设计原理
5.2.2 主要功能模块
5.2.3 数据去重子任务的流水线化
5.2.4 指纹计算的并行化
5.2.5 分块的并行化
5.2.6 并行化过程中的同步和异步问题
5.3 性能分析
5.3.1 实验设置
5.3.2 关键参数测试
5.3.3 整体性能测试
5.3.4 其他CDC算法的适配性测试
5.4 本章小结
参考文献
第6章 高效的数据去重指纹索引技术
6.1 数据去重指纹索引的规模与挑战
6.2 基于局部性的数据去重指纹索引策略相关研究
6.2.1 备份数据流的局部性
6.2.2 典型相关系统介绍
6.3 基于相似性的数据去重指纹索引策略相关研究
6.3.1 备份数据流的相似性
6.3.2 典型相关系统介绍
6.4 基于局部性和相似性的数据去重指纹索引策略设计与实现
6.4.1 小文件与大文件的去重策略问题
6.4.2 局部性与相似性的互补设计
6.4.3 基于互补设计的指纹索引技术原理与理论剖析
6.4.4 基于互补设计的指纹索引技术设计与实现
6.5 性能分析
6.5.1 测试环境
6.5.2 相似性与局部性测试分析
6.5.3 与其他数据去重指纹索引算法性能比较
6.6 本章小结
参考文献
第7章 面向相似去重的快速差量压缩技术
7.1 相似数据差量压缩的技术背景
7.2 快速差量压缩技术的设计原理
7.3 受数据去重启发的快速差量压缩技术
7.3.1 主要设计思路与模块介绍
7.3.2 Gear-CDC算法
7.3.3 基于重复数据相邻区域的贪心检测算法
7.3.4 差量编码与解码操作
7.3.5 差量编码的总体流程
7.4 性能分析
7.4.1 测试环境
7.4.2 Gear-CDC算法性能测试
7.4.3 应用案例一测试:数据去重后的相似数据差量压缩
7.4.4 应用案例二测试:文件更新后的差量压缩
7.5 本章小结
参考文献
第8章 基于数据去重感知的相似数据检测和差量压缩技术
8.1 相似数据消冗技术概述
8.1.1 相似数据消冗技术的原理与发展趋势
8.1.2 基于超级特征值的相似数据检测技术分析
8.1.3 基于数据去重感知的相似数据检测技术的提出
8.2 基于数据去重感知的相似数据检测和差量压缩技术的设计与实现
8.2.1 设计原理与结构
8.2.2 基于数据去重感知的相似数据检测
8.2.3 基于超级特征值的相似数据检测
8.2.4 差量压缩与存储管理
8.2.5 整体流程
8.3 性能分析
8.3.1 测试环境
8.3.2 基于超级特征值的相似数据检测的验证学习
8.3.3 基于数据去重感知的相似数据检测和差量压缩性能
8.3.4 可扩展性测试
8.3.5 恢复性能测试
8.4 本章小结
参考文献
第9章 受数据去重启发的轻量级差量同步技术
9.1 差量同步与数据去重技术
9.1.1 差量同步与数据去重技术简介
9.1.2 本章的主要内容
9.2 基于内容分块的差量同步算法
9.2.1 CDC算法回顾与选择
9.2.2 用CDC算法代替FSC算法
9.2.3 CDC算法中的弱指纹复用策略
9.2.4 改进CDC算法后的差量同步算法简述
9.3 面向差量同步的协议优化
9.3.1 强弱指纹比较过程分离
9.3.2 合并连续相同数据块
9.3.3 关于元数据规模
9.3.4 最终版本
9.4 性能分析
9.4.1 测试环境
9.4.2 整体性能测试
9.4.3 三种代表性差量同步技术对比
9.4.4 高带宽大文件场景下的性能对比
9.5 本章小结
参考文献
第10章 面向人工智能模型的差量压缩技术
10.1 人工智能模型压缩技术现状
10.1.1 基于轻量化设计的模型压缩
10.1.2 基于剪枝技术的模型压缩
10.1.3 基于量化技术的模型压缩
10.2 基于局部敏感性的网络浮点参数量化压缩技术
10.2.1 网络浮点参数压缩的难点
10.2.2 神经网络浮点参数的分布
10.2.3 局部敏感量化方案设计
10.2.4 量化压缩后模型的版本相似性
10.3 利用版本间相似性的神经网络差量压缩方案
10.3.1 现有神经网络差量压缩方案的不足与改进思路
10.3.2 基于量化的神经网络差量压缩方案
10.3.3 基于误差反馈的神经网络量化训练更新算法
10.3.4 神经网络的量化及差量压缩方案
10.3.5 压缩时间复杂度分析
10.4 资源受限场景应用分析
10.4.1 场景一:减少人工智能模型快照的存储开销
10.4.2 场景二:减少人工智能模型传输的通信开销
10.5 性能分析
10.5.1 测试环境、数据集与对比方法
10.5.2 网络浮点参数量化比特数的选择
10.5.3 压缩后网络模型精度测试
10.5.4 网络模型压缩性能测试
10.6 本章小结
参考文献
第11章 面向时序数据库的有损压缩技术
11.1 时序数据特性和有损浮点数压缩编码器
11.1.1 数据库浮点数压缩现状
11.1.2 有损浮点数压缩算法简介
11.1.3 时序数据库场景简介
11.1.4 有损浮点数压缩算法在时序数据库中的应用
11.2 典型的有损浮点数压缩算法
11.3 在线化设计与实现
11.3.1 特殊值编码器在线化方案
11.3.2 哈夫曼编码器在线化方案
11.3.3 无损编码器在线化方案
11.3.4 自适应算术编码方案
11.3.5 对比测试
11.4 预测器的改进
11.4.1 预测器方案介绍
11.4.2 对比测试
11.5 数据库中的性能测试
11.5.1 测试环境与方案
11.5.2 测试结果
11.6 本章小结
参考文献
第12章 面向非易失性内存场景的数据消冗技术
12.1 NVM文件系统与数据消冗技术
12.1.1 NVM的发展及其结构与特性
12.1.2 NVM文件系统研究现状
12.1.3 面向NVM的数据消冗技术研究现状
12.1.4 本章的主要内容
12.2 NVM文件系统在数据消冗方面的性能与一致性挑战
12.2.1 面向NVM的高吞吐率数据消冗技术难点分析
12.2.2 面向NVM的数据消冗一致性技术难点分析
12.3 支持数据消冗的NVM文件系统设计与实现
12.3.1 轻量级的数据消冗框架设计
12.3.2 高效的冗余检测优化策略
12.3.3 NVM友好的去重元数据管理
12.3.4 高性能的NVM去重索引构建
12.3.5 轻量级一致性的设计与恢复
12.4 性能分析
12.4.1 测试环境
12.4.2 整体测试
12.4.3 高吞吐率设计的有效性测试
12.4.4 一致性设计的有效性测试
12.4.5 恢复时间测试
12.4.6 交织模式的影响
12.5 本章小结
参考文献
第13章 面向图像存储的细粒度数据去重技术
13.1 图像去重的研究现状
13.2 图像去重的特性与挑战
13.2.1 图像场景的特性
13.2.2 图像去重的挑战
13.3 细粒度图像去重框架
13.4 基于特征位图的相似性检测器
13.4.1 相似性检测器的框架
13.4.2 生成二维特征
13.4.3 基于特征位图的指纹算法
13.4.4 基于特征位图的相似性检测器的优点
13.5 与图像编码兼容的差量压缩器
13.5.1 差量压缩器的框架
13.5.2 差量压缩器的细节
13.5.3 针对连续重复块的优化
13.5.4 与图像编码兼容的差量压缩器的优点
13.6 性能分析
13.6.1 系统原型的实现和具体配置
13.6.2 测试环境与数据集介绍
13.6.3 关键性能测试指标
13.6.4 针对相似性检测器的测试
13.6.5 针对差量压缩器的测试
13.6.6 与粗粒度图像去重技术对比
13.7 本章小结
参考文献
第14章 总结与展望
14.1 面向存储系统的通用数据消冗技术
14.2 针对特定场景的专用数据消冗技术
附录 主要术语表
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...