-
内容大纲
本书是一本深度探讨大模型在低算力环境下实现迁移与微调的实践指南,并深入讲解了大模型的部署与优化策略。书中结合多个垂直领域的应用场景,从理论到技术实现,全程详尽讲解了如何应对大模型在行业落地中的技术挑战,帮助读者逐步掌握大模型的迁移与微调核心技术。
通过阅读本书,你将能够:
(1)全面理解垂直领域迁移方式与技术选型
深入了解开源大模型向垂直领域迁移的核心方式,包括提示工程、检索增强生成、参数高效微调与全参数微调等技术路径,并灵活应对低算力场景下的迁移技术挑战。
(2)快速获取高质量领域数据的低成本方案
学习通过指令自举、无监督标注、自我策展等方法构建高质量数据集,同时掌握数据清洗、去重和质量过滤等关键技术,显著降低数据获取成本。
(3)掌握低算力环境下的训练与推理优化技术
全面掌握低算力训练与微调方法(如LoRA和QLoRA),并结合推理优化技术(如量化、剪枝和模型编译),高效实现低成本的大模型训练与推理。
(4)精通大模型的生产环境部署与优化
系统学习生产环境中大模型的部署方案,涵盖服务器推理加速、分布式集群架构和多平台适配技术,确保模型在实际应用中的高效、安全运行。
无论你是大模型开发者、人工智能研究人员,还是对垂直领域AI应用感兴趣的行业专家,本书都将带你深入大模型的核心领域,提供从构建、优化到部署的全流程指导,助你掌握这一前沿技术的实践精髓。 -
作者介绍
程戈,博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。 -
目录
前言
第1章 垂直领域大模型的行业变革与机遇
1.1 大模型下的行业变革
1.1.1 大模型的iPhone时刻
1.1.2 大模型的全行业重塑
1.1.3 劳动力市场的变革
1.2 垂直领域大模型迁移的动机
1.2.1 商业价值
1.2.2 行业技术护城河
1.2.3 领域数据优势
1.3 垂直领域大模型迁移的机遇
第2章 垂直领域迁移技术栈
2.1 垂直领域迁移的方式
2.1.1 提示工程
2.1.2 检索增强生成
2.1.3 参数高效微调
2.1.4 全参数微调
2.1.5 从头预训练
2.1.6 垂直领域迁移低算力技术选型
2.2 低算力微调
2.3 推理优化
2.3.1 模型编译
2.3.2 模型压缩
2.3.3 模型分区
第3章 大模型的开源生态
3.1 大模型的开源社区
3.1.1 Meta
3.1.2 HuggingFace
3.1.3 微软
3.1.4 英伟达
3.2 开源生态下基座模型选择的关键指标
3.2.1 参数规模
3.2.2 训练Token
3.2.3 上下文窗口
3.2.4 综合评测
3.2.5 商业许可
3.3 开源基座模型LLaMA系列
3.3.1 LLaMA
3.3.2 LLaMA
3.3.3 商用限制
第4章 自举领域数据的获取
4.1 指令自举标注
4.2 自举无监督标注
4.2.1 指令生成阶段
4.2.2 答案生成阶段
4.2.3 过滤和修剪阶段
4.3 自我策展
4.3.1 初始化阶段
4.3.2 自我增强阶段
4.3.3 自我策展阶段
4.4 自我奖励
4.4.1 种子数据
4.4.2 自我指令创建
4.4.3 指令遵循训练
4.4.4 迭代训练
第5章 数据处理
5.1 数据处理的挑战
5.2 数据质量
5.2.1 文本提取
5.2.2 数据去重
5.2.3 质量过滤
5.2.4 内容毒性过滤
5.3 高效数据集访问
5.3.1 数据集来源
5.3.2 列式内存格式
5.3.3 向量化计算
5.3.4 零复制数据交换
5.3.5 虚拟内存
第6章 大模型抽象
6.1 计算图
6.2 静态计算图
6.3 动态计算图
6.4 算子优化与调度
6.4.1 计算图与算子优化
6.4.2 计算图与算子调度
6.4.3 串行调度与并行调度
6.5 大模型中的张量与算子
6.5.1 输入层
6.5.2 自注意力层
6.5.3 前馈网络层
6.5.4 输出层
6.6 大模型的序列化
6.6.1 序列化文件的类型
6.6.2 TensorFlow模型序列化
6.6.3 PyTorch模型序列化
6.6.4 Safetensors序列化格式
第7章 LoRA低算力微调
7.1 LoRA的原理
7.2 LoRA的重参数化方法
7.3 秩的选择
7.4 LoRA的多任务处理策略
7.5 LoRA量化版本QLoRA
7.6 LoRA微调类型
7.6.1 继续预训练
7.6.2 RLHF
7.6.3 DPO
第8章 大模型的分布式训练
8.1 分布式训练的挑战
8.1.1 算力与内存瓶颈
8.1.2 分布式训练系统的设计挑战
8.2 分布式集群架构
8.2.1 GPU集群架构
8.2.2 集合通信算子
8.2.3 通信拓扑
8.3 分布式训练的通信架构
8.3.1 基于参数服务器的架构
8.3.2 基于归约的架构
8.4 并行模式
8.4.1 数据并行
8.4.2 张量并行
8.4.3 流水线并行
8.4.4 并行模式的对比
8.5 大模型的张量并行
8.5.1 输入层
8.5.2 输出层
8.5.3 多层感知机
8.5.4 自注意力
8.6 数据并行的内存优化
8.6.1 设备内存占用
8.6.2 ZeRO技术
8.6.3 ZeRO-Offload技术
第9章 推理优化技术
9.1 计算加速
9.1.1 算子融合
9.1.2 并行推理
9.2 内存优化
9.2.1 KV缓存
9.2.2 页注意力
9.2.3 快速注意力
9.3 吞吐量优化
9.3.1 内存I/O瓶颈
9.3.2 静态批处理
9.3.3 连续批处理
9.3.4 动态分割融合
9.4 量化
9.4.1 量化的动机
9.4.2 量化的原理
9.4.3 LLM.int8()
9.4.4 GPTQ
第10章 大模型的编译优化
10.1 深度学习编译与大模型编译
10.1.1 深度学习编译
10.1.2 多级渐进优化
10.1.3 硬件优化偏好
10.1.4 大模型的编译特点
10.2 深度学习框架
10.2.1 深度学习框架
10.2.2 不同阶段的编译优化
10.3 训练阶段的编译优化
10.3.1 训练前优化
10.3.2 训练优化库
10.4 端侧部署的编译优化
10.4.1 深度学习框架的端侧部署工具
10.4.2 第三方编译工具
10.4.3 大模型的手动编译优化
10.5 服务器端部署的编译优化
第11章 大模型部署的非性能需求
11.1 内容安全
11.1.1 内容安全的分类
11.1.2 应对策略
11.2 水印
11.2.1 主要检测技术的对比
11.2.2 大模型水印框架
11.2.3 水印攻击技术
11.3 监控
1l.3.1 监控流程
11.3.2 大模型基线
11.3.3 监控架构
11.4 评估
11.4.1 评估维度
11.4.2 评估数据集
11.4.3 评估方法
第12章 垂直领域大模型的服务器端部署
12.1 服务器端部署架构
12.1.1 服务器端部署的挑战
12.1.2 公有云与私有云
12.1.3 服务器端部署流程与优化
12.2 运行库优化
12.2.1 运行库优化与编译优化
12.2.2 TensorRT运行库架构
12.2.3 TensorRT运行库优化与推理
12.2.4 TensorRr-LLM
12.3 TGI生产环境解决方案
12.3.1 TGI的架构
12.3.2 TGI推理加速技术
12.3.3 TGI的其他特性
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
