-
内容大纲
本书系统地讲解了大模型技术、训练算法(包括强化学习、RLHF、DPO、SFT 与蒸馏等)、效果优化及其实践。全书以大语言模型为核心,内容广泛且深入,绝大部分内容适用于视觉语言模型和多模态大语言模型。
本书适合AI 算法与工程领域的从业者,相关专业的学生,希望深入了解大模型技术、拥抱AI 与大模型浪潮的读者阅读。 -
作者介绍
余昌叶,资深算法工程师,哈尔滨工业大学优秀毕业生。曾就职于腾讯等多家一线互联网企业,拥有十年行业经验。主要研究方向为大模型、强化学习、推荐系统及图像处理。具备扎实的数学功底与深厚的算法理论基础,主导并完成多项核心技术项目的工程化落地。已获六项国家发明专利,曾荣获科研类全国航空航天模型锦标赛亚军等专业奖项,以及腾讯卓越研发奖(团队)、腾讯知识奖等多项企业级荣誉。 -
目录
第1章 大模型原理与技术概要
1.1 图解大模型结构
1.1.1 大语言模型(LLM)结构全景图
1.1.2 输入层:分词、Token映射与向量生成
1.1.3 输出层:Logits、概率分布与解码
1.1.4 多模态语言模型(MLLM、VLM)
1.2 大模型训练全景图
1.3 Scaling Law(性能的四大扩展规律)
第2章 SFT(监督微调)
2.1 多种微调技术图解
2.1.1 全参数微调、部分参数微调
2.1.2 LoRA(低秩适配微调)——四两拨千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基于提示的微调:Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微调技术对比
2.1.7 如何选择微调技术
2.2 SFT原理深入解析
2.2.1 SFT数据与ChatML格式化
2.2.2 Logits与Token概率计算
2.2.3 SFT的Label
2.2.4 SFT的Loss图解
2.2.5 对数概率(LogProbs)与LogSoftmax
2.3 指令收集和处理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 数据预处理及常用工具
2.4 SFT实践指南
2.4.1 如何缓解SFT引入的幻觉?
2.4.2 Token级Batch Size的换算
2.4.3 Batch Size与学习率的Scaling Law
2.4.4 SFT的七个技巧
第3章 DPO(直接偏好优化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景与意义
3.1.2 隐式的奖励模型
3.1.3 Loss和优化目标
3.2 偏好数据集的构建
3.2.1 构建流程总览
3.2.2 Prompt的收集
3.2.3 问答数据对的清洗
3.2.4 封装和预处理
3.3 图解DPO的实现与训练
3.3.1 模型的初始化
3.3.2 DPO训练全景图
3.3.3 DPO核心代码的提炼和解读
3.4 DPO实践经验
3.4.1 β参数如何调节
3.4.2 DPO对模型能力的多维度影响
3.5 DPO进阶
3.5.1 DPO和RLHF(PPO)的对比
3.5.2 理解DPO的梯度
第4章 免训练的效果优化技术
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt设计的原则
4.2 CoT(思维链)
4.2.1 CoT原理图解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的应用技巧
4.2.4 CoT在多模态领域的应用
4.3 生成控制和解码策略
4.3.1 解码的原理与分类
4.3.2 贪婪搜索
4.3.3 Beam Search(波束搜索):图解、衍生
4.3.4 Top-K、Top-P等采样方法图解
4.3.5 其他解码策略
4.3.6 多种生成控制参数
4.4 RAG(检索增强生成)
4.4.1 RAG技术全景图
4.4.2 RAG相关框架
4.5 功能与工具调用(Function Calling)
4.5.1 功能调用全景图
4.5.2 功能调用的分类
第5章 强化学习基础
5.1 强化学习核心
5.1.1 强化学习:定义与区分
5.1.2 强化学习的基础架构、核心概念
5.1.3 马尔可夫决策过程(MDP)
5.1.4 探索与利用、ε-贪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在线/离线强化学习(Online/Offline RL)
5.1.7 强化学习分类图
5.2 价值函数、回报预估
5.2.1 奖励、回报、折扣因子(R、G、γ)
5.2.2 反向计算回报
5.2.3 四种价值函数:Qπ、Vπ、V*、Q*
5.2.4 奖励、回报、价值的区别
5.2.5 贝尔曼方程——强化学习的基石
5.2.6 Q和V的转换关系、转换图
5.2.7 蒙特卡洛方法(MC)
5.3 时序差分(TD)
5.3.1 时序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、穷举搜索的区别
5.4 基于价值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、训练过程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能体强化学习(MARL)
5.6.1 MARL的原理与架构
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿学习(IL)
5.7.1 模仿学习的定义、分类
5.7.2 行为克隆(BC)
5.7.3 逆向强化学习(IRL)
5.7.4 生成对抗模仿学习(GAIL)
5.8 强化学习高级拓展
5.8.1 基于环境模型(Model-Based)的方法
5.8.2 分层强化学习(HRL)
5.8.3 分布价值强化学习(Distributional RL)
第6章 策略优化算法
6.1 Actor-Critic(演员-评委)架构
6.1.1 从策略梯度到Actor-Critic
6.1.2 Actor-Critic架构图解
6.2 优势函数与A2C
6.2.1 优势函数(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(广义优势估计)算法
6.2.4 γ和λ的调节作用
6.3 PPO及其相关算法
6.3.1 PPO算法的演进
6.3.2 TRPO(置信域策略优化)
6.3.3 重要性采样(Importance Sampling)
6.3.4 PPO-Penalty
6.3.5 PPO-Clip
6.3.6 PPO的Loss的扩展
6.3.7 TRPO与PPO的区别
6.3.8 图解策略模型的训练
6.3.9 深入解析PPO的本质
6.4 GRPO算法
6.4.1 GRPO的原理
6.4.2 GRPO与PPO的区别
6.5 确定性策略梯度(DPG)
6.5.1 确定性策略vs随机性策略
6.5.2 DPG、DDPG、TD3算法
第7章 RLHF与RLAIF
7.1 RLHF(基于人类反馈的强化学习)概要
7.1.1 RLHF的背景、发展
7.1.2 语言模型的强化学习建模
7.1.3 RLHF的训练样本、总流程
7.2 阶段一:图解奖励模型的设计与训练
7.2.1 奖励模型(Reward Model)的结构
7.2.2 奖励模型的输入与奖励分数
7.2.3 奖励模型的Loss解析
7.2.4 奖励模型训练全景图
7.2.5 奖励模型的Scaling Law
7.3 阶段二:多模型联动的PPO训练
7.3.1 四种模型的角色图解
7.3.2 各模型的结构、初始化、实践技巧
7.3.3 各模型的输入、输出
7.3.4 基于KL散度的策略约束
7.3.5 基于PPO的RLHF核心实现
7.3.6 全景图:基于PPO的训练
7.4 RLHF实践技巧
7.4.1 奖励欺骗(Reward Hacking)
7.4.2 拒绝采样(Rejection Sampling)微调
7.4.3 强化学习与RLHF的训练框架
7.4.4 RLHF的超参数
7.4.5 RLHF的关键监控指标
7.5 基于AI反馈的强化学习
7.5.1 RLAIF的原理图解
7.5.2 CAI:基于宪法的强化学习
7.5.3 RBR:基于规则的奖励
第8章 逻辑推理能力优化
8.1 逻辑推理(Reasoning)相关技术概览
8.1.1 推理时计算与搜索
8.1.2 基于CoT的蒸馏
8.1.3 过程奖励模型与结果奖励模型(PRM/ORM)
8.1.4 数据合成
8.2 推理路径搜索与优化
8.2.1 MCTS(蒙特卡洛树搜索)
8.2.2 A*搜索
8.2.3 BoN采样与蒸馏
8.2.4 其他搜索方法
8.3 强化学习训练
8.3.1 强化学习的多种应用
8.3.2 自博弈(Self-Play)与自我进化
8.3.3 强化学习的多维创新
第9章 综合实践与性能优化
9.1 实践全景图
9.2 训练与部署
9.2.1 数据与环境准备
9.2.2 超参数如何设置
9.2.3 SFT训练
9.2.4 对齐训练:DPO训练、RLHF训练
9.2.5 推理与部署
9.3 DeepSeek的训练与本地部署
9.3.1 DeepSeek的蒸馏与GRPO训练
9.3.2 DeepSeek的本地部署与使用
9.4 效果评估
9.4.1 评估方法分类
9.4.2 LLM与VLM的评测框架
9.5 大模型性能优化技术图谱
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
