-
内容大纲
近年来,大语言模型(LLM)技术飞速发展,深刻地改变着我们世界的各行各业,越来越多的人意识到这项技术的重要性,却苦于缺少严谨、优质的一站式学习教程。本书旨在为读者提供全面、深入且实践性强的LLM学习资源,力求将LLM的理论知识与实际应用案例相结合,帮助读者更好地理解和掌握这一前沿技术。本书具有重视实践、内容全面且系统、案例丰富且实用、代码规范且易懂、紧跟技术前沿等显著的特色,是现阶段LLM理论与实践学习的集大成者。本书的目标读者包括但不限于:对LLM感兴趣的科研人员、工程师、学生以及希望了解和应用LLM的企业管理者。本书也可成为各个院校培训机构AI和大模型专业的教材。 -
作者介绍
-
目录
第1章 LLM构建流程
1.1 数据准备并初步清洗
1.1.1 数据采集
1.1.2 数据过滤
1.1.2.1 低质过滤
1.1.2.2 去重过滤
1.1.2.3 内容安全过滤
1.1.3 实战案例:使用Falcon爬取并清洗互联网数据
1.2 数据预处理
1.2.1 数据精洗
1.2.2 分词及其预处理
1.2.2.1 分词
1.2.2.2 Token后处理
1.2.3 分词器
1.2.3.1 分词器的概述
1.2.3.2 词汇表扩充技术
1.2.3.3 代码实战
1.2.4 定义模型的输入
1.2.4.1 构建输入特征
1.2.4.2 Token处理阶段的对比
1.3 模型预训练与评估
1.3.1 模型搭建
1.3.1.1 建模任务及其模型架构选择
1.3.1.2 模型框架选择
1.3.2 模型预训练与优化
1.3.2.1 模型预训练
1.3.2.2 模型超参数调优
1.3.2.3 模型训练优化及其常用策略
1.3.2.4 模型训练优化之并行提速
1.3.2.5 拓展的并行技术之ZeRO
1.3.2.6 拓展的并行技术之FSDP
1.3.2.7 拓展的并行技术之MoE并行
1.3.2.8 模型训练优化之降存提速六大技巧综述
1.3.2.9 降存之词汇表裁剪
1.3.2.10 降存之梯度检查点
1.3.2.11 同时降存、提速之混合精度训练
1.3.2.12 同时提速、降存之数据压缩
1.3.2.13 同时提速、降存之量化感知训练
1.3.2.14 提速之梯度累积
1.3.3 预训练后评估
1.3.3.1 概述
1.3.3.2 代码实战:基准评估案例(C-Eval)
1.3.3.3 代码实战:人工评估案例
1.3.3.4 代码实战:大模型自动评估案例(BELLE)
1.4 模型微调
1.4.1 LLM知识更新概述
1.4.2 模型微调策略
1.4.2.1 指令微调
1.4.2.2 对齐微调
1.4.2.3 代码实战
1.4.3 模型微调技术
1.4.3.1 参数高效微调
1.4.3.2 适配器微调
1.4.3.3 前缀微调
1.4.3.4 P-Tuning
1.4.3.5 Prompt-Tuning
1.4.3.6 P-TuningV2
1.4.3.7 LoRA
1.4.3.8 常用的参数高效微调方法对比
1.5 模型推理与优化
1.5.1 模型推理概述
1.5.2 推理阶段可调参数
1.5.3 模型推理加速技术
1.5.3.1 模型量化技术
1.5.3.2 模型剪枝技术
1.5.3.3 模型蒸馏技术
1.5.3.4 KV缓存技术
第2章 LLM的部署与监控
2.1 模型部署
2.1.1 模型部署概述
2.1.2 分布式环境配置
2.1.3 Docker部署实战
2.2 模型监控与维护
2.3 实战案例
第3章 LLM的微调与推理部署实战案例
3.1 基于LLaMA-3系列模型实战
3.1.1 微调实战
3.1.1.1 官方Demo案例:利用LoRA微调LLaMA-3-8B-Instruct并生成推理对话
3.1.1.2 基于Colab平台实现LoRA微调LLaMA-3-8B-Instruct-bnb-4bit
3.1.1.3 采用LLaMA-Factory工具GUI的方式微调LLaMA-3-8B-Instruct
3.1.1.4 基于Colab平台利用Unsloth优化框架实现LoRA微调LLaMA-3-8B-bnb
3.1.2 推理部署实战
3.1.2.1 快速使用LLaMA-3-8B-Instruct进行推理测试
3.1.2.2 LLaMA-3-8B-InstructWebDemo部署
3.1.2.3 采用FastAPI部署与调用LLaMA-3-8B-Instruct
3.1.2.4 基于LMStudio结合LobeChat框架部署LLaMA-3模型
3.1.2.5 基于OLLaMA后端框架依次结合不同的前端框架搭建RAG
3.1.2.6 基于GPT4ALL框架及其量化后部署
3.1.3 在线测试实战
3.2 基于ChatGLM-3系列模型实战
3.2.1 微调实战
3.2.1.1 官方Demo案例:利用P-TuningV2和LoRA在单卡GPU环境下进行微调
3.2.1.2 基于官方Demo微调:多卡全参数微调/单卡P-TuningV2微调
3.2.1.3 在云服务器(4090-24GB)上采用P-TuningV2微调
3.2.1.4 基于LLaMA-Factory框架并采用GUI方式微调
3.2.2 推理部署实战
3.2.2.1 采用官方Demo提供的CLI形式实现对话交互
3.2.2.2 采用官方Demo的Web界面实现对话模式、工具模式、代码解释器模式
3.2.2.3 基于LangChain框架实现ChatGLM-3的工具调用
3.2.3 在线测试实战
3.2.3.1 采用官方API接口方式调用
3.2.3.2 Web在线体验
3.3 基于GPT-4o模型实战
3.3.1 基于官方API进行在线推理测试
3.3.2 基于官方Web界面进行在线测试
3.4 基于GLM-4系列模型实战
3.4.1 微调实战
3.4.1.1 基于官方Demo案例依次采用LoRA、P-TuningV2、SFT实现微调
3.4.1.2 在云服务器(4090-24GB)上采用LoRA或P-TuningV2实现对话微调
3.4.2 推理部署实战
3.4.2.1 基于官方Demo实现基础用法:基于Transformers或vLLM后端并采用GLM-4-9B模型实现对话交互
3.4.2.2 基于官方Demo实现复杂用法:基于Web方式实现GLM-4-9B模型交互与功能拓展
3.4.2.3 基于云服务器(4090-24GB)实现一键部署开启服务并交互测试
3.4.3 在线测试实战
3.4.3.1 采用官方API接口方式调用ChatGLM-4-plus
3.4.3.2 Web在线体验
3.5 基于Qwen系列模型实战
3.5.1 微调实战:基于LLaMA-Factory框架微调Qwen-2模型
3.5.2 推理部署实战
3.5.2.1 基于Transformer架构实现测试Qwen-2.5-7B-Instruct模型
3.5.2.2 基于OLLaMA部署Qwen-2.5-7B模型
3.5.3 在线测试实战
3.5.3.1 API接口调用
3.5.3.2 Web在线体验
3.6 基于DeepSeek-R1系列模型实战
3.6.1 微调实战
3.6.1.1 基于Mini-DeepSeek-R1项目实现
3.6.1.2 利用云服务器
3.6.2 推理部署实战
3.6.2.1 基于官方Demo实现基础用法
3.6.2.2 基于LangChain框架实现
3.6.2.3 基于OLLaMA和Dify创建DeepSeek-R1的个性化应用
3.6.2.4 基于OLLaMA和AnythingLLM创建DeepSeek-R1个性化应用
3.6.3 在线测试实战
3.6.3.1 API接口调用
3.6.3.2 Web在线体验
第4章 LLM项目的构建与应用
4.1 生成式AI项目的生命周期
4.2 企业级LLM构建与实现的通用流程
4.2.1 如何选择优质的应用场景
4.2.1.1 LLM在ToB领域落地应用的现有场景实践
4.2.1.2 LLM的产品化实践流程
4.2.1.3 LLM落地实践中的产品侧与技术侧
4.2.2 如何实现企业级ChatGPT
4.2.2.1 选择基座模型
4.2.2.2 准备数据
4.2.2.3 准备环境
4.2.2.4 模型迁移常用方法
4.2.2.5 模型评估
4.2.2.6 评价模型
4.2.2.7 模型修正
4.2.2.8 模型落地
4.3 基于LLM的研究方向
4.3.1 NLP任务
4.3.2 信息检索和推荐系统
4.3.3 多模态和知识图谱增强
4.3.4 基于LLM的智能体
4.4 基于LLM的领域应用
4.5 基于LLM的企业级需求和应用场景
第5章 提示设计
5.1 提示工程概述
5.2 提示的设计要素和策略
5.2.1 提示的设计要素
5.2.2 提示内容的设计策略
5.3 提示设计的方法论
5.3.1 ICL
5.3.2 CoT
5.3.3 PCTS
5.3.4 对比ICL、CoT、PCTS
5.3.5 提示设计方法论分类
5.4 提示设计实践指南和优秀框架
5.5 MCP
5.5.1 提示工程痛点与MCP出现
5.5.2 MCP核心内容
5.5.3 MCP的典型应用场景
5.5.4 MCP的使用经验与技巧
第6章 LLM的进阶与增强
6.1 LLM的局限性及其解决方案
6.1.1 LLM幻觉现象简介与解决方法
6.1.2 LLM有毒性现象简介与解决方法
6.1.3 LLM虚假信息现象简介与解决方法
6.2 RAG
6.2.1 RAG概述
6.2.2 RAG工程化系统架构和开发组件
6.2.3 RAG的失败案例及其优化
6.2.3.1 RAG的失败案例
6.2.3.2 RAG宏观技术角度的优化
6.2.3.3 RAG微观策略角度的优化
6.2.3.4 探究并解决RAG框架下PDF场景的结构化数据提取问题
6.2.3.5 代码实战
6.2.4 RAG的发展及其挑战
6.2.4.1 RAG发展的三阶段
6.2.4.2 RAG面临的挑战与未来发展趋势
6.2.5 RAG案例实战
6.2.5.1 基于LangChain框架实现RAG
6.2.5.2 基于LangChain-Chatchat框架实现RAG
6.2.6.3 基于LLaMAIndex框架实现RAG
6.2.5.4 基于LocalGPT框架实现RAG
6.2.5.5 基于OLLaMA+AnythingLLM框架实现RAG
6.2.5.6 基于OLLaMA+Dify框架实现RAG
6.3 ETA
6.3.1 ETA概述
6.3.2 ETA实战
6.3.2.1 基于OpenAI官方案例实现工具调用能力
6.3.2.2 基于GLM-4官方案例实现工具调用能力
6.3.2.3 基于Qwen官方案例实现工具调用能力
6.3.2.4 基于LangChain框架和GPT-4o实现多个工具调用
6.3.2.5 基于LangGraph框架和Qwen模型实现GraphETA
6.3.3 伯克利函数调用排行榜
6.4 智能体
6.4.1 智能体概述
6.4.1.1 智能体系统模块
6.4.1.2 智能体框架工程化
6.4.1.3 未来挑战
6.4.2 智能体常用能力
6.4.2.1 能力概览及其实现方法
6.4.2.2 能力域分类
6.4.3 智能体设计的思想和主流模式
6.4.3.1 ReActAgent简介
6.4.3.2 ReWOOAgent简介
6.4.3.3 DERAAgent简介
6.4.3.4 智能体设计的三大范式
6.4.4 智能体应用的分类
6.4.5 智能体实战
6.4.5.1 模型推理:基于LangChain框架并结合GPT-4o和GPT-4实现ToolAgent
6.4.5.2 模型推理:基于LangChain框架实现ReActAgent
6.4.5.3 模型推理:基于LangChain框架实现KG-RAGAgent
6.4.5.4 基于LangChain框架和FastAPI部署ToolAgent服务
6.5 长上下文建模
6.5.1 大窗口技术概述
6.5.2 长上下文建模实战
6.6 技术探讨与分析
6.6.1 RAG技术与大窗口技术的争论——冲突还是共生
6.6.2 智能体技术的自主性与ETA技术的可控性权衡的争论
第7章 LLM的训练/推理框架、部署工具和提示库
7.1 LLM的开发框架
7.1.1 侧重数据处理的库或框架
7.1.2 侧重模型构建的库或框架
7.2 LLM的训练、评估、微调和推理框架
7.2.1 侧重训练的库或框架
7.2.2 侧重评估的库或框架
7.2.3 侧重微调的库或框架
7.2.4 侧重推理的库或框架
7.3 LLM的部署和应用工具
7.3.1 Web框架和API服务
7.3.2 请求和并发处理
7.3.3 用户界面库
7.3.4 实验跟踪和可视化
7.3.5 容器化和编排
7.3.6 高级的LLM部署和服务工具
7.4 LLM的向量数据库
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
