-
内容大纲
大模型作为人工智能技术的重要发展方向,逐渐成为未来科技发展的重要方向之一。基于此,本书重点介绍与大模型相关的基础知识、原理与技术。本书内容包括深度学习基础、自然语言处理、大模型网络结构、大模型训练与优化、大模型微调及相关应用案例等。全书强调内容的科学性与系统性,从大模型历史发展脉络、理论基础、构建方法到应用场景,循序渐进地全面讲解大模型技术。本书聚焦于大模型在不同领域的扩展应用,提供了应用案例的全方位学习路径,旨在培养和提升学生的实践和创造能力。每章都提供了相应的习题,供学生练习和巩固知识。同时,本书通过介绍开源框架“计图”、华为芯片、航空航天装备制造等知识,可以让学生了解更多国产技术。
本书适合作为科研院所和本科院校计算机、人工智能、机械制造与自动化等相关专业的教材,也可以作为高职高专院校的教学参考书。 -
作者介绍
-
目录
第1章 绪论
1.1 大模型基本概念
1.2 大模型发展历程
1.2.1 从技术架构看发展历程
1.2.2 从参数规模看发展历程
1.2.3 从模态支持看发展历程
1.2.4 从应用领域看发展历程
1.3 大模型关键技术及训练流程
1.3.1 大模型关键技术
1.3.2 大模型训练流程
1.4 本书内容安排
1.5 思考
习题1
第2章 深度学习基础
2.1 神经网络基础
2.1.1 神经网络
2.1.2 卷积神经网络
2.2 损失函数和优化算法
2.2.1 损失函数
2.2.2 优化算法
2.3 神经网络训练
2.3.1 梯度和链式法则
2.3.2 前向传播与反向传播
2.3.3 训练神经网络示例
2.4 深度学习框架
2.4.1 主流深度学习框架
2.4.2 框架选择和优缺点比较
2.5 思考
习题2
第3章 自然语言处理
3.1 自然语言处理概述
3.1.1 基本任务
3.1.2 发展历程
3.1.3 应用领域
3.2 词嵌入
3.2.1 独热向量
3.2.2 Word2vec
3.2.3 代码示例
3.3 循环神经网络
3.3.1 循环神经网络介绍
3.3.2 循环神经网络训练
3.3.3 循环神经网络梯度问题
3.3.4 双向循环神经网络
3.4 长短期记忆网络
3.4.1 长短期记忆网络介绍
3.4.2 长短期记忆网络应用
3.5 门控循环单元
3.5.1 门控循环单元介绍
3.5.2 门控循环单元应用
3.6 思考
习题3
第4章 大模型网络结构
4.1 Transformer
4.1.1 注意力机制
4.1.2 编码器-解码器结构
4.1.3 大模型中的编码器-解码器结构
4.2 编码器结构—BERT家族
4.2.1 BERT结构
4.2.2 预训练策略
4.2.3 BERT的变体
4.3 解码器结构—GPT家族
4.3.1 GPT结构
4.3.2 自回归预训练
4.3.3 后续改进
4.4 思考
习题4
第5章 大模型训练与优化
5.1 训练数据准备
5.1.1 数据获取
5.1.2 数据预处理
5.1.3 数据增强
5.1.4 数据配比与课程设置
5.1.5 开源数据集
5.2 并行化和分布式训练
5.2.1 大模型训练的挑战
5.2.2 并行策略
5.2.3 节点间数据通信
5.2.4 分布式训练框架
5.3 模型压缩
5.3.1 量化
5.3.2 剪枝
5.3.3 知识蒸馏
5.4 华为芯片助力大模型训练与部署
5.4.1 AscendAI芯片
5.4.2 Atlas系列硬件
5.4.3 异构计算架构CANN
5.4.4 深度学习框架MindSpore
5.4.5 应用使能与行业应用
5.5 思考
习题5
第6章 大模型微调
6.1 大模型微调概述
6.2 参数高效微调
6.2.1 增量式微调
6.2.2 指定式微调
6.2.3 重参数化微调
6.2.4 混合微调
6.2.5 小结
6.3 指令微调
6.3.1 指令数据集构建
6.3.2 指令微调阶段
6.4 基于人类反馈的强化学习微调
6.4.1 奖励建模
6.4.2 强化学习微调
6.4.3 案例讲解
6.5 思考
习题6
第7章 大模型提示工程
7.1 提示工程简介
7.2 零样本提示
7.3 少样本提示
7.4 链式思考提示
7.4.1 思维链提示工程概述
7.4.2 零样本思维链
7.4.3 思维链拓展
7.5 思维树提示
7.6 检索增强生成
7.7 自动提示工程
7.8 思考
习题7
第8章 高效大模型策略
8.1 大模型效率概述
8.1.1 大模型效率面临的问题
8.1.2 大模型效率及其评估指标
8.2 预算效率策略:缩放定律
8.3 数据效率策略
8.3.1 数据过滤
8.3.2 主动学习/重要性采样
8.3.3 课程学习
8.4 架构效率策略
8.4.1 高效注意力
8.4.2 高效位置编码
8.4.3 稀疏模型
8.4.4 无注意力模型
8.5 训练效率策略
8.5.1 稳定训练策略
8.5.2 混合精度训练
8.5.3 并行训练技术
8.5.4 内存优化
8.6 推理效率策略
8.6.1 剪枝
8.6.2 知识蒸馏
8.6.3 量化
8.6.4 低秩分解
8.7 微调效率策略
8.7.1 参数高效微调
8.7.2 数据高效调整
8.8 思考
习题8
第9章 单模态通用大模型
9.1 LLaMA:一种自然语言处理大模型
9.1.1 模型结构
9.1.2 预训练
9.1.3 微调
9.1.4 使用方法
9.2 SAM:一种图像分割大模型
9.2.1 概述
9.2.2 提示下的图像分割任务
9.2.3 SAM模型架构
9.2.4 SA-1B:大规模掩码数据集
9.2.5 SAM在各视觉任务中的应用
9.2.6 SAM的使用方法
9.3 AudioLM:让AI为你谱曲写歌
9.3.1 概述
9.3.2 AudioLM的组件构成
9.3.3 AudioLM的训练方式
9.3.4 AudioLM的安装与使用
9.3.5 AudioLM的推理应用
9.4 Zero-1-to-3:二生三维
9.4.1 概述
9.4.2 Zero-1-to-3模型结构
9.4.3 Zero-1-to-3的使用
9.5 思考
习题9
第10章 多模态通用大模型
10.1 多模态数据集介绍
10.1.1 GQA数据集
10.1.2 HowTo100M数据集
10.1.3 Conceptual-12M数据集
10.1.4 YT-Temporal-180M数据集
10.1.5 WebVid-2M数据集
10.1.6 ModelNet数据集
10.1.7 ShapeNet数据集
10.1.8 ScanObjectNN数据集
10.1.9 KITTI数据集
10.1.10 nuScenes数据集
10.1.11 Waymo数据集
10.2 CLIP:探索图文结合的奥秘
10.2.1 概述
10.2.2 模型架构
10.2.3 训练过程
10.2.4 CLIP相关应用
10.2.5 CLIP的不足
10.3 GPT-4V:大模型视觉能力的新篇章
10.3.1 输入模式
10.3.2 工作方式
10.3.3 视觉语言能力
10.4 ImageBind:多感官统一
10.4.1 概述
10.4.2 多模态特征编码与对齐
10.4.3 数据集的灵活应用
10.4.4 相关应用
10.4.5 使用方法
10.5 3D-LLM:将三维世界注入大模型
10.5.1 三维语言数据生成
10.5.2 3D-LLM训练方式
10.5.3 3D-LLM安装与实现细节
10.5.4 3D-LLM应用图谱
10.6 Sora:文生视频
10.6.1 Sora为视频生成带来的改变
10.6.2 Sora的局限性与争议
10.7 思考
习题10
第11章 大模型评测
11.1 大模型评测概述
11.2 知识和能力评测
11.2.1 问答能力
11.2.2 知识补全能力
11.2.3 推理能力
11.2.4 工具学习能力
11.3 对齐评测
11.3.1 伦理道德
11.3.2 偏见
11.3.3 有害内容
11.3.4 真实性
11.4 安全评测
11.4.1 鲁棒性评测
11.4.2 风险评测
11.5 行业大模型评测
11.5.1 医学
11.5.2 教育学
11.5.3 计算机科学
11.5.4 金融学
11.6 思考
习题11
第12章 大模型主要应用场景
12.1 大模型产业图谱
12.2 大模型军事智能应用
12.3 大模型教育教学应用
12.4 大模型医疗健康应用
12.5 大模型工业应用
12.6 大模型气象预报应用
12.7 大模型测绘应用
12.8 思考
习题12
第13章 基于大模型的智能软件研发
13.1 基于大模型的智能软件研发框架
13.2 智能软件研发中的大模型技术
13.2.1 常用大模型
13.2.2 预训练范式
13.3 智能软件研发中的下游任务
13.3.1 程序语言相关任务
13.3.2 自然语言相关任务
13.3.3 程序语言与自然语言交互任务
13.4 常用数据集
13.4.1 预训练数据集
13.4.2 下游任务数据集
13.5 思考
习题13
第14章 基于大模型的航空航天装备制造
14.1 大模型在大飞机制造中的应用
14.1.1 大飞机制造概述
14.1.2 设计和优化中的应用
14.2 大模型在航空发动机中的应用
14.2.1 航空发动机概述
14.2.2 具体应用场景
14.3 大模型在航空机载设备与系统中的应用
14.3.1 航空机载设备与系统概述
14.3.2 具体应用场景
14.4 大模型在无人机智能集群中的应用
14.4.1 无人机智能集群概述
14.4.2 具体应用场景
14.4.3 典型应用案例
14.5 思考
习题14
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...