-
内容大纲
本书分为两大部分,从理论到实践、从基础原理到前沿技术,全方位解析了大模型的构建、训练、部署与应用的整个流程。第一部分介绍大模型的基础概念,包括大模型的定义、发展历程和构建所需的软硬件技术栈,重点讲解神经网络、训练优化及模型调优的基本原理。第二部分聚焦大模型的内在逻辑和实际应用,涵盖推理、记忆、数据管道、多模态处理、硬件加速以及部署与维护等,同时以基于MoE的DeepSeek多模态大模型为案例,展示从项目架构设计到在线服务的全流程。全书内容严谨而生动,既涵盖了大模型开发的全流程技术细节,又不乏对大模型历史演变和未来趋势的前瞻性探讨,是探索大模型底层逻辑与实现技术的权威指南。
本书适合具备Python基础开发能力并希望进一步深入学习大模型开发、模型优化和部署应用的读者;同时,对于证券、保险、银行等行业的从业人员以及高校师生来说,也是一本兼具理论深度与实战指导的理想参考书和教学辅导材料。 -
作者介绍
-
目录
第1章 大模型介绍
1.1 什么是大模型
1.1.1 大模型的第一印象
1.1.2 大模型的主要特点
1.2 大模型的发展历程
1.2.1 早期探索阶段
1.2.2 深度学习的兴起
1.2.3 Transformer架构的出现与普及
1.2.4 大规模预训练模型的爆发
1.2.5 跨模态与多模态融合
1.3 大模型的应用领域
第2章 大模型开发技术栈
2.1 软件技术栈:构建大模型的“软件基石”
2.1.1 编程语言与开发工具
2.1.2 机器学习框架与扩展库
2.1.3 分布式计算与并行技术
2.1.4 模型部署与服务工具
2.2 硬件技术栈:支持大模型的“计算引擎”
2.2.1 GPU:大模型训练的核心动力引擎
2.2.2 专用AI加速芯片
2.2.3 计算资源与集群架构
2.2.4 内存与存储
2.3 软件与硬件协同优化:让大模型跑得更快
2.3.1 训练加速技术
2.3.2 推理加速与部署优化
2.3.3 能效优化与绿色AI
2.4 大模型技术栈的未来趋势:从算力到智力的突破
2.4.1 硬件发展趋势
2.4.2 软件技术突破
2.4.3 算力共享与去中心化
第3章 大模型的构成
3.1 神经网络:大模型的“神经元”
3.1.1 神经网络的基本构成:模仿人类大脑
3.1.2 神经元与层次结构:信息传递与处理的桥梁
3.1.3 激活函数:神经元的“开关”与“决策器”
3.2 学习与训练:大模型的“成长”过程
3.2.1 监督学习和无监督学习:模型的自我修炼
3.2.2 强化学习:通过探索不断优化
3.2.3 训练过程中的挑战:过拟合与欠拟合的博弈
3.3 优化与改进:让大模型变得更聪明
3.3.1 梯度下降与参数优化:高效的进化之路
3.3.2 正则化与防止过拟合:避免模型过度“学习”
3.3.3 自适应优化:让大模型变得更加灵活
3.4 模型调优与评估
3.4.1 损失函数与精度评估:衡量模型的性能的“标尺”与“成绩单”
3.4.2 交叉验证:确保模型的“全能”表现
3.4.3 调优技巧:让模型最大化发挥潜力
第4章 启动大模型
4.1 训练大模型
4.1.1 数据准备与预处理:大模型的“食粮”
4.1.2 选择合适的模型架构:如何决定模型的“大脑”?
4.1.3 训练算法:模型从零开始的“修炼”
4.1.4 训练过程中的挑战与解决方案:避免大模型“犯错”
4.2 大模型的推理
4.2.1 推理与计算:模型思考的“秘密”
4.2.2 生成与优化:让答案更精准
4.2.3 提升推理能力:从数据到智慧的跨越
第5章 机器学习
5.1 机器学习的基本概念
5.1.1 什么是机器学习
5.1.2 数据在机器学习中的角色
5.1.3 机器学习的目标
5.2 网络模型
5.2.1 机器学习中的网络模型
5.2.2 线性回归模型
5.2.3 逻辑回归模型
5.2.4 支持向量机模型
5.2.5 决策树模型
5.2.6 随机森林模型
5.2.7 K近邻算法模型
5.3 机器学习中的数学基础
5.3.1 概率论与统计学:让模型读懂“不确定性”
5.3.2 线性代数:从数据到“形状”的语言
5.3.3 微积分:优化模型的“秘密武器”
5.3.4 矩阵分解:复杂问题简单化
第6章 深度学习
6.1 深度学习的起源与发展
6.1.1 早期的人工神经网络与感知机
6.1.2 深度学习的突破:多层感知机与反向传播
6.1.3 深度学习的黄金时代:卷积神经网络与突破
6.2 神经网络
6.2.1 神经网络的基本结构
6.2.2 神经网络的前向传播与反向传播
6.2.3 神经网络的训练过程
6.3 激活函数与损失函数
6.3.1 激活函数的作用与种类
6.3.2 损失函数的作用与类型
6.3.3 激活函数与损失函数的结合
6.4 深度学习模型
6.4.1 深度学习中的网络模型
6.4.2 前馈神经网络
6.4.3 卷积神经网络
6.4.4 循环神经网络
6.4.5 长短期记忆网络
6.4.6 生成对抗网络
第7章 大模型的大脑
7.1 大模型如何“思考”
7.1.1 模型的推理与生成过程
7.1.2 多模态能力的实现
7.1.3 概率分布与不确定性评估
7.2 大模型的“记忆”与知识管理
7.2.1 参数中的隐式记忆
7.2.2 知识库的集成与增强
7.2.3 知识的更新与持续学习
7.3 大模型的限制与改进方向
7.3.1 计算资源的瓶颈
7.3.2 模型的偏见与伦理问题
7.3.3 通用模型与专用模型的平衡
第8章 数据管道
8.1 数据收集:大模型的“食材”来源
8.1.1 数据源的多样性与获取方法
8.1.2 数据质量控制
8.1.3 数据收集中的挑战与解决方案
8.2 数据处理:清洗、标注与增强
8.2.1 数据清洗
8.2.2 数据标注
8.2.3 数据增强
8.2.4 数据处理的挑战与优化
8.3 数据存储与检索
8.3.1 数据存储结构与选择
8.3.2 数据检索与索引
8.3.3 数据存储与检索的挑战
第9章 大模型的语言能力
9.1 编码与解码:大模型如何理解语言
9.1.1 文本编码:语言的“数字化翻译”
9.1.2 文本解码:从数字到语言
9.1.3 语言理解与生成中的挑战
9.2 图像与声音:大模型的“看”和“听”
9.2.1 图像的语言化:视觉信息的编码
9.2.2 声音的文本化:语音的编码与生成
9.2.3 跨模态信息处理中的挑战
9.3 多模态:大模型整合不同的信息
9.3.1 模态融合:信息的统一表达
9.3.2 多模态任务:多样化的应用场景
9.3.3 多模态模型的优化方向与未来发展
第10章 大模型的硬件加速
10.1 硬件加速的基本原理
10.1.1 计算资源的需求与挑战
10.1.2 硬件加速的核心理念
10.1.3 从传统计算到并行计算的飞跃
10.2 主要硬件加速平台:为大模型铺路
10.2.1 GPU:图形处理器的强大变身
10.2.2 TPU:Google公司的专属加速器
10.2.3 FPGA与ASIC:定制化硬件的突破
10.2.4 专用硬件与通用硬件的对比与选择策略
10.3 硬件架构优化:让大模型“飞起来”
10.3.1 模型并行与数据并行:跨越计算瓶颈
10.3.2 内存优化与带宽管理:解决数据传输瓶颈
10.3.3 多层次加速架构:从芯片到系统的协同优化
10.4 大模型训练与推理的加速技术:加速背后的智慧
10.4.1 混合精度训练:高效利用计算资源
10.4.2 分布式训练:大规模模型的分布式加速
10.4.3 自动化硬件优化:智能调度与资源管理
10.5 FPGA加速器实战项目:加速神经网络的搜索过程
10.5.1 准备工作
10.5.2 网络架构
10.5.3 数据集准备
10.5.4 准确率预测器
10.5.5 在算术强度约束下进行搜索
10.5.6 模型转换与保存
第11章 大模型的部署与维护
11.1 部署:让大模型进入现实世界
11.1.1 部署前的准备工作
11.1.2 部署环境搭建与优化
11.1.3 部署中的挑战与解决方案
11.2 维护:确保大模型的健康
11.2.1 模型监控与反馈机制
11.2.2 模型更新与迭代
11.2.3 模型安全性与合规性
11.3 Ollama本地部署实战
11.3.1 安装Ollama
11.3.2 在Ollama中部署DeepSeek模型
11.3.3 LM Studio本地可视化部署
11.4 大模型的远程和云端部署
11.4.1 在阿里云上部署ChatGLM3
11.4.2 使用腾讯云部署DeepSeek
第12章 基于混合专家实现的DeepSeek多模态大模型
12.1 项目介绍
12.1.1 模型架构的核心模块
12.1.2 技术创新与亮点
12.1.3 模型训练
12.2 开源模型
12.3 配置文件
12.4 模型架构介绍
12.4.1 模型配置
12.4.2 多模态模型架构
12.4.3 数据处理
12.4.4 DeepSeek-VL2基本架构
12.4.5 VIT模型
12.4.6 DeepSeek-VL2总结
12.5 模型部署和在线服务
12.5.1 设置部署参数
12.5.2 工具函数
12.5.3 Gradio工具
12.5.4 模板覆盖与扩展
12.5.5 Web前端
12.5.6 模型推理
12.5.7 图文对话推理
12.6 在线测试
12.6.1 Web前端实现
12.6.2 启动Web测试
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
