-
内容大纲
本书系统阐述了DeepSeek大模型架构、部署及应用实战的相关内容。从人工智能和大模型的基础理论出发,深入剖析了DeepSeek的底层技术,如Transformer架构、混合专家、动态任务分配、稀疏激活及归一化等关键技术,并详细介绍了模型训练、优化和推理的前沿方法。书中不仅展示了DeepSeek在多模态模型和推理系统中的技术优势,还提供了丰富的实战案例,涵盖了从本地部署到云端应用,再到与办公软件、开发工具和Web交互系统的无缝集成。通过理论解析与实践演示,读者将获得从模型设计到实际应用全流程的详细指导。
本书非常适合人工智能领域的技术开发者、系统架构师,以及初探大模型应用的爱好者学习,也可用作高等院校相关专业的教材及参考书。 -
作者介绍
-
目录
第1章 人工智能和DeepSeek概述
1.1 人工智能
1.1.1 什么是人工智能
1.1.2 人工智能的起源与发展历程
1.2 大模型
1.2.1 大模型的原理和作用
1.2.2 大模型的兴起与现状
1.2.3 主流大模型介绍
1.3 DeepSeek
1.3.1 DeepSeek简介
1.3.2 DeepSeek对人工智能市场的影响
1.3.3 DeepSeek的产品
1.3.4 DeepSeek的应用场景
1.3.5 DeepSeek与其他模型的技术对比
第2章 DeepSeek底层架构技术
2.1 Transformer架构技术
2.1.1 Transformer简介
2.1.2 Transformer的核心组件
2.1.3 多头注意力机制
2.1.4 多头潜在注意力
2.2 动态任务分配
2.2.1 动态任务分配的特点和原理
2.2.2 动态任务分配的应用场景
2.3 稀疏激活机制
2.3.1 稀疏激活机制简介
2.3.2 稀疏激活机制的实现方式
2.3.3 稀疏激活机制的应用领域
2.4 混合专家架构技术
2.4.1 混合专家架构简介
2.4.2 MoE的特点
2.4.3 MoE的应用
2.4.4 DeepSeek中的MoE
2.5 归一化技术
2.5.1 归一化技术的必要性
2.5.2 LayerNorm技术
2.5.3 RMSNorm技术
2.6 模型训练与优化技术
2.6.1 多令牌预测(MTP)技术
2.6.2 高效并行策略
2.6.3 混合精度训练与量化策略
2.6.4 EMA显存优化
2.6.5 头尾参数共享
第3章 DeepSeekMoE架构
3.1 DeepSeekMoE架构简介
3.1.1 背景
3.1.2 DeepSeekMoE架构策略
3.1.3 DeepSeekMoE与传统MoE架构的区别
3.2 DeepSeekMoE架构详解
3.2.1 细粒度专家细分
3.2.2 共享专家隔离
3.2.3 负载平衡
3.3 DeepSeekMoE的微调
3.3.1 DeepSeekMoE微调技术介绍
3.3.2 ZeRO优化
3.3.3 具体实现
3.4 性能评估
3.4.1 训练数据和分词
3.4.2 硬件基础设施
3.4.3 设置超参数
3.4.4 评估基准
3.4.5 评估结果
3.4.6 和稠密模型的对比
3.4.7 DeepSeekMoE 2B模型测试
3.5 消融研究
3.5.1 消融研究介绍
3.5.2 消融研究在大模型中的应用
3.5.3 DeepSeekMoE的消融研究
3.6 DeepSeekMoE 16B测试
3.6.1 训练数据和分词
3.6.2 设置超参数
3.6.3 评估基准
3.7 DeepSeekMoE 16B的对齐
3.7.1 测试设置
3.7.2 评估结果
第4章 DeepSeek多模态大模型架构
4.1 DeepSeek多模态大模型的发展历程
4.2 Janus模型架构
4.2.1 架构简介
4.2.2 多模态理解
4.2.3 视觉生成路径
4.2.4 自回归Transformer
4.2.5 三阶段训练策略(Three-Stage Training Procedure)
4.2.6 Janus模型的推理与扩展性
4.3 Janus-Pro架构
4.3.1 解耦视觉编码
4.3.2 训练策略
4.3.3 优化训练策略
4.3.4 数据扩展策略
4.3.5 模型规模扩展
4.4 JanusFlow架构
4.4.1 实现多模态模型
4.4.2 结合自回归语言模型与Rectified Flow
4.4.3 采用任务解耦的编码器 (Decoupled Encoder Design)
4.4.4 U-ViT模型
4.4.5 三阶段训练策略
4.4.6 实验结果
4.5 DeepSeek-VL2多模态视觉模型
4.5.1 模型架构
4.5.2 技术创新与亮点
4.5.3 模型训练
4.5.4 和Janus项目的对比
第5章 DeepSeek推理模型架构
5.1 背景
5.2 DeepSeek-R1模型简介
5.2.1 DeepSeek-R1模型演进
5.2.2 DeepSeek-R1模型的基本架构
5.2.3 训练方案
5.2.4 开源信息
5.3 推理模型的相关技术
5.3.1 混合专家(MoE)架构
5.3.2 多头潜在注意力
5.3.3 强化学习
5.4 DeepSeek-R1-Zero训练方案
5.4.1 强化学习算法
5.4.2 奖励建模
5.4.3 训练模板
5.4.4 DeepSeek-R1-Zero的自我进化过程
5.4.5 在DeepSeek-R1-Zero的“顿悟时刻”
5.4.6 DeepSeek-R1-Zero性能测试
5.5 DeepSeek-R1训练方案
5.5.1 冷启动
5.5.2 推理导向的强化学习
5.5.3 拒绝采样和监督微调
5.5.4 全场景强化学习
5.6 蒸馏处理
5.6.1 AI大模型中的蒸馏处理
5.6.2 基础模型的选择与蒸馏过程
5.6.3 模型蒸馏的技术原理
5.6.4 评估蒸馏模型
5.6.5 小结
第6章 DeepSeek模型的本地部署
6.1 本地部署的优势与常见挑战
6.2 Ollama本地部署
6.2.1 安装Ollama
6.2.2 DeepSeek模型的安装与配置
6.2.3 基于本地DeepSeek模型的对话程序
6.3 LM Studio本地可视化部署
6.3.1 LM Studio的特点与安装
6.3.2 安装并配置DeepSeek模型
6.3.3 LM Studio API
6.3.4 使用Dify调用LM Studio模型
6.4 Chatbox本地部署
6.4.1 Chatbox简介
6.4.2 Chatbox+ Ollama的本地部署
6.5 基于Ollama+Docker+Open WebUI的本地部署
6.5.1 Open WebUI简介
6.5.2 Docker简介
6.5.3 使用Docker部署OpenWebUI容器
第7章 DeepSeek接入实战
7.1 DeepSeek API基础知识
7.1.1 DeepSeek API简介
7.1.2 DeepSeek API基本教程
7.1.3 基于DeepSeek API的对话程序
7.2 DeepSeek的基本接入实战
7.2.1 接入Chatbox
7.2.2 NextChat接入实战
7.3 社交媒体工具接入实战
7.3.1 基于茴香豆+DeepSeek打造微信聊天机器人
7.3.2 基于LangBot+DeepSeek打造QQ机器人
7.4 将DeepSeek接入到Office
7.4.1 OfficeAI简介
7.4.2 将DeepSeek接入Word
7.4.3 将DeepSeek接入Excel
7.5 将DeepSeek接入VS Code
7.5.1 Continue基础
7.5.2 接入DeepSeek
7.5.3 调用DeepSeek生成代码
7.5.4 DeepSeek代码智能生成和补全
第8章 DeepSeek远程和云端部署
8.1 使用腾讯云部署DeepSeek
8.1.1 创建DeepSeek-R1应用
8.1.2 通过OpenWebUI使用DeepSeek模型
8.1.3 通过ChatbotUI使用DeepSeek模型
8.1.4 通过终端连接命令行使用DeepSeek模型
8.1.5 基于腾讯云和DeepSeek的个人知识库
8.2 使用百度云部署DeepSeek
8.2.1 体验已部署好的DeepSeek
8.2.2 部署自己的DeepSeek
8.2.3 基于DeepSeek模型的Agent
8.3 使用阿里云部署DeepSeek
8.3.1 开通人工智能平台PAI
8.3.2 一键部署DeepSeek模型
8.3.3 基于DeepSeek打造钉钉聊天机器人
第9章 基于DeepSeek的Web聊天交互系统
9.1 项目背景
9.2 项目概况
9.2.1 主要功能
9.2.2 技术栈
9.2.3 安装Node.js
9.3 配置文件和基础工具函数
9.3.1 导航菜单配置
9.3.2 基础工具函数
9.3.3 API交互工具函数
9.3.4 状态管理逻辑函数
9.4 组件
9.4.1 页面布局组件
9.4.2 设置组件
9.4.3 聊天组件
9.5 调试运行
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...