-
内容大纲
本书采用“源码剖析”与“论文精读”相结合的方式,系统拆解Transformer的核心技术。通过精读经典论文,逐层梳理其理论脉络与运行机制,帮助读者筑牢知识根基,带领读者对照主流框架的开源实现,逆向解析其设计意图,在实战复现中深化理解。这种从理论到实践的双重路径,旨在让读者轻松跨越学习障碍。
无论是在校学生、科研人员还是产业开发者,都能凭借此书夯实AI根基、把握技术前沿,并快速将Transformer应用于产品创新。希望本书成为一把钥匙,帮助读者在Transformer的世界里扎稳马步、持续深耕、步步进阶。 -
作者介绍
-
目录
第1篇 基础篇
第1章 注意力机制
1.1 背景知识
1.1.1 Seq2Seq
1.1.2 编码器-解码器架构
1.2 技术挑战
1.2.1 对齐问题
1.2.2 长距离依赖问题
1.2.3 CNN方案
1.2.4 RNN方案
1.2.5 当前方案的局限性
1.3 注意力机制的原理、通用结构、计算流程和效果
1.3.1 注意力机制的原理
1.3.2 注意力模型的通用结构
1.3.3 注意力机制的计算流程
1.3.4 注意力机制的效果
1.4 注意力的发展历史
第2章 Transformer架构
2.1 Transformer的总体设计
2.1.1 设计思路
2.1.2 模型结构
2.1.3 注意力结构
2.1.4 推理阶段的执行流程
2.1.5 小结
2.2 如何构建Transformer
2.2.1 构建逻辑
2.2.2 主体功能类
2.3 Transformer的输入
2.3.1 输入分类
2.3.2 输入模块
2.4 Transformer块的结构
2.4.1 MHA
2.4.2 FFN
2.4.3 辅助模块
2.5 Transformer的输出
2.5.1 解码器的输出结果
2.5.2 输出概率
2.6 Transformer的可解释性
2.6.1 机理可解释性
2.6.2 机器学习视角
2.6.3 数学视角
2.6.4 物理学视角
2.7 总结
第3章 编码器与解码器
3.1 编码器
3.1.1 编码器的结构
3.1.2 编码器的输入与输出
3.1.3 编码器的执行流程
3.1.4 编码器的实现
3.2 解码器
3.2.1 解码器的结构
3.2.2 解码器的输入与输出
3.2.3 解码器的执行流程
3.2.4 解码器的实现
3.3 注意力分类
3.3.1 全局自注意力
3.3.2 掩码自注意力
3.3.3 交叉注意力
3.3.4 注意力的逻辑流程实现
3.4 Transformer架构分类
3.4.1 仅解码器架构
3.4.2 仅解码器架构的优势
第4章 训练与推理
4.1 训练
4.1.1 自回归模型的特点
4.1.2 模型的输入
4.1.3 Dropout
……
第2篇 核心篇
第3篇 扩展篇
第4篇 高阶篇
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
