-
内容大纲
本书详细阐释深度学习的数学基础与架构设计,通过精心设计的章节,逐步带领读者从基础的数学工具深入复杂的深度学习架构,涵盖从向量和矩阵到神经网络的训练、优化和正则化,再到生成模型、自编码器等前沿主题,并提供详尽的数学分析和代码示例。作者团队结合Adobe、Google等企业的前沿实践,通过PyTorch代码逐层拆解卷积神经网络、变分自编码器等核心架构,揭示“为何这样设计”的底层逻辑。书中独创的“数学-代码对照学习法”与可视化工具,将帮助读者突破“知其然不知其所以然”的困境,适合希望从调参工程师进阶为架构设计师的深度学习从业者、研究者及高阶学习者。 -
作者介绍
-
目录
译者序
序
前言
致谢
第1章 机器学习和深度学习概述
1.1 初探机器学习和深度学习:计算范式的转变
1.2 机器学习的函数逼近视角:模型及其训练
1.3 一个简单的机器学习模型:猫脑模型
1.3.1 输入特征
1.3.2 输出决策
1.3.3 模型估计
1.3.4 模型架构选择
1.3.5 模型训练
1.3.6 推理
1.4 机器学习的几何视角
1.5 机器学习中的回归与分类
1.6 线性模型与非线性模型
1.7 通过多个非线性层提高表达能力:深度神经网络
1.8 本章总结
第2章 机器学习中的向量、矩阵和张量
2.1 向量及其在机器学习中的作用
2.2 用于向量操作的PyTorch代码
2.3 矩阵及其在机器学习中的作用
2.4 Python代码:如何用PyTorch表示矩阵、张量和图像
2.5 机器学习中向量和矩阵的基本运算
2.5.1 矩阵和向量的转置
2.5.2 两个向量的点积及其在机器学习中的作用
2.5.3 矩阵乘法与机器学习
2.5.4 向量的长度(L2范数):模型误差
2.5.5 向量长度的直观几何解释
2.5.6 点积的直观几何解释:特征相似性
2.6 向量的正交性及其物理意义
2.7 Python代码:通过PyTorch进行基本的向量和矩阵操作
2.7.1 用于矩阵转置的PyTorch代码
2.7.2 用于点积运算的PyTorch代码
2.7.3 用于矩阵-向量乘法的PyTorch代码
2.7.4 用于矩阵-矩阵乘法的PyTorch代码
2.7.5 用于矩阵乘积转置的PyTorch代码
2.8 多维直线方程和平面方程以及机器学习
2.8.1 多维直线方程
2.8.2 多维平面方程及其在机器学习中的作用
2.9 线性组合、向量生成、基向量和共线性保持
2.9.1 线性相关
2.9.2 向量组的生成空间
2.9.3 向量空间、基向量与封闭性
2.10 线性变换:几何和代数解释
2.10.1 线性变换的通用多维定义
2.10.2 所有矩阵-向量乘法都是线性变换
2.11 多维数组、多线性变换和张量
2.12 线性系统和矩阵求逆
2.12.1 行列式为零或接近零的线性系统,以及病态系统
2.12.2 用于逆矩阵、行列式以及奇异性测试的PyTorch代码
2.12.3 机器学习中的超定和欠定线性系统
2.12.4 矩阵的Moore-Penrose伪逆
2.12.5 矩阵的伪逆:一个美丽的几何直观表示
2.12.6 使用PyTorch代码求解超定系统
2.13 特征值与特征向量:机器学习的最强武器
2.13.1 特征向量与线性无关
2.13.2 对称矩阵与正交特征向量
2.13.3 用于计算特征向量和特征值的PyTorch代码
2.14 正交(旋转)矩阵及其特征值和特征向量
2.14.1 旋转矩阵
2.14.2 旋转矩阵的正交性
2.14.3 用于验证旋转矩阵正交性的PyTorch代码
2.14.4 旋转矩阵的特征值和特征向量:找到旋转轴
2.14.5 用于计算旋转矩阵特征值和特征向量的PyTorch代码
2.15 矩阵对角化
2.15.1 矩阵对角化的PyTorch代码
2.15.2 不使用逆运算,通过对角化求解线性系统
2.15.3 通过对角化求解线性方程组的PyTorch代码
2.15.4 使用对角化计算矩阵的幂
2.16 对称矩阵的谱分解
2.17 一个与机器学习相关的应用:寻找超椭圆的轴
2.18 本章总结
第3章 分类器和向量积分
3.1 图像分类的几何视角
3.1.1 输入表示
3.1.2 分类器作为决策边界
3.1.3 建模简介
3.1.4 二元分类中曲面函数的符号
3.2 误差或损失函数
3.3 最小化损失函数:梯度向量
3.3.1 梯度:以机器学习为中心的介绍
3.3.2 等高面表示和损失最小化
3.4 损失函数的局部近似
3.4.1 一维泰勒级数回顾
3.4.2 多维泰勒级数和黑塞矩阵
3.5 梯度下降、误差最小化和模型训练的PyTorch代码实现
3.5.1 线性模型的PyTorch代码实现
3.5.2 Autograd:PyTorch自动梯度计算
3.5.3 使用PyTorch实现非线性模型
3.5.4 使用PyTorch构建猫脑线性模型
3.6 凸函数与非凸函数以及全局最小值与局部最小值
3.7 凸集和凸函数
3.7.1 凸集
3.7.2 凸曲线与凸曲面
3.7.3 凸性与泰勒级数
3.7.4 凸函数的例子
3.8 本章总结
第4章 机器学习中的线性代数工具
4.1 特征数据点的分布和真实维度
4.2 二次型及其最小化
4.2.1 最小化二次型
4.2.2 对称正(半正)定矩阵
4.3 矩阵的谱范数和弗罗贝尼乌斯范数
4.3.1 谱范数
4.3.2 弗罗贝尼乌斯范数
4.4 主成分分析
4.4.1 最大方差方向
4.4.2 PCA与降维
4.4.3 PyTorch代码:PCA和降维
4.4.4 PCA的局限性
4.4.5 PCA与数据压缩
4.5 奇异值分解
4.5.1 SVD定理的非形式化证明
4.5.2 SVD定理的证明
4.5.3 应用SVD:PCA计算
4.5.4 应用SVD:求解任意线性方程组
4.5.5 矩阵的秩
4.5.6 使用SVD求解线性方程组的PyTorch代码
4.5.7 通过SVD计算PCA的PyTorch代码
4.5.8 应用SVD:矩阵的最佳低秩近似
4.6 机器学习应用:文档检索
4.6.1 使用TF-IDF和余弦相似度
4.6.2 潜在语义分析
4.6.3 执行LSA的PyTorch代码
4.6.4 在大型数据集上计算LSA和SVD的PyTorch代码
4.7 本章总结
第5章 机器学习中的概率分布
5.1 概率:经典频率论观点
5.1.1 随机变量
5.1.2 人口直方图
5.2 概率分布
5.3 概率论的基本概念
5.3.1 不可能事件和必然事件的概率
5.3.2 互斥且完备事件
5.3.3 独立事件
5.4 联合概率及其分布
5.4.1 边际概率
5.4.2 相关事件及其联合概率分布
5.5 几何视角:独立变量和非独立变量的样本点分布
5.6 连续随机变量和概率密度
5.7 分布的性质:期望值、方差和协方差
5.7.1 期望值
5.7.2 方差、协方差与标准差
5.8 从分布中抽样
5.9 一些著名的概率分布
5.9.1 随机均匀分布
5.9.2 高斯(正态)分布
5.9.3 二项分布
5.9.4 多项分布
5.9.5 伯努利分布
5.9.6 分类分布和独热向量
5.10 本章总结
第6章 机器学习中的贝叶斯工具
6.1 条件概率与贝叶斯定理
6.1.1 联合概率与边际概率回顾
6.1.2 条件概率
6.1.3 贝叶斯定理
6.2 熵
6.2.1 熵的几何直觉
6.2.2 高斯分布的熵
6.3 交叉熵
6.4 KL散度
6.5 条件熵
6.6 模型参数估计
6.6.1 似然、证据以及后验概率和先验概率
6.6.2 最大似然估计
6.6.3 最大后验概率估计和正则化
6.7 潜在变量与证据最大化
6.8 高斯分布的最大似然估计
6.8.1 用于最大似然估计的PyTorch代码
6.8.2 使用梯度下降进行最大似然估计的PyTorch代码
6.9 高斯混合模型
6.9.1 高斯混合模型的概率密度函数
6.9.2 用于类别选择的潜在变量
6.9.3 通过GMM进行分类
6.9.4 GMM参数的最大似然估计(GMM拟合)
6.10 本章总结
第7章 函数逼近:神经网络如何建模世界
7.1 神经网络概览
7.2 现实问题的表达:目标函数
7.2.1 现实问题中的逻辑函数
7.2.2 现实问题中的分类器函数
7.2.3 现实问题中的一般函数
7.3 基本构建块或神经元:感知机
7.3.1 Heaviside阶跃函数
7.3.2 超平面
7.3.3 感知机与分类
7.3.4 使用感知机建模常见的逻辑门
7.4 实现更强的表达能力:多层感知机
7.5 层叠的感知机网络:多层感知机或神经网络
7.5.1 分层
7.5.2 使用MLP模拟逻辑函数
7.5.3 Cybenko通用逼近定理
7.5.4 用于构建多边形决策边界的多层感知机
7.6 本章总结
第8章 神经网络训练:前向传播和反向传播
8.1 可微分的阶跃函数
8.1.1 sigmoid函数
8.1.2 tanh函数
8.2 为什么要采用分层结构
8.3 线性层
8.3.1 线性层的矩阵-向量乘法表示
8.3.2 线性多层感知机的前向传播和输出
8.4 训练与反向传播
8.4.1 损失及其最小化:训练的目标
8.4.2 损失曲面与梯度下降
8.4.3 为什么梯度提供了最佳的下降方向
8.4.4 梯度下降与局部最小值
8.4.5 反向传播算法
8.4.6 整体训练过程
8.5 用PyTorch训练神经网络
8.6 本章总结
第9章 损失、优化和正则化
9.1 损失函数
9.1.1 损失的量化与几何视图
9.1.2 回归损失
9.1.3 交叉熵损失
9.1.4 图像和向量的二元交叉熵损失
9.1.5 softmax
9.1.6 softmax交叉熵损失
9.1.7 焦点损失
9.1.8 铰链损失
9.2 优化
9.2.1 优化的几何视角
9.2.2 随机梯度下降和小批量训练
9.2.3 使用PyTorch实现SGD
9.2.4 动量法
9.2.5 几何视角:损失等高图、梯度下降与动量法
9.2.6 Nesterov加速梯度
9.2.7 AdaGrad
9.2.8 RMSProp算法
9.2.9 Adam优化器
9.3 正则化
9.3.1 奥卡姆剃刀原理在优化中的应用
9.3.2 L2正则化
9.3.3 L1正则化
9.3.4 稀疏性:L1与L2正则化
9.3.5 贝叶斯定理与随机优化
9.3.6 Dropout
9.4 本章总结
第10章 神经网络中的卷积
10.1 一维卷积:图形和代数视角
10.1.1 通过一维卷积平滑曲线
10.1.2 通过一维卷积进行曲线边缘检测
10.1.3 一维卷积作为矩阵乘法
10.1.4 PyTorch:具有自定义权重的一维卷积
10.2 卷积输出大小
10.3 二维卷积:图形和代数视角
10.3.1 通过二维卷积平滑图像
10.3.2 通过二维卷积进行图像边缘检测
10.3.3 PyTorch:使用自定义权重的二维卷积
10.3.4 二维卷积作为矩阵乘法
10.4 三维卷积
10.4.1 通过三维卷积进行视频运动检测
10.4.2 PyTorch:带自定义权重的三维卷积
10.5 转置卷积或分数步长卷积
10.5.1 转置卷积的应用:自编码器和嵌入
10.5.2 转置卷积的输出大小
10.5.3 通过转置卷积进行上抽样
10.6 向神经网络添加卷积层
10.7 池化
10.8 本章总结
第11章 用于图像分类和目标检测的神经网络
11.1 用于图像分类的CNN:LeNet
11.2 迈向更深的神经网络
11.2.1 VGG网络
11.2.2 Inception:网络中的网络范式
11.2.3 ResNet:为什么无法扩展叠加层的深度
11.2.4 PyTorch Lightning框架
11.3 目标检测:一个简短的历史
11.3.1 R-CNN
11.3.2 Fast R-CNN
11.3.3 Faster R-CNN
11.4 Faster R-CNN:深入探讨
11.4.1 卷积主干
11.4.2 候选区域网络
11.4.3 Fast R-CNN
11.4.4 训练Faster R-CNN
11.4.5 其他的目标检测方法
11.5 本章总结
第12章 流形、同胚和神经网络
12.1 流形
12.1.1 豪斯多夫性质
12.1.2 第二可数性质
12.2 同胚
12.3 神经网络和流形之间的同胚
12.4 本章总结
第13章 全贝叶斯模型参数估计
13.1 全贝叶斯估计:非形式化介绍
13.2 高斯参数值的最大似然估计回顾
13.3 全贝叶斯参数估计:精度已知但均值未知的高斯分布
13.4 少量和大量的训练数据,以及强先验和弱先验
13.5 共轭先验
13.6 全贝叶斯参数估计:均值已知但精度未知的高斯分布
13.7 全贝叶斯参数估计:均值和精度都未知的高斯分布
13.7.1 正态-伽马分布
13.7.2 估计均值和精度
13.8 示例:全贝叶斯推断
13.8.1 最大似然估计
13.8.2 贝叶斯推断
13.9 全贝叶斯参数估计:精度已知但均值未知的多元高斯分布
13.10 全贝叶斯参数估计:均值已知但精度未知的多变量情况
13.10.1 Wishart分布
13.10.2 估计精度
13.11 本章总结
第14章 潜在空间与生成建模、自编码器和变分自编码器
14.1 潜在空间的几何视角
14.2 生成式分类器
14.3 潜在空间建模的好处和应用
14.4 线性潜在空间流形与PCA
14.5 自编码器
14.6 潜在空间的平滑性、连续性和正则化
14.7 变分自编码器
14.7.1 VAE的几何概述
14.7.2 VAE训练、损失和推理
14.7.3 VAE与贝叶斯定理
14.7.4 随机映射会实现潜在空间的平滑性
14.7.5 直接最小化后验概率需要防止计算成本高昂的归一化处理
14.7.6 ELBO与VAE
14.7.7 先验的选择:均值为零、协方差矩阵为单位矩阵的高斯分布
14.7.8 重参数化技巧
14.8 本章总结
附录
符号说明
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
