-
内容大纲
本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现的代码。全书核心内容可以分为3部分,第一部分为经典强化学习,包括第2~4章,主要内容有动态规划法、蒙特卡罗法、时序差分法;第二部分为深度强化学习,包括第6~8章,主要内容有值函数近似算法、策略梯度算法、策略梯度法进阶;第三部分重点介绍深度强化学习的经典应用案例——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍强化学习的模型,第5章简单介绍深度学习和PyTorch。
本书对理论、模型和算法的描述比较数学化,笔者力求做到用严谨、清晰、简洁的数学语言来写作;几乎每个算法配有一个或多个测试案例,便于读者理解理论和算法;每个案例都配有编程实现的代码,便于读者理论联系实际,并亲自上手实践。为降低读者编写代码的难度,本书所有案例的代码都是可以独立运行的,并且尽量减少了对依赖包的使用。
本书可以作为理工科相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。 -
作者介绍
-
目录
第1章 强化学习的模型
1.1 强化学习简介
1.1.1 初识强化学习
1.1.2 强化学习的历史
1.1.3 强化学习与机器学习的关系
1.2 强化学习的模型
1.2.1 强化学习基本模型和要素
1.2.2 强化学习的执行过程
1.2.3 强化学习的数学模型——马尔可夫决策过程
1.2.4 环境模型案例
1.3 Gym介绍
1.3.1 Gym简介
1.3.2 Gym安装
1.3.3 Gym的环境描述和案例
1.3.4 在Gym中添加自编环境
1.3.5 直接使用自编环境
第2章 动态规划法
2.1 动态规划法简介
2.2 值函数和贝尔曼方程
2.2.1 累积折扣奖励
2.2.2 值函数
2.2.3 贝尔曼方程
2.3 策略评估
2.4 策略改进
2.5 最优值函数和最优策略
2.6 策略迭代和值迭代
2.7 动态规划法求解强化学习案例
第3章 蒙特卡罗法
3.1 蒙特卡罗法简介
3.2 蒙特卡罗策略评估
3.2.1 蒙特卡罗策略评估
3.2.2 增量式蒙特卡罗策略评估
3.2.3 蒙特卡罗策略评估案例
3.2.4 蒙特卡罗和动态规划策略评估的对比
3.3 蒙特卡罗强化学习
3.3.1 蒙特卡罗策略改进
3.3.2 起始探索蒙特卡罗强化学习
3.3.3 贪婪策略蒙特卡罗强化学习
3.3.4 蒙特卡罗强化学习案例
3.4 异策略蒙特卡罗强化学习
3.4.1 重要性采样
3.4.2 异策略蒙特卡罗策略评估
3.4.3 增量式异策略蒙特卡罗策略评估
3.4.4 异策略蒙特卡罗强化学习
3.4.5 异策略蒙特卡罗强化学习案例
3.5 .蒙特卡罗树搜索
3.5.1 MCTS的基本思想
3.5.2 MCTS的算法流程
3.5.3 基于MCTS的强化学习算法
3.5.4 案例和代码
第4章 时序差分法
4.1 时序差分策略评估
4.1.1 时序差分策略评估原理
4.1.2 时序差分策略评估算法
4.1.3 时序差分策略评估案例
4.1.4 时序差分策略评估的优势
4.2 同策略时序差分强化学习
4.2.1 Sarsa算法
4.2.2 Sarsa算法案例
4.3 异策略时序差分强化学习
4.3.1 Q-learning算法
4.3.2 期望Sarsa算法
4.3.3 Double Q-learning算法
4.3.4 Q-learning算法案例
4.4 n步时序差分强化学习
4.4.1 n步时序差分策略评估
4.4.2 n-step Sarsa算法
4.5 TD(a)算法
4.5.1 前向TD(A)算法
4.5.2 后向TD(A)算法
4.5.3 Sarsa(A)算法
第5章 深度学习与PyTorch
5.1 从感知机到神经网络
5.1.1 感知机模型
5.1.2 感知机和布尔运算
5.2 深度神经网络
5.2.1 网络拓扑
5.2.2 前向传播
5.2.3 训练模型
5.2.4 误差反向传播
5.3 激活函数、损失函数和数据预处理
5.3.1 激活函数
5.3.2 损失函数
5.3.3 数据预处理
5.4 PyTorch深度学习软件包
5.4.1 数据类型及类型的转换
5.4.2 张量的维度和重组操作
5.4.3 组装神经网络的模块
5.4.4 自动梯度计算
5.4.5 训练数据自由读取
5.4.6 模型的搭建、训练和测试
5.4.7 模型的保存和重载
5.5 深度学习案例
5.5.1 函数近似
5.5.2 数字图片识别
第6章 值函数近似算法
6.1 线性值函数近似算法
6.1.1 线性值函数近似时序差分算法
6.1.2 特征函数
6.1.3 线性值函数近似算法案例
6.2 神经网络值函数近似法
6.2.1 DQN算法原理
6.2.2 DQN算法
6.2.3 DQN算法案例
6.3 Double DQN(DDQN)算法
6.4 Prioritized Replay DQN算法
6.4.1 样本优先级
6.4.2 随机优先级采样
6.4.3 样本重要性权重参数
6.4.4 Prioritized Replay DQN算法流程
6.4.5 Prioritized Replay DQN算法案例
6.5 Dueling DQN算法
6.5.1 Dueling DQN算法原理
6.5.2 Dueling DQN算法案例
第7章 策略梯度算法
7.1 策略梯度算法的基本原理
7.1.1 初识策略梯度算法
7.1.2 策略函数
7.1.3 策略目标函数
7.1.4 策略梯度算法的框架
7.1.5 策略梯度算法的评价
7.2 策略梯度定理
7.2.1 离散型策略梯度定理
7.2.2 连续型策略梯度定理
7.2.3 近似策略梯度和评价函数
7.3 蒙特卡罗策略梯度算法(REINFORCE)
7.3.1 REINFORCE的基本原理
7.3.2 REINFORCE的算法流程
7.3.3 REINFORCE随机梯度的严格推导
7.3.4 带基线函数的REINFORCE
7.3.5 REINFORCE实际案例及代码实现
7.4 演员-评论家策略梯度算法
7.4.1 算法原理
7.4.2 算法流程
7.4.3 算法代码及案例
第8章 策略梯度法进阶
8.1 异步优势演员:评论家算法
8.1.1 异步强化学习
8.1.2 A3C算法
8.1.3 A2C算法
8.1.4 案例和程序
8.2 深度确定性策略梯度算法
8.2.1 DDPG的基本思想
8.2.2 DDPG的算法原理
8.2.3 DDPG的算法结构和流程
8.2.4 案例和程序
8.3 近端策略优化算法
8.3.1 PPO的算法原理
8.3.2 PPO的算法结构和流程
8.3.3 案例和程序
8.4 柔性演员-评论家算法
8.4.1 最大熵原理
8.4.2 柔性Q学习
8.4.3 SAC算法原理
8.4.4 SAC算法结构和流程
8.4.5 案例和程序
第9章 深度强化学习案例:AlphaGo系列算法
9.1 AlphaGo算法介绍
9.1.1 AlphaGo中的深度神经网络
9.1.2 AlphaGo中深度神经网络的训练
9.1.3 AlphaGo的MCTS
9.1.4 总结
9.2 AlphaGo Zero算法介绍
9.2.1 AlphaGo Zero的策略-价值网络
9.2.2 AlphaGo Zero的MCTS
9.2.3 AlphaGo Zero的算法流程
9.3 AlphaZero算法介绍
9.3.1 从围棋到其他棋类需要解决的问题
9.3.2 AlphaZero相对于AlphaGo Zero的改进与调整
9.3.3 AlphaZero的算法流程
9.4 MuZero算法介绍
9.4.1 MuZero中的深度神经网络
9.4.2 MuZero中的MCTS
9.4.3 MuZero的算法流程
9.5 AlphaGo系列算法的应用与启示
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...