-
内容大纲
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,进一步提升运用深度强化学习技术解决实际问题的能力。本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧贴深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。 -
作者介绍
-
目录
第一部分 基础篇
第1章 什么是强化学习
1.1 深度强化学习中的“深度”
1.2 强化学习
1.3 动态规划与蒙特卡洛
1.4 强化学习框架
1.5 强化学习可以做什么
1.6 为什么是深度强化学习
1.7 教学工具:线图
1.8 后续内容概述
小结
第2章 强化学习问题建模:马尔可夫决策过程
2.1 线图与本书的教学方法
2.2 解决多臂老虎机问题
2.2.1 探索与利用
2.2.2 贪婪策略
2.2.3 Softmax选择策略
2.3 应用老虎机算法优化广告投放
2.3.1 上下文老虎机
2.3.2 状态、动作和奖励
2.4 利用PyTorch构建网络
2.4.1 自动微分
2.4.2 构建模型
2.5 解决上下文老虎机问题
2.6 马尔可夫性质
2.7 预测未来奖励:价值和策略函数
2.7.1 策略函数
2.7.2 最优策略
2.7.3 价值函数
小结
第3章 预测最佳状态和动作:深度Q网络
3.1 Q函数
3.2 Q-learning导航
3.2.1 Q-learning是什么
3.2.2 应用于Gridworld游戏
3.2.3 超参数
3.2.4 贴现因子
3.2.5 构建网络
3.2.6 介绍Gridworld游戏引擎
3.2.7 构建Q函数的神经网络
3.3 防止灾难性遗忘:经验回放
3.3.1 灾难性遗忘
3.3.2 经验回放
3.4 利用目标网络提高稳定性学习的不稳定性
3.5 回顾
小结
第4章 学习选择最佳策略:策略梯度法
4.1 使用神经网络的策略函数
4.1.1 神经网络作为策略函数
4.1.2 随机策略梯度
4.1.3 探索
4.2 强化良好动作:策略梯度算法
4.2.1 定义目标
4.2.2 强化动作
4.2.3 对数概率
4.2.4 信用分配
4.3 与OpenAI Gym配合
4.3.1 CartPole
4.3.2 OpenAI Gym API
4.4 REINFORCE算法
4.4.1 创建策略网络
4.4.2 使智能体与环境交互
4.4.3 训练模型
4.4.4 完整训练循环
4.4.5 所得到的结论
小结
第5章 利用演员-评论家算法解决更复杂的问题
5.1 重构价值-策略函数
5.2 分布式训练
5.3 演员-评论家优势算法
5.4 N-step演员-评论家算法
小结
第二部分 进阶篇
第6章 可替代的优化方法:进化算法
6.1 另一种强化学习方法
6.2 具有进化策略的强化学习
6.2.1 进化理论
6.2.2 进化实践
6.3 CartPole的遗传算法
6.4 进化算法的优缺点
6.4.1 进化算法探索更多
6.4.2 进化算法令人难以置信的样本密集性
6.4.3 模拟器
6.5 进化算法作为一种可扩展的替代方案
6.5.1 扩展的进化算法
6.5.2 并行与串行处理
6.5.3 扩展效率
6.5.4 节点间通信
6.5.5 线性扩展
6.5.6 扩展基于梯度的算法
小结
第7章 Dist-DQN:获取完整故事
7.1 Q-learning存在的问题
7.2 再论概率统计
7.2.1 先验和后验
7.2.2 期望和方差
7.3 贝尔曼方程分布式贝尔曼方程
7.4 分布式Q-learning
7.4.1 使用Python表示概率分布
7.4.2 实现Dist-DQN
7.5 比较概率分布
7.6 模拟数据上的Dist-DQN
7.7 使用分布式Q-learning玩Freeway
小结
第8章 好奇心驱动的探索
8.1 利用预测编码处理稀疏奖励
8.2 反向动态预测
8.3 搭建《超级马里奥兄弟》环境
8.4 预处理和Q网络
8.5 创建Q网络和策略函数
8.6 内在好奇心模块
8.7 可替代的内在奖励机制
小结
第9章 多智能体强化学习
9.1 从单个到多个智能体
9.2 邻域Q-learning
9.3 一维伊辛模型
9.4 平均场Q-learning和二维伊辛模型
9.5 混合合作竞技游戏
小结
第10章 强化学习可解释性:注意力和关系模型
10.1 带注意力和关系偏差的机器学习可解释性不变性和等变性
10.2 利用注意力进行关系推理
10.2.1 注意力模型
10.2.2 关系推理
10.2.3 自注意力模型
10.3 对MNIST实现自注意力
10.3.1 转换的MNIST
10.3.2 关系模块
10.3.3 张量缩并和爱因斯坦标记法
10.3.4 训练关系模块
10.4 多头注意力和关系DQN
10.5 双Q-learning
10.6 训练和注意力可视化
10.6.1 最大熵学习
10.6.2 课程学习
10.6.3 可视化注意力权重
小结
第11章 总结:回顾和路线图
11.1 我们学到了什么
11.2 深度强化学习中的未知课题
11.2.1 优先经验回放
11.2.2 近端策略优化
11.2.3 分层强化学习和options框架
11.2.4 基于模型的规划
11.2.5 蒙特卡洛树搜索
全书结语
附录A 数学、深度学习和PyTorch
A.1 线性代数
A.2 微积分
A.3 深度学习
A.4 PyTorch
参考资料
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...