-
内容大纲
本书作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
本书适合所有对强化学习感兴趣的读者阅读、收藏。 -
作者介绍
-
目录
第1章 导论
1.1 强化学习
1.2 示例
1.3 强化学习要素
1.4 局限性与适用范围
1.5 扩展实例:井字棋
1.6 本章小结
1.7 强化学习的早期历史
第Ⅰ部分 表格型求解方法
第2章 多臂赌博机
2.1 一个k臂赌博机问题
2.2 动作-价值方法
2.3 10臂测试平台
2.4 增量式实现
2.5 跟踪一个非平稳问题
2.6 乐观初始值
2.7 基于置信度上界的动作选择
2.8 梯度赌博机算法
2.9 关联搜索(上下文相关的赌博机)
2.10 本章小结
第3章 有限马尔可夫决策过程
3.1 “智能体-环境”交互接口
3.2 目标和收益
3.3 回报和分幕
3.4 分幕式和持续性任务的统一表示法
3.5 策略和价值函数
3.6 最优策略和最优价值函数
3.7 最优性和近似算法
3.8 本章小结
第4章 动态规划
4.1 策略评估(预测)
4.2 策略改进
4.3 策略迭代
4.4 价值迭代
4.5 异步动态规划
4.6 广义策略迭代
4.7 动态规划的效率
4.8 本章小结
第5章 蒙特卡洛方法
5.1 蒙特卡洛预测
5.2 动作价值的蒙特卡洛估计
5.3 蒙特卡洛控制
5.4 没有试探性出发假设的蒙特卡洛控制
5.5 基于重要度采样的离轨策略
5.6 增量式实现
5.7 离轨策略蒙特卡洛控制
5.8 *折扣敏感的重要度采样
5.9 *每次决策型重要度采样
5.10 本章小结
……
第Ⅱ部分 表格型近似求解方法
第Ⅲ部分 表格型深入研究
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...