-
内容大纲
本书旨在以具有微积分和矩阵代数背景的学生可以理解的方式,解释强化学习和优化控制背后的科学。本书的一个独特重点是算法设计,以获得学习算法的快收敛速度,以及对强化学习有时失败的原因的洞察。一开始就避开了高级随机过程理论,用更直观的确定性探测来代替学习的随机探索。一旦理解了这些思想,掌握植根于随机控制的技术就不难了。这些主题在本书的第二部分有所涉及,从马尔科夫链理论开始,以对强化学习的行为者批评方法的全新审视结束。 -
作者介绍
-
目录
译者序
前言
第1章 引言
1.1 本书涵盖的内容
1.2 未深入探讨的内容
1.3 参考资料
第一部分 无噪声情况下的基础知识
第2章 控制理论概述
2.1 身边的控制问题
2.2 该怎么办
2.3 状态空间模型
2.3.1 充分统计量与非线性
2.3.2 状态增广和学习
2.3.3 线性状态空间模型
2.3.4 向牛顿和莱布尼茨致敬
2.4 稳定性和性能
2.4.1 总成本
2.4.2 平衡点的稳定性
2.4.3 李雅普诺夫函数
2.4.4 技术证明
2.4.5 连续时间域的几何
2.4.6 线性状态空间模型
2.5 展望未来:从控制理论到强化学习
2.5.1 演员-评论家
2.5.2 时间差分
2.5.3 老虎机与探索
2.6 如何忽略噪声
2.7 示例
2.7.1 华尔街
2.7.2 山地车
2.7.3 磁球
2.7.4 倒立摆
2.7.5 Pendubot和Acrobot
2.7.6 合作赛艇
2.8 习题
2.9 注记
第3章 最优控制
3.1 总成本的价值函数
3.2 贝尔曼方程
3.2.1 值迭代
3.2.2 策略改进
3.2.3 佩龙-弗罗贝尼乌斯定理:简单介绍
3.3 各种变形
3.3.1 折扣成本
3.3.2 最短路径问题
3.3.3 有限时域
3.3.4 模型预测控制
3.4 逆动态规划
3.5 贝尔曼方程是一个线性规划
3.6 线性二次调节器
……
第二部分 强化学习与随机控制
附录
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
