-
内容大纲
本书是关于分布式强化学习的全面指南,为从概率视角思考决策问题提供了新的数学框架。本书主要介绍分布式强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,最后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考,也适合高校计算机、人工智能等相关专业的学生阅读。 -
作者介绍
-
目录
译者序
前言
符号表
第1章 导论
1.1 为什么是分布强化学习
1.2 示例:Kuhn扑克
1.3 分布强化学习有何不同
1.4 本书的读者对象和结构
1.5 参考文献备注
第2章 回报的分布
2.1 随机变量及其概率分布
2.2 马尔可夫决策过程
2.3 弹球模型
2.4 回报
2.5 贝尔曼方程
2.6 随机轨迹的性质
2.7 随机变量贝尔曼方程
2.8 从随机变量到概率分布
2.9 回报分布的替代概念
2.10 技术备注
2.11 参考文献备注
2.12 练习
第3章 学习回报分布
3.1 蒙特卡罗方法
3.2 增量学习
3.3 时序差分学习
3.4 从值到概率
3.5 投影过程
3.6 分类时序差分学习
3.7 学习控制
3.8 进一步的考虑
3.9 技术备注
3.10 参考文献备注
3.11 练习
第4章 算子和度量指标
4.1 贝尔曼算子
4.2 收缩映射
4.3 分布贝尔曼算子
4.4 回报函数的Wasserstein距离
4.5 lp概率度量和Cramer距离
4.6 收缩性的充分条件
4.7 域问题
4.8 回报函数的弱收敛性
4.9 随机变量贝尔曼算子
4.10 技术备注
4.11 参考文献备注
4.12 练习
第5章 分布动态规划
5.1 计算模型
5.2 回报-分布函数的表示
5.3 经验表示
5.4 正态表示
5.5 固定大小的经验表示
5.6 投影步骤
5.7 分布动态规划
5.8 扩散引起的误差
5.9 分布动态规划的收敛性
5.10 分布近似的质量
5.11 设计分布动态规划算法
5.12 技术备注
5.13 参考文献备注
5.14 练习
第6章 增量算法
6.1 计算与统计估计
6.2 从算子到增量算法
6.3 分类时序差分学习
6.4 分位数时序差分学习
6.5 理论分析的算法模板
6.6 合理的步长
6.7 收敛性分析概述
6.8 增量算法的收敛性
6.9 时序差分学习的收敛性
6.10 分类时序差分学习的收敛性
6.11 技术备注
6.12 参考文献备注
6.13 练习
第7章 控制
7.1 风险中性控制
7.2 价值迭代和Q-学习
7.3 分布值迭代
7.4 分布最优算子的动力学
7.5 存在多个最优策略时的动态分析
7.6 风险和风险敏感控制
7.7 风险敏感控制面临的挑战
7.8 条件风险价值
7.9 技术备注
7.10 参考文献备注
7.11 练习
第8章 统计泛函
8.1 统计泛函概述
8.2 矩
8.3 贝尔曼封闭性
8.4 统计泛函动态规划
8.5 与分布动态规划的关系
8.6 期望分位数动态规划
8.7 统计泛函的无限集合
8.8 矩时序差分学习
8.9 技术备注
8.10 参考文献备注
8.11 练习
第9章 线性函数近似
9.1 函数近似和混叠
9.2 最优线性价值函数近似
9.3 用于线性价值函数近似的投影贝尔曼算子
9.4 半梯度时序差分学习
9.5 分布强化学习的半梯度算法
9.6 基于带符号分布的算法
9.7 带符号算法的收敛性
9.8 技术备注
9.9 参考文献备注
9.10 练习
第10章 深度强化学习
10.1 深度神经网络学习
10.2 基于深度神经网络的分布强化学习
10.3 隐式参数化
10.4 深度强化学习智能体评估
10.5 预测如何塑造状态表示
10.6 技术备注
10.7 参考文献备注
10.8 练习
第11章 两个应用和一个结论
11.1 多智能体强化学习
11.2 计算神经科学
11.3 结论
11.4 参考文献备注
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
