-
内容大纲
本书共分为四篇,即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用。由浅入深、通俗易懂,涵盖经典算法和近几年的前沿技术进展。特别是书中详细介绍了每一种代表性算法的代码原型实现,旨在理论与实践相结合,让读者学有所得、学有所用。
第一篇(包含第1~3章)主要讲解深度强化学习基础,侧重于单智能体强化学习算法,相对简单,有助于初级读者理解,同时涵盖了近几年的经典算法和一些前沿的研究成果。
第二篇(包含第4~5章)主要侧重于对多智能体深度强化学习的讲解,从多智能体强化学习基本概念到相关算法的讲解和分析,以多个极具代表性的算法为例带领读者逐步学习多智能体训练及控制的理论与方法。同时,还介绍了多智能体强化学习领域一些前沿学术成果。
第三篇(包含第6~7章)扩展到多任务场景,称为多任务深度强化学习。首先介绍了多任务强化学习的基本概念和相关基础知识,随后讲解了部分经典的多任务深度强化学习算法。
第四篇(包含第8~11章)主要讲解深度强化学习的实际应用,涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。通过领域应用中思想和方法的讲解,培养读者跨领域解决实际问题的能力,以帮助读者熟练掌握和使用深度强化学习这一强大的方法来解决和优化实际工程领域中的问题。 -
作者介绍
刘驰,教授、博士生导师、北京理工大学软件学院副院长。先后入选2015年度国家人社部“高层次留学人才回国资助计划”、中国科协青年人才托举工程、中国电子学会优秀科技工作者和第八批陕西省百人计划(短期)。分别于清华大学和英国帝国理工学院获得学士和博士学位,后在德国电信研究院(柏林)、美国IBM T.J.Watson研究中心和IBM中国研究院任博士后研究员和研究主管。主要研究方向是绿色物联网大数据高效传输与处理技术。发表高水平SCI/EI论文80余篇,授权国内外发明专利7项,编著中英文书籍8本。主持了国家自然科学基金、工信部2013年电子商务集成创新试点工程等20余个省部级重点项目,现任中国自动化学会大数据专委会委员、中国工程院中国信息与电子工程科技发展战略研究中心特聘专家(计算机应用领域)等。 -
目录
前言
致谢
数学符号
第一篇 深度强化学习
第1章 深度强化学习基础
1.1 强化学习
1.1.1 强化学习的发展历史
1.1.2 强化学习简介
1.1.3 深度强化学习简介
1.2 马尔可夫属性和决策过程
1.2.1 马尔可夫属性
1.2.2 马尔可夫决策过程
1.3 强化学习he心概念
1.3.1 值函数
1.3.2 动态规划
1.3.3 时间(序)差分
1.3.4 策略梯度
1.3.5 actor-critic方法
1.4 Q-learning
1.4.1 Q-learning简介
1.4.2 算法
1.4.3 相关变量及影响
1.4.4 实现方法
第2章 深度强化学习算法
2.1 基于值的深度强化学习算法
2.1.1 深度Q网络
2.1.2 深度双Q网络
2.1.3 竞争网络架构
2.1.4 平均值DQN
2.1.5 多DQN变种结合体:Rainbow
2.1.6 基于动作排除的DQN
2.2 基于策略的深度强化学习算法
2.2.1 循环确定性策略梯度
2.2.2 深度确定性策略梯度
2.2.3 信赖域策略优化
2.2.4 近端策略优化
2.3 基于模型的深度强化学习算法
2.3.1 基于模型加速的连续深度Q-learning
2.3.2 范例模型探索
2.3.3 基于模型集成的信赖域策略优化
2.3.4 时间差分模型
2.4 基于分层的深度强化学习算法
2.4.1 分层深度强化学习
2.4.2 基于封建网络的分层强化学习
2.4.3 基于随机神经网络的分层强化学习
第3章 分布式深度强化学习
3.1 分布式系统
3.1.1 分布式系统简介
3.1.2 分布式系统的发展历史
3.1.3 架构演进
3.1.4 主流分布式系统框架
3.2 分布式深度强化学习算法
3.2.1 分布式近端策略优化
3.2.2 分布式深度确定性策略梯度
3.3 分布式深度强化学习框架
3.3.1 重要性加权Actor-Learner架构
3.3.2 分布式优先经验复用池
第二篇 多智能体深度强化学习
第4章 多智能体深度强化学习基础
4.1 多智能体强化学习
4.1.1 多智能体强化学习发展历史
4.1.2 多智能体强化学习简介
4.1.3 优势和挑战
4.2 部分可见马尔可夫决策过程
4.2.1 POMDP模型
4.2.2 POMDP相关研究
4.2.3 POMDP应用领域
第5章 多智能体深度强化学习算法
5.1 基于值函数的多智能体深度强化学习
5.1.1 基于DQN的多智能体网络
5.1.2 增强智能体间学习
5.1.3 协同多智能体学习的价值分解网络
5.1.4 多智能体深度强化学习的稳定经验复用池
5.1.5 单调值函数分解
5.1.6 深度强化学习中的对立智能体建模
5.1.7 平均场多智能体强化学习
5.2 基于策略的多智能体深度强化学习
5.2.1 基于自身策略的其他智能体行为预测
5.2.2 双重平均方案
5.2.3 多智能体深度强化学习的统一博弈论方法
5.3 基于AC框架的多智能体深度强化学习
5.3.1 多智能体深度确定性策略梯度
5.3.2 多智能体集中规划的价值函数策略梯度
5.3.3 多智能体系统的策略表示学习
5.3.4 部分可观察环境下的多智能体策略优化
5.3.5 基于联网智能体的完全去中心化MARL
第三篇 多任务深度强化学习
第6章 多任务深度强化学习基础
6.1 简介
6.1.1 理论概述
6.1.2 面临的挑战
6.2 策略蒸馏法
第7章 多任务深度强化学习算法
7.1 无监督强化与辅助学习
7.1.1 算法介绍
7.1.2 算法分析
7.1.3 使用场景与优势分析
7.2 使用渐进式神经网络解决任务的复杂序列
7.2.1 算法介绍
7.2.2 算法分析
7.2.3 使用场景与优势分析
7.3 基于单智能体的多任务共享模型
7.3.1 算法介绍
7.3.2 算法分析
7.3.3 使用场景与优势分析
7.4 使用PopArt归一化多任务更新幅度
7.4.1 算法介绍
7.4.2 算法分析
7.4.3 使用场景与优势分析
第四篇 深度强化学习的应用
第8章 游戏
8.1 Gym Retro游戏平台
8.1.1 平台简介
8.1.2 安装Gym Retro平台
8.1.3 安装Retro UI
8.1.4 Gym Retro主要函数说明
8.2 相关应用
8.2.1 Pong游戏
8.2.2 CartPole
8.2.3 Flappy Bird
8.2.4 Gradius
第9章 机器人控制
9.1 机器人导航
9.1.1 无地图导航
9.1.2 社会感知机器人导航
9.2 路径规划
9.3 机器人视觉
第10章 计算机视觉
10.1 图像
10.1.1 图像字幕
10.1.2 图像恢复
10.2 视频
10.2.1 视频字幕
10.2.2 视频快进
10.2.3 视觉跟踪
第11章 自然语言处理
11.1 与知识库交互的多轮对话智能体
11.1.1 概率KB查找
11.1.2 端到端KB-InfoBot
11.1.3 总结
11.2 鲁棒远程监督关系提取
11.2.1 问题表述
11.2.2 使用基于策略的智能体重新分配训练数据集
11.2.3 总结
11.3 非成对情感–情感翻译
11.3.1 问题表述
11.3.2 训练算法
11.3.3 总结
缩写参照表
常用词中英文对照
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...