-
内容大纲
本书在详细阐述强化学习基本概念与基本理论的基础上,循序渐进地介绍了深度强化学习各常用算法的基本思想、算法伪代码、算法实现、基于实例的算法演示与程序分析等内容。具体介绍了Q-learning算法求解最优路径问题,SARSA算法求解最优安全路径问题,策略迭代算法求解两地租车最优调度问题,价值迭代算法求解最优路径问题,DQN算法求解平衡系统的最优控制问题,PG算法求解双积分系统的最优控制问题,AC类算法求解股票交易的最优推荐策略,SAC算法求解机器人手臂控球平衡问题,PPO算法求解飞行器平稳着陆最优控制问题,DDPG算法求解四足机器人行走控制策略问题,TD3算法求解PID控制器参数整定问题,多智能体强化学习的基本概念与基本方法,MAPPO算法求解多智能体协作运送物体问题,IPPO算法与MAPPO算法求解协作竞争探索区域问题,MADDPG与DDPG算法求解车辆路径跟踪控制问题。
本书可作为高等院校深度强化学习课程的教材,亦可作为本科生毕业设计、研究生项目设计和广大科研人员的技术参考用书。 -
作者介绍
-
目录
第1章 强化学习的基本概念与基本理论
1.1 强化学习研究的问题及基本概念
1.1.1 一些强化学习研究实例
1.1.2 智能体
1.1.3 环境
1.1.4 状态及其观测
1.1.5 状态转移概率
1.1.6 动作
1.1.7 奖励
1.1.8 策略
1.2 马尔可夫决策过程
1.2.1 马尔可夫性质与转移概率
1.2.2 轨迹、回合及经验转换样本
1.2.3 回报及折现率
1.2.4 马尔可夫决策过程的数学记号及其含义
1.3 强化学习的基本函数
1.3.1 目标函数及其作用
1.3.2 状态价值函数及其作用
1.3.3 动作价值函数及其作用
1.3.4 Vπ(s)与Qπ(s, a)的互相表示关系
1.4 贝尔曼方程理论
1.4.1 Bellman方程及其作用
1.4.2 最优策略及最优状态价值函数
1.4.3 最优动作价值函数及其作用
1.4.4 Bellman最优方程及其作用
1.4.5 求解Bellman方程的思路
*1.5 神经网络的基本知识及几个重要定理
1.5.1 神经网络基本知识
1.5.2 神经网络通用近似定理
1.5.3 可微假设与矩阵点乘运算等基本知识
1.5.4 梯度及梯度下降与神经网络权值参数更新公式
1.5.5 数学期望基本知识
1.5.6 循环迭代结果的存在性与唯一性
1.6 本章小结
习题1
第2章 Q-learning算法求解最优路径问题
2.1 Q-learning算法的基本思想
2.2 ε-贪婪策略与时序差分算法
2.2.1 ε-贪婪策略及其作用
2.2.2 时序差分算法
2.3 Q-learning算法的实现
2.3.1 Q-learning算法的应用条件
2.3.2 Q-learning算法的伪代码
2.3.3 Q-learning算法的程序步骤
2.3.4 Q-learning算法的收敛性
2.4 Q-learning算法实例:寻找最优路径
2.4.1 问题说明
2.4.2 数学模型
2.4.3 基于MATLAB自带函数实现求解
2.4.4 基于自编代码实现求解
2.5 Q-learning算法的优缺点及算法扩展
2.5.1 Q-learning算法的优缺点
2.5.2 模型扩展
2.5.3 算法扩展
2.6 本章小结
习题2
第3章 SARSA算法求解最优安全路径问题
3.1 SARSA算法的基本思想
3.2 SARSA算法的实现
3.2.1 SARSA算法的伪代码
3.2.2 SARSA算法的程序步骤
3.2.3 on-policy和off-policy
3.2.4 SARSA算法的收敛性
3.3 SARSA算法实例:寻找最优安全路径
3.3.1 问题说明
3.3.2 数学模型
3.3.3 主程序代码
3.3.4 程序分析
3.4 SARSA算法与Q-learning算法对比
3.4.1 SARSA算法的优缺点
3.4.2 SARSA算法与Q-learning算法适用情况对比
3.4.3 最优策略对比
3.4.4 图像对比分析
3.5 本章小结
习题3
第4章 策略迭代算法求解两地租车最优调度问题
4.1 策略迭代算法的基本思想
4.2 策略迭代算法的实现
4.2.1 策略迭代算法的应用条件
4.2.2 策略迭代算法的伪代码
4.2.3 策略迭代算法的程序步骤
4.2.4 策略迭代算法的收敛性
4.3 策略迭代算法实例:寻找最优调度方案
4.3.1 问题说明
4.3.2 数学模型
4.3.3 主程序代码
4.3.4 程序分析
4.3.5 程序结果解读
4.4 策略迭代算法的优缺点及算法扩展
4.4.1 策略迭代算法的优缺点
4.4.2 模型扩展
4.4.3 算法扩展
4.5 本章小结
习题4
第5章 价值迭代算法求解最优路径问题
5.1 价值迭代算法的基本思想
5.2 价值迭代算法的实现
5.2.1 价值迭代算法的应用条件
5.2.2 价值迭代算法的伪代码
5.2.3 价值迭代算法的程序步骤
5.2.4 价值迭代算法的收敛性
5.2.5 价值迭代算法与策略迭代算法的联系与区别
5.3 价值迭代算法实例:寻找最优路径
5.3.1 问题说明
5.3.2 数学模型
5.3.3 主程序代码
5.3.4 程序分析
5.3.5 程序结果解读
5.4 价值迭代算法的优缺点及算法扩展
5.4.1 价值迭代算法的优缺点
5.4.2 模型扩展
5.4.3 算法扩展
5.5 本章小结
习题5
第6章 DQN算法求解平衡系统的最优控制问题
6.1 DQN算法的基本思想
6.2 经验回放技术与目标网络技术
6.2.1 经验回放技术与重要性采样及其作用
6.2.2 当前网络与目标网络
6.3 DQN算法的实现
6.3.1 DQN算法的应用条件
6.3.2 DQN算法的伪代码
6.3.3 DQN算法的流程与程序步骤
6.3.4 DQN算法的收敛性
6.4 DQN算法实例:求解平衡系统最优控制策略
6.4.1 问题说明
6.4.2 数学模型
6.4.3 主程序代码
6.4.4 程序分析
6.4.5 程序结果解读
6.5 代码程序细化
6.5.1 问题改进说明
6.5.2 主程序代码
6.5.3 程序分析
6.5.4 程序结果解读
6.6 强化学习算法的性能指标
6.6.1 任务累计奖励
6.6.2 收敛回合与收敛速度
6.6.3 收敛平稳性
6.6.4 最优策略鲁棒性
6.6.5 最优策略泛化力
6.6.6 程序的性能测试
6.7 DQN算法的优缺点及算法扩展
6.7.1 DQN算法的优缺点
6.7.2 模型扩展
6.7.3 算法扩展
6.8 本章小结
习题6
第7章 PG算法求解双积分系统的最优控制问题
7.1 PG算法的基本思想
7.2 策略参数优化问题及策略梯度定理
7.2.1 策略梯度及其策略参数优化问题
7.2.2 策略梯度定理及其几个变形
7.3 REINFORCE算法及其伪代码
7.3.1 蒙特卡洛方法近似估计策略梯度
7.3.2 REINFORCE算法的伪代码
7.4 带基线的策略梯度定理及演员网络与评委网络
7.4.1 带基线的策略梯度定理
7.4.2 基线网络、演员网络与评委网络
7.5 PG算法的实现
7.5.1 PG算法的应用条件
7.5.2 PG算法的伪代码
7.5.3 PG算法的程序步骤
7.5.4 PG算法的收敛性
7.6 PG算法实例:求解双积分系统的最优控制策略
7.6.1 问题说明
7.6.2 数学模型
7.6.3 主程序代码
7.6.4 程序分析
7.6.5 程序结果解读
7.7 PG算法的优缺点及算法扩展
7.7.1 PG算法的优缺点
7.7.2 模型扩展
7.7.3 算法扩展
7.8 本章小结
习题7
第8章 AC类算法求解股票交易最优推荐策略
8.1 AC算法的基本思想
8.2 AC算法的实现
8.2.1 AC算法的应用条件
8.2.2 AC算法的伪代码
8.2.3 AC算法的程序步骤
8.2.4 A2C算法
8.2.5 A3C算法
8.2.6 AC类算法的收敛性
8.3 AC算法实例:求解股票交易最优推荐策略问题
8.3.1 问题说明
8.3.2 数学模型
8.3.3 主程序代码
8.3.4 程序分析
8.3.5 程序结果解读
8.4 AC算法的优缺点及算法扩展
8.4.1 AC算法的优缺点
8.4.2 模型扩展
8.4.3 算法扩展
8.5 本章小结
习题8
第9章 SAC算法求解机器人手臂控球平衡问题
9.1 SAC算法的基本思想
9.2 最大熵强化学习
9.2.1 信息熵概念及其作用与策略熵
9.2.2 最大熵强化学习基本知识
9.3 SAC算法的实现
9.3.1 SAC算法的应用条件
9.3.2 SAC算法的伪代码
9.3.3 SAC算法的程序步骤
9.3.4 SAC算法的收敛性
9.4 SAC算法实例:求解机器人手臂控球平衡问题
9.4.1 问题说明
9.4.2 数学模型
9.4.3 主程序代码
9.4.4 程序分析
9.4.5 程序结果解读
9.5 SAC算法的优缺点及算法扩展
9.5.1 SAC算法的优缺点
9.5.2 模型扩展
9.5.3 算法扩展
9.6 本章小结
习题9
第10章 PPO算法求解飞行器平稳着陆最优控制问题
10.1 PPO算法的基本思想
10.2 PPO算法涉及的关键技术
10.2.1 TRPO算法
10.2.2 PPO算法的两个技巧
10.3 PPO算法的实现
10.3.1 PPO算法的应用条件
10.3.2 广义优势估计(GAE)
10.3.3 PPO算法的伪代码
10.3.4 PPO算法的程序步骤
10.3.5 PPO算法的收敛性
10.4 PPO算法实例:求解飞行器平稳着陆最优控制问题
10.4.1 问题说明
10.4.2 数学模型
10.4.3 主程序代码
10.4.4 程序分析
10.4.5 程序结果解读
10.5 PPO算法的优缺点及算法扩展
10.5.1 PPO算法的优缺点
10.5.2 模型扩展
10.5.3 算法扩展
10.6 本章小结
习题10
第11章 DDPG算法求解四足机器人行走控制策略问题
11.1 DDPG算法的基本思想
11.2 随机性策略与确定性策略的联系与对比
11.3 DDPG算法网络结构及其逻辑关系
11.4 DDPG算法的实现
11.4.1 DDPG算法的应用条件
11.4.2 DDPG算法的伪代码
11.4.3 DDPG算法的程序步骤
11.4.4 DDPG算法的收敛性
11.5 DDPG算法实例:求解四足机器人行走控制策略问题
11.5.1 问题说明
11.5.2 数学模型
11.5.3 主程序代码
11.5.4 程序分析
11.5.5 程序结果解读
11.6 DDPG算法的优缺点及算法扩展
11.6.1 DDPG算法的优缺点
11.6.2 模型扩展
11.6.3 算法扩展
11.7 本章小结
习题11
第12章 TD3算法求解PID控制器参数整定问题
12.1 TD3算法的基本思想
12.2 TD3算法的实现
12.2.1 TD3算法的应用条件
12.2.2 TD3算法的伪代码
12.2.3 TD3算法的程序步骤
12.2.4 TD3算法的收敛性
12.3 TD3算法实例:求解PID控制水箱液位问题
12.3.1 问题说明
12.3.2 数学模型
12.3.3 主程序代码
12.3.4 程序分析
12.3.5 程序结果解读
12.4 TD3智能体与PID控制器参数整定结果对比分析
12.4.1 PID控制器参数整定简介
12.4.2 TD3算法及PID控制器参数整定程序
12.4.3 TD3算法及PID控制器参数整定结果对比分析
12.5 TD3算法的优缺点及算法扩展
12.5.1 TD3算法的优缺点
12.5.2 模型扩展
12.5.3 算法扩展
12.6 本章小结
习题12
第13章 多智能体强化学习的基本概念与基本方法
13.1 多智能体强化学习概述
13.1.1 多智能体与单智能体强化学习的联系与区别
13.1.2 多智能体强化学习的实际问题举例
13.1.3 多智能体强化学习的具体内容
13.1.4 多智能体系统类型分类
13.2 多智能体强化学习基础知识
13.2.1 多智能体强化学习的基本概念
13.2.2 多智能体强化学习的相关基本理论
13.2.3 多智能体强化学习的基本方法
13.3 多智能体强化学习的基本函数
13.3.1 策略函数
13.3.2 动作价值函数及其作用
13.3.3 状态价值函数及其作用
13.3.4 优势函数
13.3.5 动作评估函数
13.3.6 最佳响应策略
13.3.7 纳什均衡
13.3.8 帕累托(Pareto)非劣策略
13.4 本章小结
习题13
第14章 MAPPO算法求解多智能体协作运送物体问题
14.1 MAPPO算法的基本思想
14.2 MAPPO算法的实现
14.2.1 MAPPO算法的应用条件
14.2.2 MAPPO算法的伪代码
14.2.3 MAPPO算法的程序步骤
14.2.4 MAPPO算法的收敛性
14.3 MAPPO算法实例:求解多智能体协作运送物体问题
14.3.1 问题说明
14.3.2 数学模型
14.3.3 主程序代码
14.3.4 程序分析
14.3.5 程序结果解读
14.4 分散式训练与集中式训练对比分析
14.4.1 分散式与集中式训练程序组合方案
14.4.2 不同训练方案的训练进程对比分析
14.4.3 MAPPO算法的仿真结果对比分析
14.5 MAPPO算法的优缺点及算法扩展
14.5.1 MAPPO算法的优缺点
14.5.2 模型扩展
14.5.3 算法扩展
14.6 本章小结
习题14
第15章 IPPO算法与MAPPO算法求解协作竞争探索区域问题
15.1 IPPO算法的基本思想
15.2 IPPO算法的实现
15.2.1 IPPO算法的应用条件
15.2.2 IPPO算法的伪代码
15.2.3 IPPO算法的程序步骤
15.2.4 IPPO算法的收敛性
15.3 IPPO算法实例:求解多智能体协作竞争探索区域问题
15.3.1 问题说明
15.3.2 数学模型
15.3.3 主程序代码
15.3.4 程序分析
15.3.5 程序结果解读
15.4 IPPO与MAPPO算法程序及其结果对比分析
15.4.1 IPPO算法程序与MAPPO算法程序差别
15.4.2 5个训练方案的训练进程对比分析
15.4.3 IPPO算法与MAPPO算法仿真测试结果对比分析
15.5 IPPO算法的优缺点及算法扩展
15.5.1 IPPO算法的优缺点
15.5.2 模型扩展
15.5.3 算法扩展
15.6 本章小结
习题15
第16章 MADDPG与DDPG算法求解车辆路径跟踪控制问题
16.1 MADDPG算法的基本思想
16.2 MADDPG算法的实现
16.2.1 MADDPG算法的应用条件
16.2.2 MADDPG算法的伪代码
16.2.3 MADDPG算法的程序步骤
16.2.4 MADDPG算法的收敛性
16.3 MADDPG算法实例:求解车辆路径跟踪控制问题
16.3.1 问题说明
16.3.2 数学模型
16.3.3 主程序代码
16.3.4 程序分析
16.3.5 程序结果解读
16.4 MADDPG与DDPG算法的对比分析
16.4.1 两个自带函数程序对比
16.4.2 训练进程对比分析
16.4.3 仿真结果对比分析
16.5 MADDPG算法的优缺点及算法扩展
16.5.1 MADDPG算法的优缺点
16.5.2 模型扩展
16.5.3 算法扩展
16.6 本章小结
习题16
参考文献
附录 符号说明
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
