-
内容大纲
这是一本介绍用OpenAI Gym构建智能体的实战指南。全书先简要介绍智能体和学习环境的一些入门知识,概述强化学习和深度强化学习的基本概念和知识点,然后重点介绍OpenAI Gym的相关内容,随后在具体的Gym环境中运用强化学习算法构建智能体。本书还探讨了这些算法在游戏、自动驾驶领域的应用。
本书适合想用OpenAI Gym构建智能体的读者阅读,也适合对强化学习和深度强化学习感兴趣的读者参考。读者应具备一定的Python编程基础。 -
作者介绍
-
目录
第1章 智能体与学习环境入门
1.1 智能体简介
1.2 学习环境
1.3 OpenAI Gym简介
1.4 理解OpenAI Gym的主要特性
1.4.1 简单的环境接口
1.4.2 可比较与可复现
1.4.3 进程可监控
1.5 OpenAI Gym工具包的作用
1.6 创建第一个OpenAI Gym环境
1.7 小结
第2章 强化学习和深度强化学习
2.1 强化学习简介
2.2 直观理解人工智能的含义和内容
2.2.1 监督学习
2.2.2 非监督学习
2.2.3 强化学习
2.3 强化学习实战
2.3.1 智能体
2.3.2 奖励
2.3.3 环境
2.3.4 状态
2.3.5 模型
2.3.6 值函数
2.3.7 策略
2.4 马尔可夫决策过程
2.5 动态规划
2.6 蒙特卡洛学习和时序差分学习
2.7 SARSA和Q-Learning
2.8 深度强化学习
2.9 强化学习和深度强化学习算法的实践应用
2.10 小结
第3章 开启OpenAI Gym和深度强化学习之旅
3.1 代码库、设置和配置
3.1.1 先决条件
3.1.2 创建conda环境
3.1.3 最小化安装——快捷简便的方法
3.1.4 完整安装OpenAI Gym学习环境
3.2 安装深度强化学习所需的工具和库
3.2.1 安装必备的系统软件包
3.2.2 安装CUDA
3.2.3 安装PyTorch
3.3 小结
第4章 探索Gym及其功能
4.1 探索环境列表和术语
4.1.1 术语
4.1.2 探索Gym环境
4.2 理解Gym接口
4.3 Gym中的空间
4.4 小结
第5章 实现第一个智能体—解决过山车问题
5.1 了解过山车问题
5.2 从零开始实现Q-Learning智能体
5.2.1 Q-Learning回顾
5.2.2 使用Python和NumPy实现Q-Learning智能体
5.3 在Gym中训练强化学习智能体
5.4 测试并记录智能体的性能
5.5 一个简单且完整的Q-Learner实现——过山车问题的解决方案
5.6 小结
第6章 用深度Q-Learning实现最优化控制智能体
6.1 优化Q-Learning智能体
6.1.1 用神经网络近似Q函数
6.1.2 经验回放
6.1.3 重温ε-贪婪动作策略
6.2 实现一个深度Q-Learning智能体
6.2.1 用PyTorch实现一个深度卷积Q网络
6.2.2 使用目标Q网络稳定智能体的学习
6.2.3 记录和可视化智能体的学习过程
6.2.4 管理超参数和配置参数
6.2.5 用完整的深度Q-Learner处理输入为原始像素的复杂问题
6.3 Atari Gym环境
6.4 训练深度Q-Learner玩Atari游戏
6.4.1 整合一个完整的深度Q-Learner
6.4.2 超参数
6.4.3 启动训练过程
6.4.4 在Atari游戏中测试深度Q-Learner的性能
6.5 小结
第7章 创建自定义OpenAI Gym环境——CARLA
7.1 理解Gym环境结构
7.1.1 为自定义Gym环境实现创建模板
7.1.2 在OpenAI Gym环境中注册自定义环境
7.2 创建与OpenAI Gym兼容的CARLA环境
7.2.1 配置和初始化
7.2.2 实现reset方法
7.2.3 为CARLA环境实现step函数
7.2.4 测试CARLA Gym环境
7.3 小结
第8章 用深度演员-评论家算法实现无人驾驶智能体
8.1 深度n步优势演员-评论家算法
8.1.1 策略梯度
8.1.2 演员-评论家算法
8.1.3 优势演员-评论家算法
8.1.4 n步优势演员-评论家算法
8.1.5 深度n步优势演员-评论家算法
8.2 实现深度n步优势演员-评论家智能体
8.2.1 初始化演员和评论家网络
8.2.2 用当前策略获取n步经验
8.2.3 计算演员和评论家的损失
8.2.4 更新演员-评论家模型
8.2.5 用于保存/加载、记录、可视化和监视的工具
8.2.6 扩展——异步深度n步优势演员-评论家
8.3 训练一个“聪明”的自动驾驶智能体
8.3.1 训练和测试深度n步优势演员-评论家智能体
8.3.2 训练智能体在CARLA中驾驶车辆
8.4 小结
第9章 探索学习环境全景——Roboschool、Gym Retro、StarCraft-Ⅱ和DeepMind Lab
9.1 Gym接口兼容的环境
9.1.1 Roboschool
9.1.2 Gym Retro
9.2 其他基于Python的开源学习环境
9.2.1 星际争霸Ⅱ—PySC
9.2.2 DeepMind Lab
9.3 小结
第10章 探索学习算法世界——DDPG(演员-评论家)、PPO(策略梯度)、Rainbow(基于值)
10.1 深度确定性策略梯度
10.2 近端策略优化
10.3 Rainbow
10.3.1 核心概念
10.3.2 优点及应用简要总结
10.4 小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...