- 强化学习基础原理与应用
- - 作者：编者:张百珂|责编:魏莹
  - 出版社：清华大学
  - ISBN：9787302685913
  - 出版日期：2025/05/01
  - 页数：394
- 售价：39.6

内容大纲
本书循序渐进地讲解了使用Python语言实现强化学习的核心算法开发的知识，内容涵盖了数据处理、算法、大模型等知识，并通过具体实例的实现过程演练了各个知识点的使用方法和使用流程。《强化学习基础、原理与应用》共分为17章，主要内容包括强化学习基础、马尔可夫决策过程、蒙特卡洛方法、Q-learning与贝尔曼方程、时序差分学习和SARSA算法、DQN算法、DDQN算法、竞争DQN算法、REINFORCE算法、Actor-Critic算法、PPO算法、TRPO算法、连续动作空间的强化学习、值分布式算法、基于模型的强化学习、多智能体强化学习实战：Predator-Prey游戏及自动驾驶系统。本书内容简洁而不失技术深度，以极简的文字介绍了复杂的案例，易于阅读和理解。
本书适用于已经了解Python语言基础语法的读者，想进一步学习强化学习、机器学习、深度学习及相关技术的读者，还可作为大专院校相关专业的师生用书和培训机构的教材使用。
作者介绍
目录
第1章  强化学习基础
  1.1  强化学习概述
    1.1.1  强化学习的背景
    1.1.2  强化学习的核心特点
    1.1.3  强化学习与其他机器学习方法的区别
  1.2  强化学习的应用领域
    1.2.1  机器人控制与路径规划
    1.2.2  游戏与虚拟环境
    1.2.3  金融与投资决策
    1.2.4  自动驾驶与智能交通
    1.2.5  自然语言处理
  1.3  强化学习中的常用概念
    1.3.1  智能体、环境与交互
    1.3.2  奖励与回报的概念
    1.3.3  马尔可夫性质与马尔可夫决策过程
    1.3.4  策略与价值函数
第2章  马尔可夫决策过程
  2.1  马尔可夫决策过程的定义
    2.1.1  马尔可夫决策过程的核心思想
    2.1.2  马尔可夫决策过程的形式化定义
  2.2  马尔可夫决策过程的组成要素
    2.2.1  状态空间与状态的定义
    2.2.2  行动空间与行动的定义
    2.2.3  奖励函数的作用与定义
    2.2.4  转移概率函数的意义与定义
    2.2.5  实例分析：构建一个简单的MDP
  2.3  值函数与策略
    2.3.1  值函数与策略的定义
    2.3.2  值函数与策略的用法举例
  2.4  贝尔曼方程
    2.4.1  贝尔曼预测方程与策略评估
    2.4.2  贝尔曼最优性方程与值函数之间的关系
    2.4.3  贝尔曼最优性方程与策略改进
    2.4.4  动态规划与贝尔曼方程的关系
    2.4.5  贝尔曼方程在强化学习中的应用
第3章  蒙特卡洛方法
  3.1  蒙特卡洛预测
    3.1.1  蒙特卡洛预测的核心思想
    3.1.2  蒙特卡洛预测的步骤与流程
    3.1.3  蒙特卡洛预测的样本更新与更新规则
  3.2  蒙特卡洛控制
    3.2.1  蒙特卡洛控制的目标与意义
    3.2.2  蒙特卡洛控制的策略评估与改进
    3.2.3  蒙特卡洛控制的更新规则与收敛性
  3.3  探索与策略改进
    3.3.1  探索与利用的平衡再探讨
    3.3.2  贪婪策略与ε-贪婪策略的比较
    3.3.3  改进探索策略的方法
    3.3.4  探索策略对蒙特卡洛方法的影响
第4章  Q-learning与贝尔曼方程

  4.1  Q-learning算法的原理
    4.1.1  Q-learning的动作值函数
    4.1.2  Q-learning算法中的贪婪策略与探索策略
    4.1.3  Q-learning算法的收敛性与收敛条件
  4.2  贝尔曼方程在Q-learning算法中的应用
    4.2.1  Q-learning算法与贝尔曼最优性方程的关系
    4.2.2  贝尔曼方程的迭代计算与收敛
    4.2.3  Q-learning算法中贝尔曼方程的实际应用
  4.3  强化学习中的Q-learning
    4.3.1  ε-贪婪策略与探索的关系
    4.3.2  Q-learning中探索策略的变化与优化
    4.3.3  探索策略对Q-learning性能的影响分析
    4.3.4  使用Q-learning寻找某股票的买卖点
第5章  时序差分学习和SARSA算法
  5.1  时序差分预测
    5.1.1  时序差分预测的核心思想
    5.1.2  时序差分预测的基本公式
    5.1.3  时序差分预测与状态值函数
    5.1.4  时序差分预测的实例分析
  5.2  SARSA算法
    5.2.1  SARSA算法的核心原理和步骤
    5.2.2  SARSA算法的更新规则
    5.2.3  SARSA算法的收敛性与收敛条件
    5.2.4  SARSA算法实例分析
  5.3  Q-learning算法的时序差分更新
    5.3.1  时序差分学习与Q-learning的结合
    5.3.2  Q-learning的时序差分更新算法
第6章  DQN算法
  6.1  引言与背景
  6.2  DQN算法的基本原理
  6.3  DQN的网络结构与训练过程
    6.3.1  DQN的神经网络结构
    6.3.2  DQN算法的训练过程
    6.3.3  经验回放
    6.3.4  目标网络
  6.4  DQN算法的优化与改进
    6.4.1  DDQN
    6.4.2  竞争DQN
    6.4.3  优先经验回放
  6.5  基于DQN算法的自动驾驶程序
    6.5.1  项目介绍
    6.5.2  具体实现
第7章  DDQN算法
  7.1  DDQN对标准DQN的改进
  7.2  双重深度Q网络的优势
  7.3  《超级马里奥》游戏的DDQN强化学习实战
    7.3.1  项目介绍
    7.3.2  gym_super_mario_bros库的介绍
    7.3.3  环境预处理
    7.3.4  创建DDQN模型

    7.3.5  模型训练和测试
第8章  竞争DQN算法
  8.1  竞争DQN算法原理
    8.1.1  竞争DQN算法的动机和核心思想
    8.1.2  竞争DQN网络架构
  8.2  竞争DQN的优势与改进
    8.2.1  分离状态价值和动作优势的好处
    8.2.2  优化训练效率与稳定性
    8.2.3  解决过度估计问题的潜力
  8.3  股票交易策略系统
    8.3.1  项目介绍
    8.3.2  数据准备
    8.3.3  数据拆分与时间序列
    8.3.4  Environment（环境）
    8.3.5  DQN算法实现
    8.3.6  DDQN算法的实现
    8.3.7  竞争DQN算法的实现
第9章  REINFORCE算法
  9.1  策略梯度介绍
    9.1.1  策略梯度的重要概念和特点
    9.1.2  策略梯度定理的数学推导
  9.2  REINFORCE算法基础
    9.2.1  REINFORCE算法的基本原理
    9.2.2  REINFORCE算法的更新规则
    9.2.3  基线函数与REINFORCE算法的优化
第10章  Actor-Critic算法
  10.1  Actor-Critic算法的介绍与原理
    10.1.1  强化学习中的策略梯度方法
    10.1.2  Actor-Critic算法框架概述
    10.1.3  Actor-Critic算法实战：手推购物车游戏
  10.2  A2C算法
    10.2.1  A2C算法的基本思想
    10.2.2  优势函数的引入
    10.2.3  A2C算法的训练流程
    10.2.4  A2C算法实战
  10.3  SAC算法
    10.3.1  SAC算法的核心思想
    10.3.2  熵的作用及其在SAC算法中的应用
    10.3.3  SAC算法实战
  10.4  A3C算法
    10.4.1  A3C算法的核心思想
    10.4.2  A3C算法的训练过程
    10.4.3  A3C算法实战
第11章  PPO算法
  11.1  PPO算法的背景与概述
    11.1.1  强化学习中的策略优化方法
    11.1.2  PPO算法的优点与应用领域
  11.2  PPO算法的核心原理
    11.2.1  PPO算法的基本思想
    11.2.2  目标函数与优化策略的关系

    11.2.3  PPO算法中的策略梯度计算
  11.3  PPO算法的实现与调参
    11.3.1  策略网络结构的设计
    11.3.2  超参数的选择与调整
  11.4  PPO算法的变种与改进
    11.4.1  PPO-Clip算法
    11.4.2  PPO-Penalty算法
    11.4.3  PPO2算法
第12章  TRPO算法
  12.1  TRPO算法的意义
  12.2  TRPO算法的核心原理
    12.2.1  TRPO算法的步骤
    12.2.2  信任区域的概念与引入
    12.2.3  目标函数与约束条件的构建
    12.2.4  TRPO算法中的策略梯度计算
  12.3  TRPO算法的变种与改进
    12.3.1  TRPO-Clip算法
    12.3.2  TRPO-Penalty算法
  12.4  TRPO算法优化实战：基于矩阵低秩分解的TRPO
    12.4.1  优化策略：NN-TRPO和TRLRPO
    12.4.2  经验数据管理和状态空间离散化
    12.4.3  定义环境
    12.4.4  创建强化学习模型
    12.4.5  创建Agent
    12.4.6  评估TRPO算法在Acrobot 环境中的性能
    12.4.7  评估TRPO算法在MountainCarContinuous-v0环境中的性能
    12.4.8  评估TRPO算法在CustomPendulumEnv环境中的性能
    12.4.9  性能可视化
第13章  连续动作空间的强化学习
  13.1  连续动作空间强化学习基础
    13.1.1  连续动作空间介绍
    13.1.2  动作幅度问题与采样效率问题
    13.1.3  连续动作空间中的探索问题
  13.2  DDPG算法
    13.2.1  DDPG算法的特点
    13.2.2  DDPG算法在连续动作空间中的优势
    13.2.3  DDPG算法的实现步骤与网络结构
    13.2.4  DDPG算法中的经验回放与探索策略
  13.3  DDPG算法综合实战：基于强化学习的股票交易策略
    13.3.1  项目介绍
    13.3.2  准备开发环境
    13.3.3  下载数据
    13.3.4  数据预处理
    13.3.5  构建环境
    13.3.6  实现深度强化学习算法
    13.3.7  性能回测
第14章  值分布式算法
  14.1  值分布式算法基础
    14.1.1  值分布式算法的背景与优势
    14.1.2  值分布式算法的基本概念

    14.1.3  强化学习中的值函数表示问题
    14.1.4  常用的值分布式算法
  14.2  C51算法
    14.2.1  C51算法的基本原理
    14.2.2  C51算法的网络架构
    14.2.3  C51算法的训练流程
    14.2.4  C51算法的试验与性能评估
    14.2.5  使用TF-Agents训练C51代理
  14.3  QR-DQN算法
    14.3.1  QR-DQN算法的核心思想
    14.3.2  QR-DQN算法的实现步骤
    14.3.3  QR-DQN算法实战
  14.4  FPQF算法
    14.4.1  FPQF算法的核心思想
    14.4.2  FPQF算法的实现步骤
    14.4.3  FPQF算法实战
  14.5  IQN算法
    14.5.1  IQN算法的原理与背景
    14.5.2  IQN算法实战
第15章  基于模型的强化学习
  15.1  基于模型的强化学习基础
    15.1.1  基于模型的强化学习简介
    15.1.2  模型的种类与构建方法
    15.1.3  基于模型的强化学习算法
  15.2  模型预测控制
    15.2.1  模型预测控制介绍
    15.2.2  模型预测控制实战
  15.3  蒙特卡洛树搜索算法
    15.3.1  MCTS算法介绍
    15.3.2  MCTS算法实战
  15.4  MBPO算法
    15.4.1  MBPO算法介绍
    15.4.2  MBPO算法实战
  15.5  PlaNet算法
    15.5.1  PlaNet算法介绍
    15.5.2  PlaNet算法实战
第16章  多智能体强化学习实战：Predator-Prey游戏
  16.1  Predator-Prey游戏介绍
  16.2  背景介绍
  16.3  功能模块介绍
  16.4  环境准备
    16.4.1  安装OpenAI gymnasium
    16.4.2  导入库
  16.5  捕食者-猎物（Predator-Prey）的环境
    16.5.1  定义自定义强化学习环境类
    16.5.2  定义自定义强化学习环境类
    16.5.3  环境重置
    16.5.4  计算捕食者和猎物的奖励
    16.5.5  判断回合是否结束
    16.5.6  检查动作的合法性

    16.5.7  记录和获取状态历史
    16.5.8  实现step方法
    16.5.9  生成视图帧
    16.5.10  渲染环境的视图
  16.6  第二个环境
  16.7  随机智能体
    16.7.1  应用场景
    16.7.2  实现随机智能体
  16.8  DDPG算法的实现
    16.8.1  信息存储
    16.8.2  实现Actor模型
    16.8.3  实现Critic模型
    16.8.4  实现DDPG智能体
  16.9  训练模型
    16.9.1  环境初始化
    16.9.2  创建智能体
    16.9.3  训练循环
    16.9.4  保存模型
    16.9.5  训练结果可视化
第17章  自动驾驶系统
  17.1  自动驾驶背景介绍
  17.2  项目介绍
    17.2.1  功能介绍
    17.2.2  模块结构
  17.3  环境准备
  17.4  配置文件
  17.5  准备数据文件
    17.5.1  Carla数据处理与转换
    17.5.2  加载、处理数据
    17.5.3  收集、处理数据
    17.5.4  创建数据集
  17.6  深度学习模型
    17.6.1  编码器
    17.6.2  变分自编码器
    17.6.3  定义强化学习模型
  17.7  强化学习
    17.7.1  强化学习工具类的实现
    17.7.2  经验回放存储的实现
    17.7.3  深度强化学习智能体的实现
    17.7.4  使用SAC算法的强化学习代理的实现
    17.7.5  实现DDPG用于强化学习
  17.8  调用处理
    17.8.1  生成训练数据
    17.8.2  训练模型
    17.8.3  收集Carla环境中的专家驾驶数据
    17.8.4  训练自动驾驶的强化学习代理
    17.8.5  训练DDPG智能体执行自动驾驶任务
    17.8.6  评估自动驾驶模型的性能
  17.9  调试运行

内容大纲

作者介绍

目录

同类热销排行榜

推荐书目