欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 强化学习的数学原理
      • 作者:赵世钰|责编:郭赛
      • 出版社:清华大学
      • ISBN:9787302685678
      • 出版日期:2025/04/01
      • 页数:271
    • 售价:43.2
  • 内容大纲

        本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。
        本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。
        它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。
        本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。
  • 作者介绍

        赵世钰,西湖大学工学院AI分支特聘研究员,智能无人系统实验室负责人,国家海外高层次人才引进计划青年项目获得者;本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学,曾任英国谢菲尔德大学自动控制与系统工程系Lecturer;致力于研发有趣、有用、有挑战性的下一代机器人系统,重点关注多机器人系统中的控制、决策与感知等问题。
  • 目录

    第1章  基本概念
      1.1  网格世界例子
      1.2  状态和动作
      1.3  状态转移
      1.4  策略
      1.5  奖励
      1.6  轨迹、回报、回合
      1.7  马尔可夫决策过程
      1.8  总结
      1.9  问答
    第2章  状态值与贝尔曼方程
      2.1  启发示例1:为什么回报很重要?
      2.2  启发示例2:如何计算回报?
      2.3  状态值
      2.4  贝尔曼方程
      2.5  示例
      2.6  矩阵向量形式
      2.7  求解状态值
        2.7.1  方法1:解析解
        2.7.2  方法2:数值解
        2.7.3  示例
      2.8  动作值
        2.8.1  示例
        2.8.2  基于动作值的贝尔曼方程
      2.9  总结
      2.10  问答
    第3章  最优状态值与贝尔曼最优方程
      3.1  启发示例:如何改进策略?
      3.2  最优状态值和最优策略
      3.3  贝尔曼最优方程
        3.3.1  方程右侧的优化问题
        3.3.2  矩阵-向量形式
        3.3.3  压缩映射定理
        3.3.4  方程右侧函数的压缩性质
      3.4  从贝尔曼最优方程得到最优策略
      3.5  影响最优策略的因素
      3.6  总结
      3.7  问答
    第4章  值迭代与策略迭代
      4.1  值迭代算法
        4.1.1  展开形式和实现细节
        4.1.2  示例
      4.2  策略迭代算法
        4.2.1  算法概述
        4.2.2  算法的展开形式
        4.2.3  示例
      4.3  截断策略迭代算法
        4.3.1  对比值迭代与策略迭代
        4.3.2  截断策略迭代算法
      4.4  总结

      4.5  问答
    第5章  蒙特卡罗方法
      5.1  启发示例:期望值估计
      5.2  MC Basic:最简单的基于蒙特卡罗的算法
        5.2.1  将策略迭代算法转换为无需模型
        5.2.2  MC Basic算法
        5.2.3  示例
      5.3  MC Exploring Starts算法
        5.3.1  更高效地利用样本
        5.3.2  更高效地更新策略
        5.3.3  算法描述
      5.4  MC ε-Greedy算法
        5.4.1  ε-Greedy策略
        5.4.2  算法描述
        5.4.3  示例
      5.5  探索与利用:以ε-Greedy策略为例
      5.6  总结
      5.7  问答
    第6章  随机近似算法
      6.1  启发示例:期望值估计
      6.2  罗宾斯-门罗算法
        6.2.1  收敛性质
        6.2.2  在期望值估计问题中的应用
      6.3  Dvoretzky定理
        6.3.1  Dvoretzky定理的证明
        6.3.2  应用于分析期望值估计算法
        6.3.3  应用于证明罗宾斯-门罗定理
        6.3.4  Dvoretzky定理的推广
      6.4  随机梯度下降
        6.4.1  应用于期望值估计
        6.4.2  随机梯度下降的收敛模式
        6.4.3  随机梯度下降的另一种描述
        6.4.4  小批量梯度下降
        6.4.5  随机梯度下降的收敛性
      6.5  总结
      6.6  问答
    第7章  时序差分方法
      7.1  状态值估计:最基础的时序差分算法
        7.1.1  算法描述
        7.1.2  性质分析
        7.1.3  收敛性证明
      7.2  动作值估计:Sarsa
        7.2.1  算法描述
        7.2.2  学习最优策略
      7.3  动作值估计:n-Step Sarsa
      7.4  最优动作值估计:Q-learning
        7.4.1  算法描述
        7.4.2  Off-policy和On-policy
        7.4.3  算法实现
        7.4.4  示例

      7.5  时序差分算法的统一框架
      7.6  总结
      7.7  问答
    第8章  值函数方法
      8.1  价值表示:从表格到函数
      8.2  基于值函数的时序差分算法:状态值估计
        8.2.1  目标函数
        8.2.2  优化算法
        8.2.3  选择值函数
        8.2.4  示例
        8.2.5  理论分析
      8.3  基于值函数的时序差分:动作值估计
        8.3.1  基于值函数的Sarsa
        8.3.2  基于值函数的Q-learning
      8.4  深度Q-learning
        8.4.1  算法描述
        8.4.2  示例
      8.5  总结
      8.6  问答
    第9章  策略梯度方法
      9.1  策略表示:从表格到函数
      9.2  目标函数:定义最优策略
      9.3  目标函数的梯度
        9.3.1  推导策略梯度:有折扣的情况
        9.3.2  推导策略梯度:无折扣的情况
      9.4  蒙特卡罗策略梯度(REINFORCE)
      9.5  总结
      9.6  问答
    第10章  演员-评论家方法
      10.1  最简单的演员-评论家算法:QAC
      10.2  优势演员-评论家
        10.2.1  基准不变性
        10.2.2  算法描述
      10.3  异策略演员-评论家
        10.3.1  重要性采样
        10.3.2  Off-policy策略梯度定理
        10.3.3  算法描述
      10.4  确定性演员-评论家
        10.4.1  确定性策略梯度定理
        10.4.2  算法描述
      10.5  总结
      10.6  问答
    附录A  概率论基础
    附录B  测度概率论
    附录C  序列的收敛性
      C.1  确定性序列的收敛性
      C.2  随机序列的收敛性
    附录D  梯度下降方法
    符号
    索引

    参考文献