欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 分布强化学习/智能科学与技术丛书
      • 作者:(加)马克·G.贝勒马尔//(美)威尔·达布尼//(英)马克·罗兰|责编:曲熠//陈佳媛|译者:周庆国//王金强//周睿//雍宾宾
      • 出版社:机械工业
      • ISBN:9787111789642
      • 出版日期:2025/10/01
      • 页数:242
    • 售价:39.6
  • 内容大纲

        本书是关于分布式强化学习的全面指南,为从概率视角思考决策问题提供了新的数学框架。本书主要介绍分布式强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,最后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考,也适合高校计算机、人工智能等相关专业的学生阅读。
  • 作者介绍

  • 目录

    译者序
    前言
    符号表
    第1章  导论
      1.1  为什么是分布强化学习
      1.2  示例:Kuhn扑克
      1.3  分布强化学习有何不同
      1.4  本书的读者对象和结构
      1.5  参考文献备注
    第2章  回报的分布
      2.1  随机变量及其概率分布
      2.2  马尔可夫决策过程
      2.3  弹球模型
      2.4  回报
      2.5  贝尔曼方程
      2.6  随机轨迹的性质
      2.7  随机变量贝尔曼方程
      2.8  从随机变量到概率分布
      2.9  回报分布的替代概念
      2.10  技术备注
      2.11  参考文献备注
      2.12  练习
    第3章  学习回报分布
      3.1  蒙特卡罗方法
      3.2  增量学习
      3.3  时序差分学习
      3.4  从值到概率
      3.5  投影过程
      3.6  分类时序差分学习
      3.7  学习控制
      3.8  进一步的考虑
      3.9  技术备注
      3.10  参考文献备注
      3.11  练习
    第4章  算子和度量指标
      4.1  贝尔曼算子
      4.2  收缩映射
      4.3  分布贝尔曼算子
      4.4  回报函数的Wasserstein距离
      4.5  lp概率度量和Cramer距离
      4.6  收缩性的充分条件
      4.7  域问题
      4.8  回报函数的弱收敛性
      4.9  随机变量贝尔曼算子
      4.10  技术备注
      4.11  参考文献备注
      4.12  练习
    第5章  分布动态规划
      5.1  计算模型
      5.2  回报-分布函数的表示

      5.3  经验表示
      5.4  正态表示
      5.5  固定大小的经验表示
      5.6  投影步骤
      5.7  分布动态规划
      5.8  扩散引起的误差
      5.9  分布动态规划的收敛性
      5.10  分布近似的质量
      5.11  设计分布动态规划算法
      5.12  技术备注
      5.13  参考文献备注
      5.14  练习
    第6章  增量算法
      6.1  计算与统计估计
      6.2  从算子到增量算法
      6.3  分类时序差分学习
      6.4  分位数时序差分学习
      6.5  理论分析的算法模板
      6.6  合理的步长
      6.7  收敛性分析概述
      6.8  增量算法的收敛性
      6.9  时序差分学习的收敛性
      6.10  分类时序差分学习的收敛性
      6.11  技术备注
      6.12  参考文献备注
      6.13  练习
    第7章  控制
      7.1  风险中性控制
      7.2  价值迭代和Q-学习
      7.3  分布值迭代
      7.4  分布最优算子的动力学
      7.5  存在多个最优策略时的动态分析
      7.6  风险和风险敏感控制
      7.7  风险敏感控制面临的挑战
      7.8  条件风险价值
      7.9  技术备注
      7.10  参考文献备注
      7.11  练习
    第8章  统计泛函
      8.1  统计泛函概述
      8.2  矩
      8.3  贝尔曼封闭性
      8.4  统计泛函动态规划
      8.5  与分布动态规划的关系
      8.6  期望分位数动态规划
      8.7  统计泛函的无限集合
      8.8  矩时序差分学习
      8.9  技术备注
      8.10  参考文献备注
      8.11  练习

    第9章  线性函数近似
      9.1  函数近似和混叠
      9.2  最优线性价值函数近似
      9.3  用于线性价值函数近似的投影贝尔曼算子
      9.4  半梯度时序差分学习
      9.5  分布强化学习的半梯度算法
      9.6  基于带符号分布的算法
      9.7  带符号算法的收敛性
      9.8  技术备注
      9.9  参考文献备注
      9.10  练习
    第10章  深度强化学习
      10.1  深度神经网络学习
      10.2  基于深度神经网络的分布强化学习
      10.3  隐式参数化
      10.4  深度强化学习智能体评估
      10.5  预测如何塑造状态表示
      10.6  技术备注
      10.7  参考文献备注
      10.8  练习
    第11章  两个应用和一个结论
      11.1  多智能体强化学习
      11.2  计算神经科学
      11.3  结论
      11.4  参考文献备注
    参考文献