欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 强化学习(第2版)/智源人工智能丛书
      • 作者:(加)理查德·萨顿//(美)安德鲁·巴图|译者:俞凯
      • 出版社:电子工业
      • ISBN:9787121295164
      • 出版日期:2019/09/01
      • 页数:519
    • 售价:67.2
  • 内容大纲

        本书作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
        本书适合所有对强化学习感兴趣的读者阅读、收藏。
  • 作者介绍

  • 目录

      第1章  导论
        1.1  强化学习
        1.2  示例
        1.3  强化学习要素
        1.4  局限性与适用范围
        1.5  扩展实例:井字棋
        1.6  本章小结
        1.7  强化学习的早期历史
    第Ⅰ部分  表格型求解方法
      第2章  多臂赌博机
        2.1  一个k臂赌博机问题
        2.2  动作-价值方法
        2.3  10臂测试平台
        2.4  增量式实现
        2.5  跟踪一个非平稳问题
        2.6  乐观初始值
        2.7  基于置信度上界的动作选择
        2.8  梯度赌博机算法
        2.9  关联搜索(上下文相关的赌博机)
        2.10  本章小结
      第3章  有限马尔可夫决策过程
        3.1  “智能体-环境”交互接口
        3.2  目标和收益
        3.3  回报和分幕
        3.4  分幕式和持续性任务的统一表示法
        3.5  策略和价值函数
        3.6  最优策略和最优价值函数
        3.7  最优性和近似算法
        3.8  本章小结
      第4章  动态规划
        4.1  策略评估(预测)
        4.2  策略改进
        4.3  策略迭代
        4.4  价值迭代
        4.5  异步动态规划
        4.6  广义策略迭代
        4.7  动态规划的效率
        4.8  本章小结
      第5章  蒙特卡洛方法
        5.1  蒙特卡洛预测
        5.2  动作价值的蒙特卡洛估计
        5.3  蒙特卡洛控制
        5.4  没有试探性出发假设的蒙特卡洛控制
        5.5  基于重要度采样的离轨策略
        5.6  增量式实现
        5.7  离轨策略蒙特卡洛控制
        5.8  *折扣敏感的重要度采样
        5.9  *每次决策型重要度采样
        5.10  本章小结
      ……

    第Ⅱ部分  表格型近似求解方法
    第Ⅲ部分  表格型深入研究
    参考文献