婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡枛缁€鍌氼熆鐠轰警妲告い锕€寮剁换婵嬪閻樺弶姣愰梺闈涙搐濞差厼鐣峰璺虹厸闁逞屽墰閼鸿精銇愰幒鎴烆棟闂佸搫顦悘婵堝閸喒妲堥柡鍐╂尵閻h京绱掗妸褎鏆╃紒杈ㄦ閺佹捇鏁撻敓锟� [闂備浇鐨崱鈺佹缂傚倸绋勯幏锟� | 闂備胶枪缁绘劗绮旈悜钘夊瀭闁稿本鍩冮弸鏍煏婵炲灝鍔氶柡鍌楀亾]

    • 强化学习(第2版)/智源人工智能丛书
      • 作者:(加)理查德·萨顿//(美)安德鲁·巴图|译者:俞凯
      • 出版社:电子工业
      • ISBN:9787121295164
      • 出版日期:2019/09/01
      • 页数:519
    • 售价:67.2
  • 内容大纲

        本书作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
        本书适合所有对强化学习感兴趣的读者阅读、收藏。
  • 作者介绍

  • 目录

      第1章  导论
        1.1  强化学习
        1.2  示例
        1.3  强化学习要素
        1.4  局限性与适用范围
        1.5  扩展实例:井字棋
        1.6  本章小结
        1.7  强化学习的早期历史
    第Ⅰ部分  表格型求解方法
      第2章  多臂赌博机
        2.1  一个k臂赌博机问题
        2.2  动作-价值方法
        2.3  10臂测试平台
        2.4  增量式实现
        2.5  跟踪一个非平稳问题
        2.6  乐观初始值
        2.7  基于置信度上界的动作选择
        2.8  梯度赌博机算法
        2.9  关联搜索(上下文相关的赌博机)
        2.10  本章小结
      第3章  有限马尔可夫决策过程
        3.1  “智能体-环境”交互接口
        3.2  目标和收益
        3.3  回报和分幕
        3.4  分幕式和持续性任务的统一表示法
        3.5  策略和价值函数
        3.6  最优策略和最优价值函数
        3.7  最优性和近似算法
        3.8  本章小结
      第4章  动态规划
        4.1  策略评估(预测)
        4.2  策略改进
        4.3  策略迭代
        4.4  价值迭代
        4.5  异步动态规划
        4.6  广义策略迭代
        4.7  动态规划的效率
        4.8  本章小结
      第5章  蒙特卡洛方法
        5.1  蒙特卡洛预测
        5.2  动作价值的蒙特卡洛估计
        5.3  蒙特卡洛控制
        5.4  没有试探性出发假设的蒙特卡洛控制
        5.5  基于重要度采样的离轨策略
        5.6  增量式实现
        5.7  离轨策略蒙特卡洛控制
        5.8  *折扣敏感的重要度采样
        5.9  *每次决策型重要度采样
        5.10  本章小结
      ……

    第Ⅱ部分  表格型近似求解方法
    第Ⅲ部分  表格型深入研究
    参考文献