欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 用Python动手学强化学习(第2版全彩印刷)/图灵程序设计丛书
      • 作者:(日)久保隆宏|责编:杜晓静|译者:梁垿//程引
      • 出版社:人民邮电
      • ISBN:9787115564221
      • 出版日期:2021/07/01
      • 页数:262
    • 售价:35.92
  • 内容大纲

        强化学习是机器学习的重要分支之一。本书结合实际可运行的Python代码,通过简明的文字、丰富的插图和示例,通俗易懂地介绍了从基础概念到前沿应用等方方面面的内容,包括根据环境和经验制订计划的学习方法、强化学习与神经网络的组合,以及强化学习的弱点和克服方法。读者通过下载书中代码并亲自动手运行,可以快速入门强化学习并进行实践。
        本书适合具有一定编程经验、对强化学习感兴趣的工程师阅读。
  • 作者介绍

  • 目录

    第1章  了解强化学习
      1.1  强化学习与各关键词之间的关系
      1.2  强化学习的优点和弱点
      1.3  强化学习的问题设定:马尔可夫决策过程
    第2章  强化学习的解法(1):根据环境制订计划
      2.1  价值的定义和计算:贝尔曼方程
      2.2  基于动态规划法的价值近似的学习:价值迭代
      2.3  基于动态规划法的策略的学习:策略迭代
      2.4  基于模型的方法和无模型的方法的区别
    第3章  强化学习的解法(2):根据经验制订计划
      3.1  平衡经验的积累与利用:Epsilon-Greedy算法
      3.2  是根据实际奖励还是预测来修正计划:蒙特卡洛方法和时序差分学习
      3.3  用经验来更新价值近似还是策略:基于价值和基于策略
    第4章  使用面向强化学习的神经网络
      4.1  将神经网络应用于强化学习
      4.2  通过含有参数的函数实现价值近似:价值函数近似
      4.3  将深度学习应用于价值近似:DQN
      4.4  通过含有参数的函数实现策略:策略梯度
      4.5  将深度学习应用于策略:A2C
      4.6  是价值近似还是策略呢
    第5章  强化学习的弱点
      5.1  获取样本的效率低
      5.2  容易陷入局部最优行动和过拟合
      5.3  复现性差
      5.4  以弱点为前提的对策
    第6章  克服强化学习弱点的方法
      6.1  应对采样效率低的方法:与基于模型的方法一起使用、表征学习
      6.2  改善复现性的方法:进化策略
      6.3  应对局部最优行动和过拟合的方法:模仿学习和逆强化学习
    第7章  强化学习的应用领域
      7.1  行动的最优化
      7.2  学习的最优化
    参考文献