欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 强化学习(原理与Python实战)/智能系统与技术丛书
      • 作者:肖智清|责编:杨福川//李乐
      • 出版社:机械工业
      • ISBN:9787111728917
      • 出版日期:2023/07/01
      • 页数:490
    • 售价:51.6
  • 内容大纲

        本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。
        全书从逻辑上分为三部分。
        第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。
        第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。
        第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等,以便更好地了解强化学习研究的全貌。
  • 作者介绍

        肖智清,深度学习一线研发人员,现就职于世界排名第一的投资银行,清华大学博士。擅长概率统计、随机过程、时间序列和机器学习。近5年发表SCI/EI论文十余篇,是多个顶级期刊和会议审稿人。在国内外多项程序设计和数据科学竞赛获得冠军。
  • 目录

    数学符号表
    前言
    第1章  初识强化学习
      1.1  强化学习及其关键元素
      1.2  强化学习的应用
      1.3  智能体/环境接口
      1.4  强化学习的分类
        1.4.1  按任务分类
        1.4.2  按算法分类
      1.5  强化学习算法的性能指标
      1.6  案例:基于Gym库的智能体/环境接口
        1.6.1  安装Gym库
        1.6.2  使用Gym库
        1.6.3  小车上山
      1.7  本章小结
      1.8  练习与模拟面试
    第2章  Markov决策过程
      2.1  Markov决策过程模型
        2.1.1  离散时间Markov决策过程
        2.1.2  环境与动力
        2.1.3  策略
        2.1.4  带折扣的回报
      2.2  价值
        2.2.1  价值的定义
        2.2.2  价值的性质
        2.2.3  策略的偏序和改进
      2.3  带折扣的分布
        2.3.1  带折扣的分布的定义
        2.3.2  带折扣的分布的性质
        2.3.3  带折扣的分布和策略的等价性
        2.3.4  带折扣的分布下的期望
      2.4  最优策略与最优价值
        2.4.1  从最优策略到最优价值
        2.4.2  最优策略的存在性
        2.4.3  最优价值的性质与Bellman最优方程
        2.4.4  用线性规划法求解最优价值
        2.4.5  用最优价值求解最优策略
      2.5  案例:悬崖寻路
        2.5.1  使用环境
        2.5.2  求解策略价值
    ……
    第3章  有模型数值迭代
    第4章  回合更新价值迭代
    第5章  时序差分价值迭代
    第6章  函数近似方法
    第7章  回合更新策略梯度方法
    第8章  执行者/评论者
    第9章  连续动作空间的确定性策略
    第10章  最大熵强化学习
    第11章  基于策略的无梯度算法

    第12章  值分布强化学习
    第13章  最小化遗憾
    第14章  树搜索
    第15章  模仿学习和人类反馈强化学习
    第16章  更多智能体/环境接口模型