欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 强化学习(前沿算法与应用)/人工智能科学与技术丛书
      • 作者:编者:白辰甲//赵英男//郝建业//刘鹏//王震|责编:李晓波
      • 出版社:机械工业
      • ISBN:9787111724780
      • 出版日期:2023/05/01
      • 页数:288
    • 售价:43.6
  • 内容大纲

        强化学习是机器学习的重要分支,是实现通用人工智能的重要途径。本书介绍了强化学习在算法层面的快速发展,包括值函数、策略梯度、值分布建模等基础算法,以及为了提升样本效率产生的基于模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,以及一些新兴领域,包括离线学习、表示学习、元学习等,旨在提升数据高效性和策略的泛化能力的算法,还介绍了应用领域中强化学习在智能控制、机器视觉、语言处理、医疗、推荐、金融等方面的相关知识。
        本书深入浅出、结构清晰、重点突出,系统地阐述了强化学习的前沿算法和应用,适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。
  • 作者介绍

  • 目录

    序言
    前言
    第1章  强化学习简介
      1.1  从监督学习到强化学习
      1.2  强化学习的发展历史
      1.3  强化学习的研究范畴
      1.4  强化学习的应用领域
    第2章  强化学习基础知识
      2.1  强化学习的核心概念
      2.2  马尔可夫性和决策过程
      2.3  值函数和策略学习
    第3章  基于值函数的强化学习算法
      3.1  深度Q学习的基本理论
        3.1.1  深度Q网络
        3.1.2  经验池
        3.1.3  目标网络
      3.2  深度Q学习的过估计
        3.2.1  过估计的产生原因
        3.2.2  Double Q-学习
      3.3  深度Q学习的网络改进和高效采样
        3.3.1  Dueling网络
        3.3.2  高效采样
      3.4  周期后序迭代Q学习
      3.5  Q学习用于连续动作空间
        3.5.1  基于并行结构的Q学习
        3.5.2  基于顺序结构的Q学习
      3.6  实例:使用值函数学习的Atari游戏
        3.6.1  环境预处理
        3.6.2  Q网络的实现
        3.6.3  Q学习的核心步骤
    第4章  策略梯度迭代的强化学习算法
      4.1  REINFORCE策略梯度
        4.1.1  策略梯度的基本形式
        4.1.2  降低策略梯度的方差
      4.2  异步策略梯度法
        4.2.1  引入优势函数
        4.2.2  异步策略梯度
      4.3  近端策略优化法
        4.3.1  裁剪的优化目标
        4.3.2  自适应的优化目标
      4.4  深度确定性策略梯度
        4.4.1  critic学习
        4.4.2  actor学习
        4.4.3  拓展1:探索噪声
        4.4.4  拓展2:孪生DDPG
      4.5  熵策略梯度
        4.5.1  熵约束的基本原理
        4.5.2  SAC算法
      4.6  实例:使用策略梯度的Mujoco任务
        4.6.1  actor-critic网络实现

        4.6.2  核心算法实现
    第5章  基于模型的强化学习方法
      5.1  如何使用模型来进行强化学习
      5.2  基于模型预测的规划
        5.2.1  随机打靶法
        5.2.2  集成概率轨迹采样法
        5.2.3  基于模型和无模型的混合算法
        5.2.4  基于想象力的隐式规划方法
      5.3  黑盒模型的理论框架
        5.3.1  随机下界优化算法
        5.3.2  基于模型的策略优化算法
      5.4  白盒模型的使用
        5.4.1  随机值梯度算法
        5.4.2  模型增强的actor-critic算法
      5.5  实例:AlphaGo围棋智能体
        5.5.1  网络结构介绍
        5.5.2  蒙特卡罗树搜索
        5.5.3  总体训练流程
    第6章  值分布式强化学习算法
      6.1  离散分布投影的值分布式算法
      6.2  分位数回归的值分布式算法
        6.2.1  分位数回归
        6.2.2  Wasserstein距离
        6.2.3  QR-DQN算法
        6.2.4  单调的分位数学习算法
      6.3  隐式的值分布网络
      6.4  基于值分布的代价敏感学习
        6.4.1  IQN中的代价敏感学习
        6.4.2  基于IQN的actor-critic模型的代价敏感学习
      6.5  实例:基于值分布的Q网络实现
        6.5.1  IQN模型构建
        6.5.2  IQN损失函数
    第7章  强化学习中的探索算法
      7.1  探索算法的分类
      7.2  基于不确定性估计的探索
        7.2.1  参数化后验的算法思路
        7.2.2  重采样DQN
      7.3  进行虚拟计数的探索
        7.3.1  基于图像生成模型的虚拟计数
        7.3.2  基于哈希的虚拟计数
      7.4  根据环境模型的探索
        7.4.1  特征表示的学习
        7.4.2  随机网络蒸馏
        7.4.3  Never-Give-Up算法
      7.5  实例:蒙特祖玛复仇任务的探索
        7.5.1  RND网络结构
        7.5.2  RND的训练
        7.5.3  RND用于探索
    第8章  多目标强化学习算法
      8.1  以目标为条件的价值函数

        8.1.1  熵HER
        8.1.2  动态目标HER
      8.2  监督式的多目标学习
        8.2.1  Hindsight模仿学习
        8.2.2  加权监督式多目标学习
      8.3  推广的多目标学习
      8.4  实例:仿真机械臂的多目标抓取
        8.4.1  多目标实验环境
        8.4.2  HER的实现方法
        8.4.3  MEP的算法实现
    第9章  层次化强化学习算法
      9.1  层次化学习的重要性
      9.2  基于子目标的层次化学习
        9.2.1  封建网络的层次化学习
        9.2.2  离策略修正的层次化学习
        9.2.3  虚拟子目标的强化学习方法
      9.3  基于技能的层次化学习
        9.3.1  使用随机网络的层次化学习
        9.3.2  共享分层的元学习方法
      9.4  基于选项的层次化学习
        9.4.1  option与半马尔可夫决策过程
        9.4.2  option-critic结构
      9.5  实例:层次化学习蚂蚁走迷宫任务
    第10章  基于技能的强化学习算法
      10.1  技能学习的定义
      10.2  互信息化的技能学习算法
        10.2.1  多样性化技能学习算法
        10.2.2  其他基于互信息的技能学习方法
      10.3  融合环境模型的技能学习算法
      10.4  化状态覆盖的技能学习算法
      10.5  实例:人形机器人的技能学习
    第11章  离线强化学习算法
      11.1  离线强化学习中面临的困难
      11.2  策略约束的离线学习
        11.2.1  BCQ算法
        11.2.2  BRAC算法
        11.2.3  TD3-BC算法
      11.3  使用保守估计的离线学习
      11.4  基于不确定性的离线学习
        11.4.1  UWAC算法
        11.4.2  MOPO算法
        11.4.3  PBRL算法
      11.5  监督式的离线学习
        11.5.1  DT算法
        11.5.2  RVS算法
      11.6  实例:使用离线学习的D4RL任务集
        11.6.1  D4RL数据集的使用
        11.6.2  CQL算法实现
        11.6.3  TD3-BC算法实现
    第12章  元强化学习算法

      12.1  元强化学习的定义
      12.2  基于网络模型的元强化学习方法
        12.2.1  使用循环神经网络的元强化学习方法
        12.2.2  基于时序卷积和软注意力机制的方法
      12.3  元梯度学习
      12.4  元强化学习中的探索方法
        12.4.1  结构化噪声探索方法
        12.4.2  利用后验采样进行探索
      12.5  实例:元学习训练多任务猎豹智能体
    第13章  高效的强化学习表示算法
      13.1  为什么要进行表示学习
      13.2  对比学习的特征表示
        13.2.1  基本原理和SimCLR算法
        13.2.2  MoCo算法
        13.2.3  基于对比学习的CURL算法
        13.2.4  基于对比学习的ATC算法
        13.2.5  基于对比学习的DIM算法
        13.2.6  对比学习和互信息理论
        13.2.7  完全基于图像增广的方法
      13.3  鲁棒的特征表示学习
        13.3.1  互模拟特征
        13.3.2  信息瓶颈特征
      13.4  使用模型预测的表示学习
      13.5  实例:鲁棒的仿真自动驾驶
    第14章  强化学习在智能控制中的应用
      14.1  机器人控制
        14.1.1  机械臂操作任务的控制
        14.1.2  足式机器人的运动控制
        14.1.3  多任务机器人控制
        14.1.4  面临的挑战
      14.2  电力优化控制
        14.2.1  电力管理任务
        14.2.2  需求响应
      14.3  交通指挥优化控制
        14.3.1  多信号灯合作控制
        14.3.2  大规模信号灯控制方法
        14.3.3  元强化学习信号灯控制
    第15章  强化学习在机器视觉中的应用
      15.1  神经网络结构搜索
        15.1.1  利用强化学习解决NAS
        15.1.2  其他前沿方法
      15.2  目标检测和跟踪中的优化
        15.2.1  强化学习与目标检测
        15.2.2  强化学习与实时目标跟踪
      15.3  视频分析
    第16章  强化学习在语言处理中的应用
      16.1  知识图谱系统
      16.2  智能问答系统
        16.2.1  事后目标回放法
        16.2.2  多任务对话系统

      16.3  机器翻译系统
        16.3.1  NMT中奖励的计算
        16.3.2  策略梯度方差处理
    第17章  强化学习在其他领域中的应用
      17.1  医疗健康系统
        17.1.1  动态治疗方案
        17.1.2  重症监护
        17.1.3  自动医疗诊断
      17.2  个性化推荐系统
        17.2.1  策略优化方法
        17.2.2  基于图的对话推荐
      17.3  股票交易系统
        17.3.1  FinRL强化学习框架
        17.3.2  FinRL训练示例