欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 基于深度强化学习的多智能体协同算法关键技术研究/博士论丛
      • 作者:王思颖//陈文宇//刘峤|责编:谢晓辉
      • 出版社:电子科大
      • ISBN:9787577015774
      • 出版日期:2026/02/01
      • 页数:211
    • 售价:34.4
  • 内容大纲

        本书以提高多智能体强化学习协同算法的训练效率为核心,依托多智能体粒子环境和星际争霸II游戏环境等具体的应用场景,围绕着环境信息利用不充分、模型训练时序差分误差较大、值分解方法表示能力不全以及离线数据集的分布偏移这四个导致训练低效的关键问题展开研究。
        本书主要内容包括:1.针对多智能体协同算法在环境中信息利用不充分的问题,从图网络角度出发提出一种新的基于协同图信息补全的多智能体协同算法;2.提出一种新的基于自适应正则Anderson加速的多智能体协同算法;3.提出一种新的面向值函数分解的多智能体协同策略融合算法;4.提出一种面向离线多智能体强化学习的基于噪声注入的自监督式离线数据状态表征增强算法。
        本书适合相关领域研究人员阅读参考。
  • 作者介绍

  • 目录

    第一章  绪论
      1.1  研究内容的背景与意义
      1.2  多智能体强化学习协同算法的研究现状
        1.2.1  基于通信交流决策的多智能体强化学习研究现状
        1.2.2  基于自主信息决策的多智能体强化学习研究现状
      1.3  多智能体强化学习面临的关键问题
        1.3.1  环境信息利用不充分的问题
        1.3.2  模型更新时序差分误差较大的问题
        1.3.3  值分解方法表示能力不全的问题
        1.3.4  离线数据的分布偏移的问题
      1.4  主要贡献与创新
      1.5  本书结构安排
    第二章  相关研究理论与基础
      2.1  强化学习基础理论
      2.2  强化学习基本算法
        2.2.1  基于值函数的深度强化学习
        2.2.2  基于Actor-Critic的深度强化学习
      2.3  多智能体强化学习基础概念
      2.4  多智能体强化学习基本算法
        2.4.1  完全独立式学习的多智能体算法
        2.4.2  集中式学习-分布式执行的多智能体算法
      2.5  强化学习算法与各章节的对应关系
      2.6  本章小结
    第三章  基于协同图信息增强的多智能体协同算法
      3.1  引言
      3.2  多智能体集中式训练算法基础
        3.2.1  中心化训练-分布式执行框架
        3.2.2  图卷积神经网络和注意力机制
      3.3  基于协同图信息增强的多智能体协同算法
        3.3.1  算法总览
        3.3.2  基于注意力机制的归因模块
        3.3.3  简化加权图模块
        3.3.4  AWGmix的具体实现步骤
      3.4  实验与结果分析
        3.4.1  实验环境介绍与参数设置
        3.4.2  对比评估结果
        3.4.3  消融实验
      3.5  本章小结
    第四章  基于自适应正则Anderson加速的多智能体协同算法
      4.1  引言
      4.2  Dec-POMDP与CTDE训练框架
        4.2.1  Dec-POMDP
        4.2.2  CTDE框架与相关算法
        4.2.3  Anderson加速及其在值迭代中的应用
      4.3  多智能体场景中的RA3方法
        4.3.1  联合状态-动作值函数中的AA
        4.3.2  AA中的自适应正则化
        4.3.3  RA3在多智能体强化学习算法中的具体应用步骤
      4.4  实验与结果分析
        4.4.1  实验环境介绍与参数设置

        4.4.2  对比评估结果
        4.4.3  消融实验
      4.5  本章小结
    第五章  基于值分解信息融合的多智能体协同算法
      5.1  引言
      5.2  马尔可夫博弈与值函数分解原理
        5.2.1  马尔可夫博弈
        5.2.2  值函数分解
      5.3  值函数分解融合方法
        5.3.1  值函数表达能力不受限的值分解方法
        5.3.2  值函数表达能力受限的值分解方法
        5.3.3  VDF方法中的策略拓展
        5.3.4  VDF方法的具体实施步骤
      5.4  实验与结果分析
        5.4.1  实验环境介绍与参数设置
        5.4.2  对比评估结果
        5.4.3  消融实验
      5.5  本章小结
    第六章  基于噪声注入的自监督式离线数据状态表征增强方法
      6.1  引言
      6.2  自监督式的离线强化学习相关原理
        6.2.1  离线强化学习
        6.2.2  强化学习范式中的自监督学习
        6.2.3  基于噪声注入的特征变换方式
      6.3  基于噪声注入的离线多智能体状态特征增强方法
        6.3.1  状态信息增强的必要性
        6.3.2  基于噪声注入的自监督式状态信息增强方法
        6.3.3  基于噪声注入的状态信息增强算法应用步骤
      6.4  实验与结果分析
        6.4.1  实验环境介绍与参数设置
        6.4.2  对比评估结果
        6.4.3  消融实验
      6.5  本章小结
    第七章  总结与展望
      7.1  研究总结
      7.2  工作展望
    后记
    参考文献