欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 智能控制与强化学习(先进值迭代评判设计)
      • 作者:王鼎//赵明明//哈明鸣//任进|责编:哈爽
      • 出版社:人民邮电
      • ISBN:9787115633958
      • 出版日期:2024/03/01
      • 页数:236
    • 售价:55.92
  • 内容大纲

        在人工智能技术的大力驱动下,智能控制与强化学习发展迅猛,先进自动化设计与控制日新月异。本书针对复杂离散时间系统的优化调节、最优跟踪、零和博弈等问题,以实现稳定学习、演化学习和快速学习为目标,建立一套先进的值迭代评判学习控制理论与设计方法。首先,对先进值迭代框架下迭代策略的稳定性进行全面深入的分析,建立一系列适用于不同场景的稳定性判据,从理论层面揭示值迭代算法能够实现离线最优控制和在线演化控制。其次,基于迭代历史信息,提出一种新颖的收敛速度可调节的值迭代算法,有助于加快学习速度、减少计算代价,更高效地获得非线性系统的最优控制律。结合人工智能技术,对无模型值迭代评判学习控制的发展前景也进行了讨论。
        本书内容丰富、结构清晰、由浅入深、分析透彻,既可作为智能控制、强化学习、优化控制、计算智能、自适应与学习系统等领域研究人员和学生的参考书,又可供相关领域的技术人员使用。
  • 作者介绍

  • 目录

    第1章  智能评判控制的先进值迭代方法概述
      1.1  引言
      1.2  面向最优调节的值迭代算法
        1.2.1  离散时间HJB方程
        1.2.2  传统值迭代算法
        1.2.3  广义值迭代算法
        1.2.4  集成值迭代算法
        1.2.5  演化值迭代算法
        1.2.6  可调节值迭代算法
      1.3  面向最优跟踪的值迭代算法
        1.3.1  求解稳态控制的值迭代跟踪算法
        1.3.2  无稳态控制的值迭代跟踪算法
      1.4  面向零和博弈的值迭代算法
        1.4.1  离散时间HJI方程
        1.4.2  零和博弈最优调节问题
        1.4.3  零和博弈最优跟踪问题
      1.5  小结
      参考文献
    第2章  基于折扣广义值迭代的线性最优调节与稳定性分析
      2.1  引言
      2.2  问题描述
      2.3  线性系统的折扣广义值迭代算法
        2.3.1  折扣广义值迭代算法推导
        2.3.2  性能分析
      2.4  仿真实验
      2.5  小结
      参考文献
    第3章  基于折扣广义值迭代的非线性最优控制与稳定性分析
      3.1  引言
      3.2  问题描述
      3.3  非线性系统的折扣广义值迭代算法
        3.3.1  折扣广义值迭代算法推导
        3.3.2  性能分析
      3.4  仿真实验
      3.5  小结
      参考文献
    第4章  基于折扣广义值迭代的非线性智能最优跟踪
      4.1  引言
      4.2  问题描述
      4.3  面向智能最优跟踪的广义值迭代
        4.3.1  面向最优跟踪的折扣广义值迭代算法推导
        4.3.2  面向最优跟踪的折扣广义值迭代算法性质
      4.4  基于神经网络的算法实现
      4.5  仿真实验
      4.6  小结
      参考文献
    第5章  基于广义值迭代的新型事件触发最优跟踪控制
      5.1  引言
      5.2  问题描述
      5.3  基于事件的近似最优跟踪控制设计

        5.3.1  广义值迭代算法推导
        5.3.2  事件触发最优控制设计
      5.4  基于神经网络的算法实现
        5.4.1  模型网络
        5.4.2  评判网络
        5.4.3  执行网络
      5.5  仿真实验
      5.6  小结
      参考文献
    第6章  具有先进评判学习结构的广义值迭代轨迹跟踪
      6.1  引言
      6.2  问题描述
        6.2.1  传统代价函数的局限性
        6.2.2  基于新型代价函数的最优跟踪控制
      6.3  基于新型代价函数的广义值迭代算法
        6.3.1  具有新型代价函数的广义值迭代算法推导
        6.3.2  具有新型代价函数的广义值迭代算法性质
      6.4  具有新型代价函数的迭代二次启发式规划算法
        6.4.1  迭代二次启发式规划算法推导
        6.4.2  未知系统动态辨识
        6.4.3  单一神经网络算法实现
      6.5  仿真实验
      6.6  小结
      参考文献
    第7章  融合集成与演化值迭代的非线性零和博弈设计
      7.1  引言
      7.2  问题描述
      7.3  面向零和博弈的广义值迭代算法
        7.3.1  非线性零和博弃的广义值迭代算法推导
        7.3.2  线性零和博弃的广义值迭代算法推导
        7.3.3  面向零和博弈的广义值迭代算法特性
      7.4  零和博弈问题的演化值迭代控制设计
      7.5  仿真实验
      7.6  小结
      参考文献
    第8章  收敛速度可调节的新型值迭代机制
      8.1  引言
      8.2  问题描述
      8.3  新型可调节值迭代框架
        8.3.1  新型可调节值迭代算法推导
        8.3.2  新型可调节值迭代算法性质
        8.3.3  加速值迭代算法的实际设计
      8.4  仿真实验
      8.5  小结
      参考文献
    第9章  融合可调节与稳定值迭代的约束跟踪控制
      9.1  引言
      9.2  问题描述
      9.3  面向最优跟踪的可调节值迭代算法
        9.3.1  约束跟踪问题的可调节值迭代算法推导

        9.3.2  约束跟踪问题的可调节值迭代算法性质
      9.4  稳定值迭代算法及演化控制设计
        9.4.1  约束跟踪问题的稳定值迭代算法推导
        9.4.2  约束跟踪问题的稳定值迭代演化控制
      9.5  仿真实验
      9.6  小结
      参考文献
    第10章  面向非线性零和博弈的演化与增量值迭代
      10.1  引言
      10.2  问题描述
      10.3  面向零和博弈的演化值迭代算法
        10.3.1  零和博弈问题的折扣值迭代算法推导
        10.3.2  零和博弈问题的演化值迭代算法特性
      10.4  面向零和博弈的增量值迭代算法
        10.4.1  考虑历史迭代信息的值迭代算法
        10.4.2  零和博弈最优调节的增量值迭代算法
        10.4.3  零和博弈最优跟踪的增量值迭代算法
      10.5  仿真实验
      10.6  小结
      参考文献
    后记