-
内容大纲
强化学习是机器学习领域的一种重要学习手段,是一种从环境状态到行为映射的学习方式,是实现智能系统具有自适应能力、自学习能力的重要途径。本书以强化学习算法与多机器人系统的结合为主要背景,介绍了主要的强化学习算法模型,讨论了它们的原理和优缺点;本书针对多机器人协作,从实际应用问题的角度分析,指出了局部性、不确定性和自组织网络等在学习中的现实意义;本书针对强化学习存在的学习速度慢、计算复杂度高等问题,研究了几种改进算法,并基于MATLAB设计了机器人仿真工具箱,以机器人路径规划与覆盖问题为背景进行了仿真研究。
本书可作为高等院校人工智能、自动化、计算机等相关专业的科研工作者及硕士、博士研究生的参考用书。 -
作者介绍
-
目录
第1章 绪论
1.1 研究背景与意义
1.2 机器学习算法
1.3 多机器人的协调与协作
1.4 不确定环境下的多机器人系统
本章参考文献
第2章 多机器人协作与强化学习模型
2.1 引言
2.2 强化学习原理
2.2.1 强化学习结构
2.2.2 Monte Carlo算法
2.2.3 瞬时差分法
2.2.4 Q-学习
2.2.5 Sarsa算法
2.2.6 Actor-Critic学习算法
2.2.7 R-学习算法
2.3 分布式强化学习模型
2.3.1 分布式强化学习模型
2.3.2 研究现况及存在的问题
2.4 多机器人决策模型
2.4.1 马尔可夫模型
2.4.2 分布式马尔可夫模型
2.4.3 局部可观测的马尔可夫模型
2.4.4 分布式局部可观测的马尔可夫模型
2.4.5 研究现状与存在的问题
2.5 多机器人一致性模型
2.5.1 图论
2.5.2 矩阵论
2.5.3 Gossip一致性算法
2.5.4 离散一致性算法
2.6 强化学习存在问题及改进分析
2.6.1 盲目搜索方式与启发式搜索方式分析
2.6.2 启发式强化学习分析
2.6.3 迁移强化学习分析
2.6.4 事件驱动与机器学习的结合问题分析
2.7 本章小结
本章参考文献
第3章 基于一致性的多机器人强化学习研究
3.1 引言
3.2 基于一致性的DEC-POMDP强化学习框架
3.2.1 强化学习中的局部观测性和不确定性
3.2.2 分布式多机器人强化学习模型
3.2.3 多机器人强化学习一致性设计方案
3.3 基于一致性的多机器人强化学习算法
3.3.1 基于一致性的多机器人强化学习算法
3.3.2 基于一致性的策略化简
3.4 收敛性分析
3.5 仿真实验
3.6 本章小结
本章参考文献
第4章 基于事件驱动的多机器人强化学习研究
4.1 引言
4.2 事件驱动原理
4.3 强化学习的事件驱动模型与触发规则设计
4.3.1 基于事件驱动的强化学习模型
4.3.2 触发规则设计
4.4 基于事件驱动的强化学习
4.4.1 基于事件驱动的强化学习设计
4.4.2 计算资源消耗分析
4.4.3 算法收敛性分析
4.5 仿真实验
4.6 本章小结
本章参考文献
第5章 基于事件驱动的启发式强化学习研究
5.1 引言
5.2 启发式加速强化学习方法
5.2.1 启发式加速Q-学习
5.2.2 基于状态回溯代价分析启发式Q-学习
5.2.3 基于Case Based Reasoning的多机器人启发式加速Q-学习
5.3 基于事件驱动的启发式Q-学习设计
5.3.1 基于事件驱动的HAQL算法
5.3.2 基于事件驱动的HASB-QL算法
5.3.3 基于事件驱动的CB-HAQL算法
5.4 本章小结
本章参考文献
第6章 基于启发式强化学习的多机器人覆盖问题研究
6.1 引言
6.2 基于HAQL的多机器人覆盖算法设计
6.2.1 启发式加速Q-学习机制
6.2.2 事件驱动机制
6.2.3 覆盖算法设计
6.2.4 单机器人覆盖仿真实验与分析
6.2.5 多机器人覆盖仿真实验与分析
6.3 基于HASB-QL的多机器人覆盖算法设计
6.3.1 状态回溯代价分析的强化学习机制
6.3.2 触发函数设计
6.3.3 覆盖算法设计
6.3.4 单机器人覆盖仿真实验与分析
6.3.5 多机器人覆盖仿真实验与分析
6.4 基于CB-HAQL的多机器人覆盖算法设计
6.4.1 案例推理的启发式学习机制
6.4.2 触发函数机制
6.4.3 覆盖算法设计
6.4.4 单机器人覆盖仿真实验
6.4.5 多机器人覆盖算法设计
6.5 本章小结
本章参考文献
第7章 基于强化学习算法的地-空异构多机器人覆盖研究
7.1 引言
7.2 地-空异构多机器人模型设计
7.2.1 环境地图模型搭建
7.2.2 运动学模型搭建
7.2.3 无人驾驶地面小车的观测模型设计
7.2.4 无人飞行器观测模型及通信模型设计
7.3 多机器人覆盖模型搭建
7.3.1 基于POMDP的覆盖模型搭
7.3.2 基于POMDP的覆盖仿真实验
7.3.3 基于DEC-POMDP的覆盖模型搭建
7.3.4 基于DEC-POMDP的覆盖仿真实验
7.4 地-空异构多机器人覆盖算法研究
7.4.1 异构多机器人覆盖分析
7.4.2 基于强化学习的异构多机器人覆盖算法
7.4.3 忽略通信代价的地-空多机器人覆盖
7.4.4 考虑通信策略的地-空多机器人覆盖
7.5 本章小结
本章参考文献
第8章 基于强化学习的机器人路径规划研究
8.1 引言
8.2 基于近似动作空间模型强化学习的移动机器人动态路径规划
8.2.1 动作选择策略分析
8.2.2 基于近似动作模型策略选择的Q-学习算法设计
8.2.3 仿真结果与分析
8.3 基于分层强化学习的移动机器人动态路径规划
8.3.1 分层强化学习结构设计
8.3.2 移动机器人运动学模型
8.3.3 环境信息的获取
8.3.4 静态避障模块设计
8.3.5 动态避障模块设计
8.3.6 仿真实验及结果分析
8.4 硬件平台搭建与实验
8.4.1 机器人硬件平台搭建
8.4.2 机器人软件系统搭建
8.4.3 基于ROS与Gazebo的机器人仿真
8.4.4 实验结果与分析
8.5 本章小结
本章参考文献
第9章 多机器人强化学习工具箱设计
9.1 引言
9.2 多机器人工具箱模块设计
9.2.1 多机器人模块设计
9.2.2 地图环境模块设计
9.3 强化学习函数模块设计
9.3.1 强化学习模块设计
9.3.2 持久层模块设计
9.3.3 仿真场景模块设计
9.4 工具类函数设计
9.4.1 公用工具类函数库设计
9.4.2 可视化界面设计
9.5 本章小结
本章参考文献
第10章 多机器人移动自组织网络研究
10.1 引言
lO.2 自组织网络原理
10.2.1 自组织网络
10.2.2 Ad hoc网络基本结构
10.2.3 Ad hoc网络协议的分类
10.2.4 先验式路由协议与反应式路由协议
10.2.5 链路状态路由协议和距离矢量路由协议
10.2.6 Linux系统协议体系
10.2.7 IPv4
10.3 自组织网络系统的软硬件设计
10.3.1 硬件设计
10.3.2 软件搭载与设计
10.3.3 大规模数据统计处理程序设计
10.3.4 ifstat流量监测
10.4 移动机器人自组织网络系统的软硬件实现
10.4.1 协议实现的可能性和基础框架
10.4.2 OLSR协议的原理
10.4.3 OLSR协议的实现
10.4.4 AODV协议的原理
10.4.5 AODV协议的实现
10.5 实验结果及分析
10.5.1 实验设计策略和相关标准
10.5.2 协议性能验证性实验
10.5.3 AODV协议在不同功能参数配置下的表现
10.5.4 动态拓扑下性能实验
10.5.5 稳定拓扑下的网络吞吐量实验
10.6 本章小结
本章参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
