欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • BeamDojo原理与应用实践(构建具身智能系统)
      • 作者:徐奇伟|责编:王金柱
      • 出版社:清华大学
      • ISBN:9787302702207
      • 出版日期:2025/10/01
      • 页数:257
    • 售价:43.6
  • 内容大纲

        本书围绕具身智能背景下的BeamDojo技术体系展开,系统解析其在场景图理解与机器人步态控制中的多维应用,内容覆盖理论原理、系统架构、训练机制、图结构建模、LLM协同设计、应用开发流程等关键模块,构建从基础认知到实战开发的一体化知识框架。本书共10章,前5章依次介绍BeamDojo的研究动机、强化学习核心理论、大语言模型结构、图推理基础及BeamDojo的模块原理,为读者打下系统性认知基础;第6、7章深入剖析结构化推理与BeamDojo-LLM互联机制,形成感知-推理-控制的完整闭环;第8章提供全流程部署与仿真训练指南,针对硬件平台实际适配;最后两章以场景图建模与机器人步态任务为实例,展示从模型构建到行为控制的应用开发路径。
        本书面向机器人研发人员、图神经网络研究者、LLM工程实践者及跨模态推理系统设计者,兼具理论深度与工程实用性,适用于研究机构的工程落地、前沿项目开发及具身智能系统教学场景。
  • 作者介绍

        徐奇伟,毕业于哈尔滨工业大学,博士。现就职于重庆大学,任电气工程学院副教授。长期从事电气工程领域的信息化及智能化方向的研究和应用,有20余年的从业经验,能熟练应用各类科学计算与工程应用软件。作为项目负责人,主持国家级、省部级及企业委托科研项目30余项,具有丰富的工程实践经验。在科技成果产业化方面,已研制出不同型号电力设备并应用在电气行业中。
  • 目录

    第1章  概述
      1.1  跨模态认知智能
        1.1.1  从感知驱动到认知驱动
        1.1.2  Neuro-Symbolic融合模型
        1.1.3  具身智能与行为推理
      1.2  传统行为控制中的劣势分析
        1.2.1  MPC与微分规划:缺乏实时性
        1.2.2  基于轨迹规划:缺乏稳定性
        1.2.3  高自由度约束下的动作空间稀疏性
      1.3  BeamDojo框架的提出
        1.3.1  Polygon足部建模
        1.3.2  稀疏足点奖励的稀疏性问题
        1.3.3  高维动作空间的试错学习
      1.4  BeamDojo与其他技术路线的比较
        1.4.1  Quadruped强化控制与人形控制差异
        1.4.2  主流Sim2Real模型对比
        1.4.3  与PIM、RMA等代表性方法的对比分析
      1.5  本章小结
    第2章  强化学习原理基础
      2.1  马尔可夫决策过程
        2.1.1  状态空间与动作空间定义
        2.1.2  转移概率与折扣因子
        2.1.3  POMDP与部分可观测性建模
      2.2  强化学习中的策略优化
        2.2.1  Policy Gradient与Actor-Critic架构
        2.2.2  GAE架构
        2.2.3  PPO机制
      2.3  奖励函数设计与稀疏奖励问题
        2.3.1  稠密与稀疏奖励的权衡
        2.3.2  多维奖励融合策略
        2.3.3  时间信用分配问题解析
      2.4  强化学习在具身控制中的应用
        2.4.1  双值函数网络结构
        2.4.2  Curriculum Learning在环境中的设计
        2.4.3  Sim2Real中的Domain Randomization策略
      2.5  本章小结
    第3章  大语言模型与BeamDojo融合应用
      3.1  LLM基本架构与预训练机制
        3.1.1  Transformer结构回顾
        3.1.2  自回归语言建模机制
        3.1.3  大规模预训练语料与指令微调技术
      3.2  LLM中的知识对齐与上下文处理
        3.2.1  Prompt Engineering与Embedding Cache
        3.2.2  多轮上下文窗口的滑动机制
        3.2.3  Attention机制中的长序列建模优化
      3.3  多模态融合中的语言表示迁移
        3.3.1  Text-to-Graph嵌入映射方法
        3.3.2  多模态条件下的Representation Alignment
        3.3.3  LLM与视觉感知/图推理模块接口分析
      3.4  LLM在行为逻辑建模中的能力

        3.4.1  CoT推理结构
        3.4.2  ToT在策略规划中的应用
        3.4.3  LLM强化反馈回路(RLHF/CRAFT等)
      3.5  本章小结
    第4章  图结构知识建模与推理基础
      4.1  图神经网络原理
        4.1.1  图的表示方法与邻接矩阵
        4.1.2  GCN/GAT/GIN基本原理对比
        4.1.3  图聚合操作中的权重传播机制
      4.2  符号推理与结构逻辑表示
        4.2.1  一阶逻辑与谓词结构建模
        4.2.2  前向/后向链推理机制
      4.3  Scene Graph与程序图的建模方法
        4.3.1  视觉场景图构建流程
        4.3.2  Graph-Based Reasoning在视觉任务中的应用
      4.4  图推理任务中的训练策略
        4.4.1  图表示学习损失函数设计
        4.4.2  异构图与多类型边的处理
        4.4.3  图中的路径选择与状态更新机制
      4.5  本章小结
    第5章  BeamDojo框架原理详解
      5.1  框架整体结构与模块解构
        5.1.1  感知输入:LiDAR建图与本体观测编码
        5.1.2  策略输出:足部关节控制与轨迹预测
        5.1.3  双阶段训练结构解析
      5.2  Foothold Reward设计机制
        5.2.1  多点采样下的接触区域检测
        5.2.2  稀疏区域惩罚函数设计
        5.2.3  连续可微奖励设计的优势分析
      5.3  双价值函数网络结构
        5.3.1  价值函数解耦稀疏/稠密奖励
        5.3.2  优势值归一化融合策略
        5.3.3  策略更新中的裁剪与偏移控制
      5.4  两阶段训练机制设计与实证
        5.4.1  软动态约束训练阶段
        5.4.2  硬动态约束精调阶段
      5.5  本章小结
    第6章  结构化推理与策略调度系统
      6.1  状态-动作-后效逻辑表示方法
        6.1.1  STRIPS与PDDL状态建模
        6.1.2  动作前置条件与后效应用
      6.2  多步推理中的路径搜索方法
        6.2.1  Beam Search在图空间中的路径控制
        6.2.2  BFS/DFS与策略选择的融合
      6.3  局部-全局决策协同策略
        6.3.1  Low-Level Controller与High-Level Planner分离设计
        6.3.2  中间状态预测与可行性修正
      6.4  本章小结
    第7章  BeamDojo与LLM的互联与协同
      7.1  Prompt-to-Graph接口协议

        7.1.1  指令解析生成控制目标图谱
        7.1.2  图结构嵌入的语言映射机制
        7.1.3  Prompt压缩与Slot融合策略
      7.2  模型之间的接口集成机制
        7.2.1  Actor输出与LLM指导策略的同步调度
        7.2.2  动作计划补全与策略修复反馈
        7.2.3  高级逻辑推理模块的API定义方式
      7.3  多智能体任务分工与上下文融合
        7.3.1  MCP上下文协调协议与BeamDojo兼容设计
        7.3.2  Token Buffer中的Agent消息传递机制
        7.3.3  LLM+BeamDojo的多模态嵌套控制方案
      7.4  Sim2LLM现实接口映射机制
        7.4.1  观测-指令-动作的数据闭环结构
        7.4.2  LLM辅助策略调优的训练管道
        7.4.3  强化学习数据反馈到大模型微调流程
      7.5  本章小结
    第8章  BeamDojo逐模块实现
      8.1  环境搭建与依赖配置
        8.1.1  PyTorch与Isaac Gym环境配置
        8.1.2  Unitree G1机器人仿真适配
        8.1.3  LiDAR建图模块部署
      8.2  模型训练与数据记录
        8.2.1  Foothold奖励模块自定义训练
        8.2.2  多种Terrain配置的脚本管理
      8.3  策略评估与参数调试
        8.3.1  Foothold Error指标计算方法
        8.3.2  Terrain Difficulty Level的分级定义
        8.3.3  Success Rate与Traversal Rate动态对比分析
      8.4  Sim2Real部署流程与接口封装
        8.4.1  LiDAR-Inertial Odometry融合定位实现
        8.4.2  Elevation Map构建与插值优化
        8.4.3  Deployment环境中的ROS/PD控制接口封装
      8.5  本章小结
    第9章  基于BeamDojo框架与Issac平台的场景图建模实战
      9.1  基于知识图谱的路径建模
        9.1.1  实体图构建与子图抽取
        9.1.2  Multi-Hop路径规划
        9.1.3  动态路径回溯与答案置信计算
      9.2  BeamDojo驱动的推理式场景图建模
        9.2.1  用行为逻辑重构问题理解流程
        9.2.2  Question-to-Graph的Prompt图映射
        9.2.3  Reward-Based Search策略生成答案路径
      9.3  多模态场景图中的集成架构
        9.3.1  图像-文本-语义联动处理流程
        9.3.2  图谱关系匹配中的LLM纠错机制
        9.3.3  Answer Reasoning Trace的可解释性输出设计
      9.4  本章小结
    第10章  基于Unitree G1平台的机器人步态决策算法实战
      10.1  场景图理解任务
        10.1.1  实景图转场景图的流程

        10.1.2  多目标间的关系约束建模
        10.1.3  图结构约束下的推理路径生成
      10.2  行为生成与机器人逻辑接口
        10.2.1  SceneGraph-to-Plan映射规则
        10.2.2  Relation-Aware动作规划器实现
        10.2.3  动作约束图与动作生成器融合机制
      10.3  BeamDojo在步态控制中的应用
        10.3.1  任务感知与高程图动态注入
        10.3.2  自定义精细的足部奖励函数
        10.3.3  在稀疏支撑环境下的稳定性保持策略
      10.4  综合案例:从Scene Graph到任务执行
        10.4.1  场景图理解、导航规划与步态控制流程全链路实战
        10.4.2  行为执行结果评估与误差分析方法
        10.4.3  完整系统实现
      10.5  本章小结