
具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大型语言模型(LLM)等技术的成熟,具身人工智能已成为学术界和工业界的领先领域,其应用领域涵盖机器人、医疗保健、交通运输和制造业。然而,大多数研究都集中在通常假设静态封闭环境的单智能体系统上,而现实世界的具身人工智能必须应对更为复杂的场景。在这样的环境中,智能体不仅必须与周围环境交互,还必须与其他智能体协作,这就需要复杂的机制来实现自适应、实时学习和协作解决问题。尽管人们对多智能体系统的兴趣日益浓厚,但现有研究范围仍然狭窄,通常依赖于简化模型,无法捕捉多智能体具身人工智能动态开放环境的全部复杂性。此外,尚无全面的综述系统地回顾该领域的进展。随着具身人工智能的快速发展,加深对多智能体具身人工智能的理解对于应对实际应用带来的挑战至关重要。为了填补这一空白并促进该领域的进一步发展,本文回顾了当前的研究现状,分析了关键贡献,并指出了挑战和未来方向,旨在为指导该领域的创新和进步提供见解。
论文pdf: https://arxiv.org/pdf/2505.05108
引言
具身人工智能 (Embodied AI) [140, 39] 是人工智能 (AI)、机器人技术和认知科学交叉领域的跨学科研 究领域,旨在使机器人具备感知、计划、决策和行动的能力,从而使它们能够与环境互动并积极适应环境。 这个概念最早是由艾伦·图灵在 1950 年代提出的,他探索了机器如何感知世界并做出相应的决定 [178]。后 来,在 1980 年代,包括 Rodney Brooks 在内的研究人员重新考虑了符号 AI,认为智能应该通过与环境的主 动交互而不是被动的数据学习来实现,从而为具身 AI 奠定了基础 [18]。近年来,在深度学习 (DL)、强化 学习 (RL) 和其他技术进步的推动下,具身 AI 取得了重大进展,特别是通过应用大型预训练模型,例如 大型语言模型

具身人工智能的主要挑战是,智能智能体必须同时具备强大的感知和决策能力,以及通过与动态和不断发展 的环境的持续交互来不断学习和适应的能力[148]。从历史上看,以图灵机理论为代表的早期符号方法试图 通过符号表示和逻辑推理来实现智能。然而,这些符号方法在有效解决感知和行动之间所需的动态交互方面 存在不足[128]。为了克服这些限制,Rodney Brooks 提出了“感知-行动循环”的概念,该概念认为智能是通 过代理与环境的积极和持续互动而自然产生的,从而为现代具身人工智能研究奠定了基础 [17]。顺着这种思 路,出现了模仿学习 (IL) 等学习范式,通过模仿加速了学习过程
多代理设置与单代理场景有着根本的不同,因为代理必须同时优化其各个策略并管理多个实体之间的复杂交 互。具体来说,多智能体交互带来了挑战,例如由于扩大的联合行动空间和扩大的规划视野而导致的问题复 杂性呈指数级增长,智能体之间分散的信息导致的部分可观察性,并发智能体学习过程产生的非平稳性,以 及与准确分配个人贡献相关的困难[244,231,2]。尽管单代理具身 AI 取得了重大进展,但多代理环境中的具 身 AI 研究仍处于起步阶段。目前的研究通常采用成功的单药

ODS 或采用 RL 和 LLM 等已建立的框架。最近,明确为具身多智能体场景量身定制的专业基准的开发已经 开始,旨在支持这一不断发展领域的系统性进步。虽然广泛的文献综述已经彻底探讨了相关领域,包括具身 人工智能[140,108]、多智能体强化学习(MARL)[244,2]和多智能体合作[231,134],但明确关注具身多智能 体人工智能的全面调查仍然有限。例如,文献 [172] 系统地总结了具身 MARL 的最新进展,涵盖社会学习、 紧急通信、Sim2Real 迁移、分层方法和安全考虑等主题。文献 [202] 通过回顾生成基础模型与具身多智能体 系统 (MAS) 的集成,提出了协作架构的分类法,并讨论了 p 认识到多智能体嵌入式 AI 在解决现实世界环境中复杂协调任务方面的巨大潜力,本文对这一新兴研究领域 的最新进展进行了系统和全面的回顾。如图 1 所示,我们首先介绍了基本概念,包括 MAS、RL 和相关方法 。接下来,我们讨论了单代理上下文中的具身 AI,清楚地概述了核心定义、主要研究方向、代表性方法和 已建立的评估基准。在此基础上,我们将讨论扩展到多智能体具身 AI,重点介绍了广泛采用的技术,并研 究了最近专为多智能体场景设计的突出基准。最后,我们总结了本综述的主要贡献,对多智能体具身人工智 能的未来发展提出了有见地的观点,旨在刺激这一有前途且快速发展的进一步研究和创新
二、先前知识
在本节中,我们将介绍支撑具身 AI 的核心技术,从具身 AI 本身的正式定义开始。我们还定义了 MAS 的概 念
2.1 具身智能
具身人工智能(图 2)是指一类配备物理体的智能代理,使它们能够通过持续交互感知、作和适应环境 [108 ]。具身人工智能的概念根源可以追溯到 1950 年代艾伦·图灵的早期命题,该命题表明真正的智能必须来自 感官和运动体验,而不是纯粹的符号计算 [178]。这一概念在 1980 年代通过具身认知理论进一步正式化,该 理论认为认知本质上是由主体的物理形式和与世界的互动塑造的 [18]。与依赖于抽象推理或从静态数据集中 被动学习的传统 AI 范式相比,具身 AI 强调现实世界的交互作为学习和决策的基础。

在系统层面,具身 AI 架构通常由三个紧密集成的组件组成:感知、认知和行动。代理使用物理传感器从他 们的环境。这些感官数据由支持推理、解释和规划的认知模块处理。然后,通过执行器将生成的决策转化为物理 作,执行器会修改环境并启动新的感知输入。这些过程形成了一个连续的反馈循环,称为感知-认知-行动循 环[15],这使得具身代理能够根据环境反馈动态调整其行为。具身 AI 范式的核心是三个基本属性,它们控 制着智能如何在物理代理中出现和发展:
- Embodiment Embodied AI 植根于具有在现实世界中感知、移动和行动能力的物理代理。这些代理有 多种形式,包括人形机器人、四足动物、自主地面车辆和空中无人机。身体不仅是主体与其环境互 动的媒介,也是约束和实现其行为库的结构基础。身体的形态、感觉运动保真度和驱动共同定义了 代理可能交互的范围和粒度,塑造了其所处智能的范围。
- 交互性 建立在这种物理基础上,具身智能通过与周围环境的持续、闭环互动而出现。代理从第一人 称视角作,参与感知、决策和行动的动态循环。每种行为不仅对环境刺激做出反应,还会改变未来 的感官输入,形成一个支持自适应学习的丰富反馈循环。通过这种持续的参与,代理完善其策略, 获得特定于任务的能力,并在不同环境中泛化行为,从而在真实场景中实现稳健的、上下文感知的 性能。
- 智能提升 具身 AI 的发展特点是能够在认知和行为方面不断改进。这种进步越来越多地通过大规模 多模态模型的整合来实现,这些模型赋予代理语义理解、指令跟随和上下文推理。这些模型有助于 小样本学习、上下文适应和跨任务的知识转移。当代理与其环境交互时,它会逐渐调整其感知输入 、决策过程和物理行动,从而随着时间的推移实现即时任务成功和自主性、适应性和泛化的持续增 长。
生成模型的最新进展,特别是LLM [250],进一步扩展了具身代理的认知能力。通过利用其强大的推理和泛 化能力,LLM 使具身系统能够理解语言指令,将语义知识建立在物理体验中,并执行零镜头或少镜头适应 。这些发展加速了具身人工智能在机器人、自动驾驶、智能制造和医疗保健等现实世界领域的部署[114]。 重要的是,具身 AI 不仅仅是强大的 AI 模型与机器人平台的集成;相反,它代表了一种协同进化的范式,其 中智能算法(“大脑”)、物理结构(“身体”)和动态环境共同进化以支持适应性的、具身的智能。
2.2 多智能体系统
MAS 由多个自主代理组成,每个代理都能够感知其环境,做出独立决策并相应地执行作 [36]。与传统的集 中控制范式相比,MAS 采用分散式架构,其中代理在本地交互,同时实现全球协调。这种分散式设计在可 扩展性、容错性和适应性方面具有显著优势,特别是在动态、部分可观测或非平稳环境中。MAS 的核心属 性包括自治、去中心化、代理间通信、本地信息访问和动态适应性。这些功能共同使 MAS 能够处理各种复 杂的高维任务,这些任务需要并行传感、分布式规划和实时协调,在机器人、自动驾驶和智能基础设施等领域有突出应用。
近年来,在基于学习的方法的融合和神经架构的进步的推动下,MAS 研究发生了重大的范式转变。这种转 变的最前沿是 MARL [2],它提供了一个强大的框架,使代理能够通过交互学习复杂的行为。使用分散执行 的集中训练 (CTDE)、参数共享、信用分配和对手建模等技术已被广泛采用,以解决包括非平稳性、协调 性和部分可观察性在内的核心挑战。作为对这些进步的补充,LLM 的集成为 MAS 开辟了新的功能。支持 L LM 的代理可以访问大量的预训练知识,通过自然语言进行交流,并参与高级推理和抽象,这些功能超越了 传统策略驱动系统的限制。因此,强化学习和基础模型的融合正在重塑 MAS 的格局
2.3 最优控制



2.5 分层学习
分层学习是一种学习范式,它将学习过程组织成多个抽象层次,较高层次负责设定抽象目标或意图,而较低 层次则专注于执行更具体、更细粒度的子任务(参见图 6)。这种分层结构使模型能够在不同的粒度级别上 运行,从而通过将复杂任务分解为更简单、可管理的组件来提高解决复杂任务的效率和可扩展性 [138]。 分层学习的核心过程通常包括两个阶段:低级策略学习和高级策略学习。低级策略学习旨在掌握基本的子任 务,通常使用传统的控制方法(如 MPC)[162, 46, 41]或通过端到端 RL [217, 96] 实现。
相比之下,高 级策略学习负责协调所学的低级技能以实现更复杂的目标。这通常是通过 RL 或与 LLM 一起规划来实现的 。在基于 RL 的高级策略学习中,作空间被定义为一组学习的低级策略。然后使用来自环境的奖励信号训练 参数化的高级策略,以有效地选择和排序这些低级技能[217,96]。相比之下,基于 LLM 的高级策略学习通常 涉及提供任务目标和可用的低级策略集作为 LLM 的输入,然后 LLM 通过以下方式直接生成结构化计划
2.6 模仿学习


2.7 生成模型
生成模型构成了机器学习的基础范式,其中心目标是捕获训练数据的基础分布,以生成具有相似特征的新样 本。这些模型已在视觉、语言和多模态学习等领域得到广泛应用。近年来,LLM 和 VLM 等大规模生成模 型的出现极大地推动了该领域的发展。他们的成功在很大程度上归功于强大的泛化能力、海量数据集的可用 性和可扩展的架构。这些模型的核心是几个关键的架构框架,包括 Transformers [180]、扩散模型 [69],以及 最近的状态空间模型 (SSM),如 Mamba [59]。 其中,Transformer 架构在彻底改变序列建模方面发挥了关键作用。Transformers 最初被提议用于机器翻译, 它通过引入一种基于注意力的机制来消除递归或卷积的需要,该机制使序列中的每个元素都能够直接关注其 他每个元素(参见图 8(a))。这种设计有助于高效的并行计算,并允许模型捕获全局上下文依赖关系。 核心注意力机制在数学上定义为:




3.4 基准测试
尽管 emboded agents 是为现实世界中的交互式任务而设计的,但基准测试在标准化性能测量、指导研究重点 和降低实际测试成本方面仍然发挥着至关重要的作用。近年来,嵌入式 AI 基准测试的开发取得了长足的进 步。我们在表 2 中总结了几个具有代表性的示例,并在图 14 中进行了介绍。列出的基准包括
- ALFRED [157] 是一个基准,旨在评估具身代理通过一系列物理交互来接地和执行自由形式的自然 语言指令的能力。它基于 AI2-THOR 模拟器构建,包括 120 个视觉和功能不同的家庭场景,其中代 理的任务是完成涉及导航、对象作和不可逆状态变化的目标。这些任务涵盖 7 类家庭活动,涉及 58 种不同的对象类型。为了支持学习和评估,该数据集提供了 25743 个人工编写的指令以及 8055 个 专家演示。代理从以自我为中心的 RGB-D 输入中感知环境,并使用一组预定义的 13 个离散低级动 作进行作。交互目标是通过像素级掩码定义的,
- RoboTHOR [34] 是一个用于具体 AI 的模拟到真实平台,提供成对的模拟和物理环境,旨在实现一 致的跨域评估。它包括 75 个训练和验证场景,以及 24 个保留的测试场景(14 个用于测试开发,10 个用于测试标准),所有这些都由支持灵活重新配置和扩展的模块化资源库构建而成。代理通过统 一的 AI2-THOR API 与环境交互,并且可以远程部署在 LoCoBot 机器人上,其噪声动态与模拟中的 机器人紧密匹配。
- RobustNav [25] 是一个基准框架,用于评估隐含导航代理在现实环境和传感器损坏下的鲁棒性。它 通过在 15 个验证场景中引入 7 种视觉损坏(例如,运动模糊、相机裂纹、低光照)和 3 种动态损 坏(例如,运动偏差、漂移、电机故障)来扩展标准 PointGoal 和 ObjectGoal 导航任务。根据成功 率和 SPL 对代理进行评估,包括固定的无监督“校准预算”之前和之后。基准强调了腐败下性能的 显著下降,强调了稳健感知、多模态传感和自适应政策学习的重要性。
- 行为 [164] 是在虚拟、交互式环境中评估日常家庭活动中具身 AI 代理的基准。它使用基于谓词逻辑 的语言定义了 100 种真实、多样和复杂的杂务,并支持 iGibson 2.0 中与场景无关的无限实例化。基 准包括 500 个人类 VR 演示,并提供评估指标,例如成功分数、任务效率和以人为本的绩效。所有 代码、任务定义和数据都是公开可用的,以促进在具身 AI 中进行可重现的研究。




