多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式，以使其更加互动化。目前，这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中，有助于模型处理和解释视觉和上下文数据的能力，这是创建更复杂且具备上下文感知的AI系统的关键。例如，一个能够感知用户动作、人类行为、环境对象、音频表达以及场景整体情绪的系统，可以用于指导代理在特定环境中的响应行为。

Figure 1: Overview of an Agent AI system that can perceive and act in different domains and applications.

图1：Agent AI系统的概述，该系统可以在不同领域和应用中进行感知和行动。Agent AI正逐渐成为迈向通用人工智能（AGI）的一条有前景的途径。Agent AI的训练展示了其在物理世界中实现多模态理解的能力。通过利用生成式AI和多个独立的数据源，该系统提供了一个与现实无关的训练框架。在跨现实数据的训练下，大型基础模型可以应用于物理和虚拟世界中的代理及动作相关任务。我们展示了一个能够在不同领域和应用中感知和行动的Agent AI系统的总体概览，并展望其作为一种基于代理范式的AGI发展路径。

为了加速基于代理的多模态智能研究，我们将“Agent AI”定义为一类能够感知视觉刺激、语言输入和其他与环境相关的数据，并能够生成有意义的具身动作的交互系统。特别是，我们探讨了通过整合外部知识、多感官输入和人类反馈，提升代理基于下一步具身动作预测的系统。我们认为，通过在有依据的环境中开发具身AI系统，可以减轻大型基础模型产生的“幻觉”以及生成不符合环境的输出的倾向。新兴的Agent AI领域涵盖了多模态交互中更广泛的具身和代理层面。除了物理世界中的代理行动和交互之外，我们还设想一个未来，人们可以轻松创建任何虚拟现实或模拟场景，并与其中具身的代理互动。

1 引言
1.1 动机

历史上，AI 系统在 1956 年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的人工生命体。受到这一定义的启发，明斯基（Minsky）在 MIT 团队于 1970 年开发了一种机器人系统，称为“复制演示”（Copy Demo），该系统能够观察“积木世界”场景并成功重建观察到的多面体积木结构。该系统包含了观察、规划和操作模块，揭示了这些子问题的高度挑战性，表明还需要进一步的研究。

AI 领域逐渐分化为多个专业化的子领域，这些子领域在解决各种问题方面独立取得了巨大进展，但过度简化模糊了 AI 研究的总体目标。

为了超越现状，有必要回归由亚里士多德整体论驱动的 AI 基础。幸运的是，近期大语言模型（LLM）和视觉语言模型（VLM）的革命，使得创建符合整体理想的新型 AI 代理成为可能。抓住这一机会，本文探讨了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型，并探讨使用 LLM 和 VLM 完成这种整体合成的可能性。在探索中，我们还重新审视了基于亚里士多德的“最终原因”的系统设计，即“系统存在的目的”，这一点在以往的 AI 开发中可能被忽视。

随着强大预训练的 LLM 和 VLM 的出现，自然语言处理和计算机视觉领域迎来了复兴。LLM 现在展现出解读现实世界语言数据细微差别的强大能力，往往达到甚至超越人类专业水平（OpenAI，2023）。最近，研究人员表明，LLM 可以在各种环境中扩展为代理，当与领域特定的知识和模块结合时，可以执行复杂的操作和任务（Xi 等人，2023）。这些情境通过复杂推理、对代理角色及其环境的理解，以及多步骤的规划，测试了代理在其环境约束下做出细致决策的能力（Wu 等人，2023；Meta 基础 AI 研究（FAIR）外交团队，2022）。

基于这些初步努力，AI 社区正处于重要的范式转变的前沿，即从创建用于被动、结构化任务的 AI 模型，转变为能够在多样和复杂环境中承担动态代理角色的模型。在这一背景下，本文探讨了将 LLM 和 VLM 用作代理的巨大潜力，特别强调了具备语言能力、视觉认知、上下文记忆、直觉推理和适应性结合的模型。将 LLM 和 VLM 用作代理，特别是在游戏、机器人和医疗等领域，不仅提供了最先进 AI 系统的严格评估平台，还预示了代理中心 AI 将在社会和行业中带来的变革性影响。当这些代理模型被充分利用时，可以重新定义人类体验并提升操作标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的挑战交织在一起，不仅是技术的，还有伦理的挑战，我们将在第 11 节中详细阐述。我们还深入探讨了 Agent AI 各子领域的重叠区域，并在图 1 中展示了它们的相互关联。

1.2 背景

接下来，我们将介绍支持 Agent AI 概念、理论背景和现代实现的相关研究论文。

大规模基础模型：大语言模型（LLM）和视觉语言模型（VLM）正在推动开发通用智能机器的努力（Bubeck 等，2023；Mirchandani 等，2023）。尽管这些模型是通过大量文本语料库进行训练的，但它们卓越的问题解决能力不仅限于传统的语言处理领域。LLM 有潜力应对此前被认为是人类专家或特定领域算法专属的复杂任务，从数学推理（Imani 等，2023；Wei 等，2022；Zhu 等，2022）到专业法律问题的解答（Blair-Stanek 等，2023；Choi 等，2023；Nay，2022）。最近的研究表明，LLM 可以用于为机器人和游戏 AI 生成复杂的计划（Liang 等，2022；Wang 等，2023a,b；Yao 等，2023a；Huang 等，2023a），这是 LLM 作为通用智能代理的重要里程碑。

具身 AI：许多研究利用大语言模型（LLM）进行任务规划（Huang 等，2022a；Wang 等，2023b；Yao 等，2023a；Li 等，2023a），尤其是 LLM 的大规模领域知识和零样本的具身能力，以执行复杂的任务规划和推理。最新的机器人研究也采用 LLM 进行任务规划（Ahn 等，2022a；Huang 等，2022b；Liang 等，2022），通过将自然语言指令分解为子任务序列（可以是自然语言形式或 Python 代码），然后使用低层控制器来执行这些子任务。此外，它们还结合环境反馈以改进任务表现（Huang 等，2022b；Liang 等，2022；Wang 等，2023a；Ikeuchi 等，2023）。

交互式学习：专为交互式学习设计的 AI 代理通过结合机器学习技术和用户互动来运行。起初，AI 代理在一个大型数据集上进行训练，数据集的内容根据代理的预期功能有所不同。例如，设计用于语言任务的 AI 会接受大量文本数据的训练。训练过程中使用了深度学习等机器学习算法，使 AI 能识别模式、做出预测并基于训练数据生成响应。AI 代理还可以从用户的实时互动中学习，这种交互式学习方式主要有以下几种：1) 基于反馈的学习：AI 根据用户的直接反馈调整其响应（Li 等，2023b；Yu 等，2023a；Parakh 等，2023；Zha 等，2023；Wake 等，2023a,b,c）。例如，当用户纠正 AI 的回答时，AI 会利用这些信息改进未来的响应（Zha 等，2023；Liu 等，2023a）。2) 观察学习：AI 通过观察用户互动进行隐性学习。例如，如果用户频繁提出类似的问题或以某种方式与 AI 互动，AI 可能会调整其响应以更好地适应这些模式。这种方式使 AI 代理能够理解和处理人类语言、多模态设置、跨现实情境的解释，并生成用户的响应。随着用户互动和反馈的增多，AI 代理的性能通常会不断提升。此过程通常由人类操作员或开发者监督，以确保 AI 学习得当，不会产生偏见或错误模式。

1.3 概述

多模态代理 AI（Multimodal Agent AI，MAA）是一类基于多模态感知输入理解而生成有效动作的系统。随着大语言模型（LLM）和视觉语言模型（VLM）的发展，许多 MAA 系统在从基础研究到应用的各个领域中不断涌现。尽管这些研究领域通过结合各自领域的传统技术（如视觉问答和视觉导航）迅速发展，它们在数据收集、基准测试和伦理视角方面具有共同的关注点。

本文着眼于 MAA 的一些代表性研究领域，包括多模态、游戏（VR/AR/MR）、机器人和医疗健康，旨在提供这些领域中普遍关注问题的全面知识。预计的学习成果包括：

•MAA 概述：深入探讨其原理和在当代应用中的作用，帮助研究人员全面了解其重要性和用途。

•方法学：展示 LLM 和 VLM 如何增强 MAA 的具体例子，通过游戏、机器人和医疗健康等案例研究来说明。

•性能评估：提供评估 MAA 有效性和泛化能力的相关数据集的指导。

•伦理考虑：讨论部署代理 AI 所带来的社会影响和伦理问题，强调负责任的开发实践。

•新兴趋势和未来方向：分类讨论各个领域的最新发展并展望未来方向。

基于计算的动作和通用代理（GAs）：通用代理在许多任务中都非常有用。为了让通用代理对用户真正有价值，它需要能够自然地互动，并适应各种上下文和模态。我们致力于培育一个充满活力的研究生态系统，在代理 AI 社区中创造共享的身份感和目标。多模态代理 AI（MAA）在包括人类输入在内的各种上下文和模态中具有广泛的应用潜力。因此，我们相信该领域可以吸引多样化的研究人员群体，促进动态的代理 AI 社区和共同目标的形成。在学术界和产业界的知名专家的带领下，我们希望这篇论文能够成为一次互动且充实的体验，通过代理指导、案例研究、任务环节和实验讨论，为所有研究人员提供全面且富有吸引力的学习体验。

本文旨在提供关于代理 AI 领域当前研究的一般性和全面性的知识。为此，本文的余下内容组织如下：第2部分概述了代理 AI 如何通过与相关新兴技术，特别是大型基础模型的集成而受益。第3部分描述了我们为代理 AI 训练提出的新范式和框架。第4部分提供了广泛应用于代理 AI 训练的各种方法概览。第5部分对各类代理进行了分类和讨论。第6部分介绍了代理 AI 在游戏、机器人和医疗健康领域的应用。第7部分探讨了研究界在开发一种适用于多种模态和领域，并能够实现模拟到现实过渡的通用代理 AI 方面的努力。第8部分讨论了代理 AI 的潜力，不仅依赖于预训练的基础模型，还通过与环境和用户的互动不断学习和自我改进。第9部分介绍了我们为多模态代理 AI 训练设计的新数据集。第11部分讨论了代理 AI 的伦理问题、局限性和社会影响这一热点话题。

2 代理 AI 集成

基于大型语言模型（LLM）和视觉语言模型（VLM）的基础模型，在具身 AI 领域的表现仍有限，特别是在理解、生成、编辑和在未见过的环境或场景中互动方面（Huang 等，2023a；Zeng 等，2023）。因此，这些限制导致了 AI 代理输出的效果不佳。当前的以代理为中心的 AI 建模方法专注于直接可访问和清晰定义的数据（例如世界状态的文本或字符串表示），并通常使用大规模预训练中学习的领域和环境无关的模式来预测每种环境的动作输出（Xi 等，2023；Wang 等，2023c；Gong 等，2023a；Wu 等，2023）。在 Huang 等人（2023a）的研究中，我们通过结合大型基础模型，探索了知识引导的协作和交互式场景生成任务，展示了知识为基础的 LLM 代理能够提升2D和3D场景理解、生成和编辑的表现，并支持人机交互（Huang 等，2023a）。通过集成代理 AI 框架，大型基础模型能够更深入地理解用户输入，形成一个复杂且自适应的人机交互系统。

LLM 和 VLM 的新兴能力在生成 AI、具身 AI、知识增强多模态学习、混合现实生成、文本到视觉编辑、人机交互、以及游戏或机器人任务中的2D/3D模拟中具有不可见的潜力。代理 AI 在基础模型上的最新进展为具身代理的通用智能解锁带来了催化剂。大型动作模型，或代理-视觉-语言模型为具身系统中的计划、问题解决和复杂环境中的学习等通用用途打开了新的可能性。代理 AI 在元宇宙中的进一步测试预示着 AGI 的早期版本的路径。

2.1 无限 AI 代理

AI 代理能够基于其训练和输入数据进行解释、预测和响应。尽管这些能力在不断进步，但重要的是要认识到其限制以及训练数据对其性能的影响。AI 代理系统通常具备以下能力：1) 预测建模：AI 代理可以基于历史数据和趋势预测可能的结果或建议下一步行动。例如，它们可以预测文本的续写、问题的答案、机器人下一步的动作，或场景的解决方案。2) 决策制定：在某些应用中，AI 代理可以基于其推理进行决策。通常，代理会根据最有可能实现特定目标的行动来进行决策。例如，在推荐系统中，代理可以基于对用户偏好的推断来决定推荐的产品或内容。3) 处理歧义：AI 代理通常能够通过推断最可能的解释来处理模糊的输入，但其能力受限于其训练数据和算法的范围。4) 持续改进：尽管有些 AI 代理能够从新数据和互动中学习，但许多大型语言模型在训练后不会持续更新其知识库或内部表示。它们的推理通常仅基于最新的训练数据。

我们在图 2 中展示了增强型交互代理，支持多模态和跨现实的无关集成，并具备一种新兴机制。一个 AI 代理需要为每个新任务收集大量训练数据，这在许多领域可能代价高昂或不可行。在本研究中，我们开发了一种“无限代理”，它可以从通用基础模型（如 GPT-X、DALL-E）中学习并转移记忆信息，从而在物理或虚拟世界中理解场景、生成内容和进行交互式编辑。

Figure 2:The multi-model agent AI for 2D/3D embodied generation and editing interaction in cross-reality

图2：用于跨现实中2D/3D具身生成和编辑交互的多模型代理AI。

这种无限代理在机器人领域的一个应用是 RoboGen（Wang 等人，2023d）。在这项研究中，作者提出了一个自动执行任务生成、环境生成和技能学习循环的流程。RoboGen 旨在将大型模型中嵌入的知识转移到机器人领域。

2.2 基于大型基础模型的代理 AI

最近的研究表明，大型基础模型在生成数据方面起到了关键作用，作为在环境约束下确定代理行为的基准。例如，基础模型在机器人操作（Black 等人，2023；Ko 等人，2023）和导航（Shah 等人，2023a；Zhou 等人，2023a）方面的应用。以 Black 等人的研究为例，他们使用图像编辑模型作为高级规划器，生成未来子目标的图像，从而引导低级策略（Black 等人，2023）。在机器人导航方面，Shah 等人提出了一个系统，使用大型语言模型（LLM）从文本中识别地标，并使用视觉语言模型（VLM）将这些地标与视觉输入关联，从而增强了基于自然语言指令的导航（Shah 等人，2023a）。

——————————————————————————————————————————

篇幅所限，以上仅为摘录，原文下载链接：https://arxiv.org/pdf/2401.03568

更多李飞飞的文章，请关注AI名人堂:https://www.2agi.net/blog/category/ai-celebrity/

🔥 热门文章推荐（2AGI.NET）

天天AI-20250402
作者：2AGI
2025年4月2日
天天AI-20250401
作者：2AGI
2025年4月1日
天天AI-20250328
作者：2AGI
2025年3月28日
天天AI-20250326
作者：2AGI
2025年3月26日
天天AI-20250325
作者：2AGI
2025年3月25日
天天AI-20250321
作者：2AGI
2025年3月21日
天天AI-20250320
作者：2AGI
2025年3月20日
天天AI-20250318
作者：2AGI
2025年3月18日
AI数字人来袭！DeepSeek+蝉镜，打造职场认知类爆款短视频（喂饭教程）
作者：2AGI
2025年3月18日

扫码加入社群，参与讨论

2025最新！斯坦福李飞飞开年巨作！AI Agent综述！80页！多模态智能体！

🔥 热门文章推荐（2AGI.NET）

扫码加入社群，参与讨论

By admin

发表回复取消回复

往期更精彩！

天天AI-20250402

天天AI-20250401

天天AI-20250328

天天AI-20250326

2025最新！斯坦福李飞飞开年巨作！AI Agent综述！80页！多模态智能体！

🔥 热门文章推荐（2AGI.NET）

扫码加入社群，参与讨论

By admin

相关文章

AI数字人来袭！DeepSeek+蝉镜，打造职场认知类爆款短视频（喂饭教程）

天天AI-20250314

DeepSeek+PS 帮你批量制作表情包，躺着挣点小钱儿~

发表回复 取消回复

往期更精彩！

天天AI-20250402

天天AI-20250401

天天AI-20250328

天天AI-20250326

发表回复取消回复