利用 NVIDIA 项目 GR00T 推进人形机器人视觉和技能发展

机电一体化、控制理论和人工智能的交叉领域提出了多方面的挑战。人形机器人的动力学和控制非常复杂，需要先进的工具、技术和算法才能在运动和操作任务中保持平衡。收集机器人数据和集成传感器也带来了重大挑战，因为人形机器人需要融合复杂的传感器和高分辨率摄像头才能有效感知环境并推理如何实时与周围环境互动。实时处理传感数据和决策的计算需求也需要强大的机载计算机。

开发能够实现自适应机器人行为并促进自然人机交互的技术、工具和机器人基础模型仍然是持续的研究重点。NVIDIA Project GR00T是一项积极的研究计划，旨在使人形机器人生态系统的建造者能够加速这些下一代先进机器人的开发工作。在这篇文章中，我们将讨论用于人形机器人开发的全新 GR00T 工作流程，包括：

GR00T-Gen 用于多样化环境生成

GR00T-Gen 是一种工作流程，用于在OpenUSD中生成机器人任务和模拟环境，以训练通用机器人执行操作、运动和导航。

对于稳健的机器人学习来说，在具有各种物体和场景的多样化环境中进行训练非常重要。在现实世界中生成各种各样的环境通常成本高昂、耗时长，而且大多数开发人员无法实现，因此模拟是一种引人注目的替代方案。

GR00T-Gen 提供逼真且多样化的以人为本的环境，使用大型语言模型 (LLM)和 3D 生成式 AI 模型创建。它拥有超过 2,500 个 3D 资产，涵盖 150 多个对象类别。为了创建视觉上多样化的场景，在模拟中包含多个纹理以进行域随机化。域随机化使经过训练的模型和策略在现实世界中部署时能够有效地推广。

GR00T-Gen 为移动机械手和人形机器人提供跨实体支持，包括开门、按按钮和导航等 100 多项任务。

GR00T-Mimic 用于机器人运动和轨迹生成

GR00T-Mimic 是一种强大的工作流程，可从遥控演示中生成运动数据，用于模仿学习。模仿学习是一种训练机器人的方法，机器人通过观察和复制老师演示的动作来获得技能。此训练过程的一个关键组成部分是可用的演示数据的数量和质量。

为了让类人机器人有效且安全地在以人为中心的环境中导航，重要的是它们的“老师”是人类示范者，让机器人通过模仿人类行为进行学习。然而，由于现有的高质量训练数据稀缺，出现了一个重大挑战。

为了解决这个问题，需要开发大量数据集来捕捉人类行为。一种有希望生成这些数据的方法是通过远程操作，即人类操作员远程控制机器人来演示特定任务。虽然远程操作可以生成高保真演示数据，但它受到在给定时间内可以访问这些系统的人数的限制。

GR00T-Mimic 旨在扩大数据收集渠道。该方法涉及使用扩展现实 (XR) 和 Apple Vision Pro 等空间计算设备在物理世界中收集有限数量的人类演示。然后使用这些初始演示生成合成运动数据，从而有效地扩大演示数据集。目标是创建一个全面的人类动作库，供机器人学习，从而增强它们在现实世界中执行任务的能力。

为了进一步支持 GR00T-Mimic，NVIDIA Research 还发布了SkillMimicGen，这是通过最少的人工演示解决现实世界操作任务的基本第一步。

GR00T-Dexterity 适用于精细且灵巧的操作

GR00T-Dexterity 是一套用于细粒度灵巧操作的模型和策略以及用于开发它们的参考工作流程。

传统的机器人抓取需要集成多个复杂组件，从识别抓取点到规划动作和控制手指。对于具有多个执行器的机器人来说，管理这些系统（尤其是使用状态机来处理抓取失误等故障）使端到端抓取成为一项重大挑战。

GR00T-Dexterity 引入了一种利用研究论文DextrAH-G 的工作流程。它是一种基于强化学习 (RL) 的机器人灵巧性策略开发方法。此工作流程可以创建端到端、像素到动作的抓取系统，该系统在模拟中经过训练并可部署 博蒂姆数据库 到物理机器人上。该工作流程旨在制定能够通过深度流输入进行快速、反应性抓取的策略，并且可以推广到新对象。

该过程涉及创建几何结构来定义机器人的运动空间并简化抓取动作，并针对并行训练进行优化。使用NVIDIA Isaac Lab，通过在多个 GPU 上应用强化学习来训练结构引导策略，以概括抓取行为。最后，通过模仿学习使用深度输入将学习到的策略提炼为适用于现实世界的版本，在几个小时内产生一个强大的策略。

视频 1. 使用 NVIDIA Isaac Lab 进行模拟训练

视频 2. 在没有几何织物的情况下训练抓取任务时机器人运动不稳定

视频 3. 使用 GR00T-Dexterity 工作流程在实体机械臂上进行装箱演示，在将策略转移到现实世界的同时避免硬件损坏
请注意，GR00T-Dexterity 工作流程预览基于研究论文《DextrAH-G：使用几何织物实现从像素到动作的灵巧手臂-手抓握》，并已从 NVIDIA Isaac Gym（已弃用）迁移到 Isaac Lab。如果您是当前的 Isaac Gym 用户，请按照教程和迁移指南开始使用 Isaac Lab。

GR00T-Mobility 用于运动和导航

GR00T-Mobility 是一套用于运动和导航的模型和策略以及用于开发它们的参考工作流程。

经典导航方法在混乱的环境中难以发挥作用，并且需要进行大量的调整，而基于学习的方法则面临着推广到新环境的挑战。

GR00T-Mobility 引入了一种基于 Isaac Lab 支持的 RL 和模仿学习 (IL) 的新颖工作流程，旨在创建一个可在不同设置和实施例中进行导航的移动通才。

通过利用NVIDIA Isaac Sim进行世界建模，此工作流程可生成丰富的环境动态潜在表示，从而实现更具适应性的训练。该工作流程将世界建模与动作策略学习和 RL 微调分离开来，从而增强了灵活性，支持多种数据源以实现更大的泛化。

使用此工作流程仅在 Isaac Sim 的 如何在疫情期间利用文档管理系统高效在家办公 真实感合成数据集上训练的模型可实现零样本模拟到真实的传输，并可应用于一系列实施例，包括差分驱动、阿克曼、四足动物和人形动物。

该工作流程以X-MOBILITY：通过世界建模实现端到端通用导航中提出的 NVIDIA 应用研究成果为基础。

显示工作流程的框图。GR00T-mobility 使用来自 Isaac Sim 的合成数据进行训练。GR00T-mobility 世界模型和行动策略使用来自模拟的随机行动和专家策略进行训练。这可实现通用导航和策略从模拟到现实世界的零样本转移。
图 1. 使用来自 Isaac Sim 的合成数据集，GR00T-Mobility 工作流程结合了世界建模和行动策略训练，以解锁可通用的导航和零样本模拟到现实的转移

视频 4. 在模拟机器人上测试 GR00T-Mobility 时，机器人成功穿越杂乱的环境并避开障碍物

视频 5. 在真实机器人上测试 GR00T-Mobility 时，机器人成功地在实验室环境中导航，同时避开箱子和障碍物

视频 6. 人形机器人、四足机器人和叉车机器人在 Isaac Sim 中的模拟仓库环境中成功导航

GR00T-Control 用于全身控制

GR00T-Control 是一套用于开发 WBC 的高级运动规划和控制库、模型、策略和参考工作流程。参考工作流程可锻炼各种平台、预训练模型和加速库。

为了实现精确且反应灵敏的人形机器人控制，尤其是在需要灵活性和运动能力的任务中，WBC 至关重要。GR00T-Control 引入了一种基于学习的传统模型预测控制 (MPC) 替代方案，其工作流程与 NVIDIA 应用研究团队开发的 Isaac Lab 集成。这项工作基于OmniH2O：通用灵巧的人对人全身远程操作和学习中提出的原始研究工作，以及 cg 线索 新发布的HOVER：人形机器人多功能神经全身控制器。

此参考工作流程支持开发用于远程操作和自主控制的全身人形控制策略 (WBC 策略)。对于 OmniH2O 的远程操作，VR 耳机、RGB 摄像头和口头命令等输入方法可实现高精度的人类控制。同时，HOVER 的多模式策略提炼框架促进了自主任务模式之间的无缝过渡，使其能够适应复杂的任务

WBC Policy 工作流使用模拟到现实的学习管道。首先，使用 Isaac Lab 通过强化学习在模拟中训练特权控制策略，Isaac Lab 充当“教师”模型，可以访问详细的运动数据。然后，该模型被提炼为可部署的真实世界版本，能够在有限的感官输入下运行，解决远程操作延迟、VR 或视觉跟踪的输入受限（对于 OmniH2O）以及跨多种自主任务模式的适应性（对于 HOVER）等挑战。

全身控制策略（使用 OmniH2O 工作流程开发）为精确的人形机器人控制提供了 19 个自由度。

视频 7。在 NVIDIA Isaac Lab 中训练的基于 GR00T-Control 工作流的策略。红色框是数据集中的参考机器人身体位置。机器人正在跟踪参考运动

视频 8. 在 Isaac Lab 中一起训练数千个人形机器人
GR00T-Control 为机器人专家提供了进一步探索基于学习的人形机器人 WBC 的工具。

GR00T-多模态感知

GR00T-Perception 是一套高级感知库（例如nvblox和cuVSLAM）、基础模型（例如FoundationPose和RT-DETR）以及基于 Isaac Sim 和NVIDIA Isaac ROS构建的参考工作流程。参考工作流程展示了如何在机器人解决方案中结合使用这些平台、预训练模型和加速库。

GR00T-Perception 的一个关键新增功能是ReMEmbR，这是一种应用研究参考工作流程，通过使机器人能够“记住”事件的长期历史来增强人机交互，从而显著改善个性化和情境感知响应。该工作流程集成了视觉语言模型、LLM 和检索增强记忆，以增强人形机器人的感知、认知和适应性。

ReMEmbR 使机器人能够随着时间的推移保留上下文信息，通过整合图像和声音等感官数据来提高空间感知、导航和交互效率。它遵循结构化的记忆构建和查询过程，可以在真实机器人的 NVIDIA Jetson AGX Orin 上部署。

要了解有关 ReMEmbR 的更多信息，请参阅使用生成式 AI 使机器人能够通过 ReMEmbR 进行推理和行动。

图表显示了 ReMEmbR 工作流程所涉及的两个阶段。第一阶段是记忆构建阶段，其中通过图像和提示将有关环境的信息捕获到矢量数据库中。第二阶段是查询阶段，用户可以向系统询问“最近的电梯在哪里？”之类的问题。查询第一阶段构建的数据库以获取答案，机器人可以将答案说给用户听。它还可以生成信息以导航到环境中的所需位置。
图 3. 高级 ReMEmbR 工作流程包括两个不同的阶段，一个用于构建记忆，另一个用于查询信息

视频 9. 了解机器人如何使用生成式人工智能通过 ReMEmbR 进行推理和行动

结论

借助NVIDIA Project GR00T，我们正在构建先进的技术、工具和 GR00T 工作流程，这些技术、工具和工作流程可以根据人形机器人开发人员的需求单独使用或一起使用。这些增强功能有助于开发更智能、适应性更强、功能更强大的人形机器人，突破这些机器人在实际应用中所能实现的极限。