EgoVLA——根据第一视角的人类视频中训练的VLA模型:助力家具组装等人形灵巧操作任务的攻克(利用可穿戴手部追踪)
前言我在此文《ForceVLA——将具备力感知的MoE整合进π0的动作专家中从而融合“视觉 语言 力反馈”三者实现精密插拔》的开头说过我司「七月在线」目前侧重以下两大本体的场景落地人形层面侧重1.1 人形灵巧操作1.2 人形展厅讲解机械臂层面侧重2.1 智能装配2.2 精密插拔而训练人形机器人做灵巧操作的方式之一便是从人类视频中学习当然此类模型如今已经层出不穷了且真实机器人数据采集在模仿学习领域推动了机器人操作的重大进展然而数据采集过程中对机器人硬件的依赖从根本上限制了数据的规模EgoVLA探讨了利用第一视角人类视频训练VLA模型的方法使用人类视频的优势不仅在于其规模更重要的是场景和任务的丰富性通过在预测人类手腕和手部动作的人类视频上训练的VLA可以执行逆运动学和动作重定向将人类动作转换为机器人动作且仅需少量机器人操作演示对模型进行微调便可获得机器人策略第一部分 EgoVLA1.1 引言、相关工作1.1.1 引言如EgoVLA原论文所说近年来得益于大规模真实机器人数据采集[1,2]机器人操作领域取得了巨大进展。与利用仿真方法相比直接用真实机器人数据进行监督学习能够避免Sim2Real域间差异并能轻松提升任务复杂度为了高效采集复杂的机器人操作数据研究人员提出了多种遥操作工具包括关节映射[3,4,5]、外骨骼[6,7,8]以及虚拟现实设备[9,10,11]。尽管这些方法令人鼓舞但对机器人和专家操作员的需求从根本上限制了可采集数据的规模从人类视频中学习操作如何如果将人类视为一种特殊形式的机器人那么全世界有80亿个机器人正在各类环境中持续运行——而我们希望机器人能够在这些环境中操作近期关于手-物体交互预测的研究[12]在预测人类操作的长期意图方面取得了有希望的成果。如果能够利用这些人类数据来训练机器人策略不仅能够轻松扩展训练数据的数量更重要的是能够提升任务和场景的多样性这使得机器人能够在当前难以适应的场景或即使远程操作也具有挑战性的任务中进行训练作者的关键观察是人类动作空间与机器人动作空间之间的差异可能并不大并且可以通过少量几何变换进行近似与其在机器人数据上训练机器人视觉-语言-动作VLA模型[13,14,15,16]来自1 UC San Diego, 2 UIUC, 3 MIT, 4 NVIDIA的研究者提出在人体数据上训练人体第一视角VLAEgoVLA其对应的论文为EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos其项目网址为rchalyang.github.io/EgoVLA/截止到25年8月中旬他们暂未开源如果他们计划开源则期待————更新后于25年10.20日已开源Code (Training Inference)、Code (Simulation)具体而言给定若干帧视觉观测、语言指令以及当前手部姿态作为输入VLA将在未来几个步骤内预测人类动作动作空间包括人类手腕和手部关节角度。这个人类动作空间可以通过逆向运动学将手腕位置转换为末端执行器位置并通过动作重定向将人类手部关节转换为机器人手部关节从而转化为机器人动作空间因此人体VLA本质上已经是一种机器人策略只是输入为人手图像且动作输出仍存在误差。但可以通过遥操作收集少量机器人演示对VLA进行进一步微调来纠正这一点如此便无需大规模机器人数据进行训练为了评估机器人操作性能作者提出了一种基于NVIDIA IsaacSim[17]的新型仿人双臂操作基准测试称为Ego Humanoid Manipulation Benchmark。在该基准测试中作者设置了12项任务包括执行原子动作的简单任务以及由多个原子动作组合而成的长时序任务作者为每个任务收集了100个演示数据并利用该基准测试对模型进行评估。在实验中作者首先在Ego-Centric Human Manipulation数据集上训练EgoVLA模型并针对特定任务在收集到的仿人操作演示上进行微调说白了就是通过人类第一视角的视频做预训练然后用真机数据做微调1.1.2 相关工作涉及灵巧操作、VLA第一对于灵巧操作灵巧操作的研究已从基于控制的方法[19,20,21,22,23,24,25]发展到以学习为驱动的方法[26,27]早期工作侧重于精度但在多样化场景中的泛化能力有限。基于学习的方法引入了姿态向量生成[28,29,30]、中间表示[31,32]和接触图[33,34]但大规模灵巧操作仍然是一个未解难题近期的研究尝试利用第一视角人类视频训练特定任务的策略[35,36]相比之下作者旨在直接通过第一视角人类演示开发通用型操作模型第二对于VLA视觉-语言模型VLMs[37,38,39]在多模态任务中展现出了强大的泛化能力[40,41,42,43,44]。在此基础上视觉-语言-动作模型VLA[16,14,45,13,15,46]通过大规模机器人数据对VLMs进行微调实现了感知与动作的集成然而VLA的训练对数据需求极高通常需要大量的远程操作[47,48]或脚本化执行[49,50]。OpenVLA[14]和Octo[13]利用了众包机器人数据集[1]但在可扩展性方面仍面临瓶颈作者提出了一种替代方案通过人类第一视角视频进行策略学习并结合小规模目标域微调第三对于第一人称视觉第一人称视觉研究[51,52,53]传统上在数据规模和多样性方面受到限制。近期的数据集[54,55]在覆盖范围上有所提升但主要关注超出现有机器人能力的活动。更简单的数据集[56,57]虽然捕捉了日常交互但缺乏姿态标注为了解决这一问题作者精选了有针对性的数据集组合并引入了一个专为灵巧操作学习优化的第一人称人体视频数据集第四对于从野外视频中学习已有多项研究 [58,59] 提出从野外视频中提取可供性或交互线索。受第一视角视觉的启发近期研究 [60,61,62,63,64,65,66] 利用人类视频进行预训练表征并展示了积极的迁移效果然而大多数工作侧重于无监督学习未充分利用细粒度的手部或手腕姿态信息相比之下作者的工作在VLA框架下使用高质量的第一视角数据直接提升灵巧策略学习充分利用可穿戴手部追踪技术的最新进展1.2 从第一人称人类视频中学习操作技能本节将介绍作者第一人称人类操作数据集的构建过程EgoVLA在该数据集上的训练方法如何弥合人类与仿人机器人之间的体现差异以及EgoVLA在操作任务中的部署1.2.1 以自我为中心的人体操作数据集借鉴语言模型和视觉-语言模型训练的经验作者强调数据集结构在提升模型性能中的重要性他们构建了一个大规模的人类第一视角操作数据集专注于包含技能丰富的视频序列及其对应的姿态标注。该综合数据集包含第一视角的RGB观测、手腕姿态、手部姿态和摄像头姿态该数据集整合了来自四个来源的序列其相对比例如图3所示HOI4D包含4000段视频捕捉了如抓取-放置、重新定位和关节物体交互等单手操作HOT3D提供了833分钟与33个刚性物体交互的视频并配有精确的三维手部和摄像头姿态标注HoloAssist则包含了166小时的复杂任务录制。例如电池更换、家具组装和机器安装尽管其手部姿态标注较为噪声但它捕捉了丰富的双手交互且为避免HoloAssist因标签噪声而被过度代表作者对其进行了1/10的均匀采样以平衡任务和数据来源TACO包含2,317个动作序列涵盖151组工具-动作-物体三元组对于数据处理第一人称视频由于摄像机的持续移动给学习带来了挑战为了解决这一问题作者利用世界坐标系下的摄像机位姿将未来手腕的位置投影到当前摄像机帧中从而确保监督的一致性。训练样本通过以3帧每秒的频率采样RGB观测值生成以实现计算效率与时间连续性的平衡。他们的数据集共包含约500,000对图像与动作涵盖多种操作任务1.2.2 EgoVLA模型基于NVILA-2B 基于Transformer的动作头作者在视觉-语言模型的基础上构建了EgoVLA以利用强大的视觉和语义推理能力具体而言他们采用NVILA-2B[67]作为主干网络该模型具有强大的视觉-语言理解能力和紧凑的体积从而实现意图推断和高效微调如图2所示「EgoVLA以视觉历史、语言指令和动作查询token作为输入。潜在特征通过动作头被转换为人类动作。且采用手腕姿态和MANO手部参数[18]作为人类动作空间」EgoVLA的输入包括当前和历史的第一视角视觉观测、语言指令、动作查询token以及人体本体感知这些输入由VLM主干网络进行编码并通过动作头进一步处理以预测未来的人类或机器人动作其中视觉观测由六帧RGB图像组成包括当前观测帧以及以0.2秒间隔采样的前五帧总共覆盖1秒的历史。每帧分辨率为384×384语言指令用于描述即时期望的行为。该设计使模型聚焦于技能执行而非高层次规划从而确保语言输入与预测动作之间具有清晰的映射关系人体本体感状态包括手腕的平移/旋转以及手部姿态参数。这些信息在传递至动作头之前会通过多层感知机(MLP)进行处理每个预测动作包括腕部姿态『相机坐标系下的三维平移和 rot6D 表示[68]的旋转』以及手部关节角度后者通过 MANO 手部模型[18]的前 15 个主成分PCA表示说白了就是通过MANO给人手手部关节建模类似SMPL给人体建模一样EgoVLA被训练用于回归相机坐标系下的未来腕部姿态和手部关节参数。其目标函数为其中和分别为腕部平移和手部关节角度回归的 L2 损失。是 rot6D[68] 腕部朝向的旋转损失。、、为加权系数至于动作头是一个基于 Transformer300M的结构由六个编码器层组成每层隐藏单元数为1536它的输入包括人类(或机器人)的本体感觉状态以及与动作查询token对应的潜在嵌入表示并预测一个在1秒时间范围内的动作序列(以30 Hz的频率未来30步)用于双手作者使用词汇表中最后的H30个词ID作为动作查询token对于训练细节作者首先在自有的第一视角人类操作数据集上对EgoVLA进行预训练共20个周期。随后在机器人示范数据上进行115个周期的后续训练其中在第100个周期后降低学习率在训练过程中包含视觉编码器在内的整个模型都会进行微调。更多训练配置详见补充材料1.2.3 将EgoVLA迁移到人形机器人人类和人形机器人在操作框架上具有相似性均使用双臂和双手。然而由于摄像头姿态、手部形态以及视觉外观的差异直接将EgoVLA迁移到人形机器人上具有一定挑战性为实现部署作者利用少量机器人演示数据对EgoVLA进行微调并借助如图4所示的统一动作空间『统一动作空间MANO手部参数被用作人类与机器人共享的动作空间。对于机器人手在训练过程中优化后的MANO参数能够产生与机器人手指尖相同的位置。在部署阶段一个小型MLP将预测的指尖位置映射为关节指令』首先对于将机器人数据重新映射到人类表示为了在机器人数据上进行微调作者首先需要将机器人的动作空间与人类表示对齐对于末端执行器的姿态通过三维变换来对齐机器人和人类的坐标系对齐手部配置则更加复杂作者估算能够最好地近似机器人手部驱动的MANO[18]参数(相当于通过SMPL模型近似人体姿态)通过最小化预测(人体)指尖位置与(机器人)观测指尖位置之间的差异来实现其中为MANO手部参数表示通过MANO正向运动学计算得到的(人类的)指尖位置为观测到的机器人指尖位置该统一动作空间使得EgoVLA可以直接在机器人演示数据上进行微调无需额外的架构更改或重新初始化其次对于人体手到机器人手的映射在推理阶段由EgoVLA预测的手腕和手部姿态会被映射到机器人的执行器如图4(底部行)所示首先手腕姿态通过三维变换被转换为机器人末端执行器的姿态并通过逆向运动学IK求解相应的手臂关节角度其次对于手部驱动作者使用MANO模型根据预测的MANO参数计算三维手部关键点然后利用一个轻量级的多层感知机(MLP)根据三维手部关键点预测机器人手部的关节指令该MLP在机器人演示数据上训练其中手部动作被重新定向为人体手部的表示This MLP is trained on robot demonstrations where hand actuations areretargeted into human hand representations.该映射实现了平均指尖位置误差为米此外通过该重定向流程回放原始演示能够保持任务的有效性表明重定向过程中引入的小误差不会显著影响控制性能。更多实现细节见补充材料1.3 Ego 仿人操作基准除了数据稀缺之外基于学习的机器人技术面临的另一大挑战是缺乏可扩展、稳健且可复现的评估方式。现实世界中的评估通常成本高昂、耗时并且存在安全性和可复现性的担忧——这些障碍在资源有限的环境如学术实验室中尤为突出最新研究[69]表明基于仿真的评估结果与现实世界性能高度相关因此可作为可靠的替代手段故为了实现仿人操作的一致性基准测试作者提出了Ego仿人操作基准该基准基于NVIDIA Isaac Lab[70]构建。Ego仿人操作基准并非用于直接的仿真到现实迁移而是借鉴LIBERO[71]和SIMPLER[69]的做法将仿真作为一个可控且可复现的测试平台用于评估操作策略作者的仿真平台采用Unitree H1[72]仿人机器人配备两只Inspire灵巧手[73]涵盖了12项操作任务既包括短时域原子动作如推箱子、翻杯、倒球、关抽屉、开抽屉、开笔记本、叠易拉罐也包括长时域多阶段技能如易拉罐分类、易拉罐插入、易拉罐卸载、插入并卸载易拉罐、将易拉罐叠入抽屉如图5所示此外对于观测与动作空间作者的基准测试为观测提供了机器人关节位置、末端执行器位姿、接触力以及自中心RGB-D视觉输入虽然EgoVLA仅使用自中心视觉、末端执行器位姿、手部关节驱动和任务描述但还为未来研究提供了额外的模态机器人通过末端执行器控制手臂以及通过PD关节控制手部。每只手具有12个自由度6个主动关节6个联动关节最终的36维动作空间将手臂逆向运动学与手部直接驱动相结合。控制频率为30 Hz且还为每个任务提供逐步的成功指示器和子任务完成标志。每个子任务的定义和成功度量标准详见补充材料多样化视觉背景仿真环境允许对视觉条件进行完全控制。比如包含了5种房间纹理Room 1–5和5种桌面纹理Table 1–5从而生成25种不同的视觉背景组合用于对模型泛化能力的稳健评估演示数据为支持模仿学习作者通过Meta Quest 3结合Open Television [10]采集了专家演示。演示数据均在Room 1、2或3中采集桌面纹理固定为Table 1针对每个任务作者采集了100条成功的演示单次演示的帧数根据任务复杂度在100至500之间// 待更