
最近,Figure AI 发布了首个通用视觉-语言-行动(VLA)模型——Helix,其能像人类一样推理,将感(gǎn)知(zhī)、语(yǔ)言(yán)理(lǐ)解(jiě)和(hé)学(xué)习(xí)控(kòng)制(zhì)融(róng)为(wèi)一(yī)体(tǐ),可(kě)以(yǐ)通(tōng)过(guò)自(zì)然(rán)语(yǔ)言(yán)直(zhí)接(jiē)控(kòng)制(zhì)人(rén)形(xíng)机(jī)器(qì)人(rén)整(zhěng)个(gè)上(shàng)半(bàn)身(shēn)。
Helix 可(kě)以(yǐ)在(zài)没(méi)有(yǒu)任(rèn)何(hé)特(tè)定(dìng)任(rèn)务(wu)演(yǎn)示(shì)或(huò)大(dà)量(liàng)手(shǒu)动(dòng)编(biān)程(chéng)的(de)情(qíng)况(kuàng)下(xià),快(kuài)速(sù)生(shēng)成(chéng)长(zhǎng)程(chéng)、协(xié)作(zuò)性(xìng)的(de)灵(líng)巧(qiǎo)操(cāo)作(zuò)。其(qí)实(shí)现(xiàn)了(le)多(duō)个(gè)“首(shǒu)个(gè)”:
完(wán)整(zhěng)的(de)上(shàng)半(bàn)身(shēn)控(kòng)制(zhì):Helix 是(shì)首(shǒu)个(gè)能(néng)够(gòu)对(duì)整(zhěng)个(gè)人(rén)形(xíng)上(shàng)半(bàn)身(shēn)(包(bāo)括(kuò)手(shǒu)腕(wàn)、躯(qū)干(gàn)、头(tóu)部(bù)和(hé)单(dān)个(gè)手(shǒu)指(zhǐ))输(shū)出(chū)高(gāo)速(sù)率(lǜ)连(lián)续(xù)控(kòng)制(zhì)的(de) VLA。
多(duō)机(jī)器(qì)人(rén)协(xié)作(zuò):Helix 是(shì)首(shǒu)个(gè)可(kě)在(zài)两(liǎng)个(gè)机(jī)器(qì)人(rén)上(shàng)同(tóng)时(shí)运(yùn)行(xíng)的(de) VLA,使(shǐ)它(tā)们(men)能(néng)够(gòu)解(jiě)决(jué)共(gòng)享(xiǎng)的(de)长(zhǎng)程(chéng)操(cāo)作(zuò)任(rèn)务(wu),操(cāo)作(zuò)它(tā)们(men)从(cóng)未(wèi)见(jiàn)过(guò)的(de)物(wù)品(pǐn)。
可(kě)直(zhí)接(jiē)商(shāng)用(yòng):Helix 是(shì)首(shǒu)个(gè)在(zài)完(wán)全板(bǎn)载(zài)嵌(qiàn)入(rù)式(shì)低(dī)功(gōng)耗(hào) GPU 上(shàng)运(yùn)行(xíng)的(de) VLA,可(kě)立(lì)即(jí)投(tóu)入(rù)商(shāng)业(yè)部(bù)署(shǔ)。
配(pèi)备(bèi)了(le) Helix 的(de) Figure 机(jī)器(qì)人(rén)只(zhǐ)需(xū)根(gēn)据(jù)自(zì)然(rán)语(yǔ)言(yán)提(tí)示(shì),就(jiù)能(néng)拾(shi)取(qǔ)几(jǐ)乎(hu)任(rèn)何(hé)小(xiǎo)型(xíng)家(jiā)用(yòng)物(wù)品(pǐn),包(bāo)括(kuò)数(shù)以(yǐ)千(qiān)计(jì)它(tā)们(men)从未见过的物品。
例如,当被要求“拾起沙漠中的物品”时,Helix 会识别出玩具仙人掌,选择最近的手,并执行精确的运动指令将其牢牢抓住。
与之前的方法不同,Helix 使用一组神经网络权重来学习所有行为——拾取和放置物品、使用抽屉和冰箱以及跨机器人交互——而无需针对具体任务进行微调。
Figure AI 在 X 上表示,“机器人的功能如果不发生重大变化,就无法进入家庭领域,现在,我们的机器人几乎可以处理任何家庭用品。”
人形机器人的“New Scaling”
家庭是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充斥着无数物品——精致的玻璃器皿、皱巴巴的衣物、散落的玩具——每件物品的形状(zhuàng)、大(dà)小(xiǎo)、颜(yán)色(sè)和(hé)质(zhì)地(de)都(dōu)难(nán)以(yǐ)预(yù)测(cè)。机(jī)器(qì)人(rén)要(yào)想(xiǎng)在(zài)家(jiā)庭(tíng)中(zhōng)发(fā)挥(huī)作(zuò)用(yòng),就(jiù)必(bì)须(xū)能够按需生成智能的新行为,尤其是针对它们从未见过的物体。
当前的机器人技术如果不作出重大改变,就无法在家庭中使用。目前,即使是教机器人学会一种新行为,也需要大量的人力:要么是数小时的博士级专家手工编程,要么是数千次的演示。如果考虑到家庭问题的实际规模,这两种方式的成本都非常高。

图|获取机器人新技能的不同方法的 Scaling 曲线。在传统的启发式操作中,技能会随着手动编写脚本的博士们而增长;在传统的机器人模仿学习中,技能随着收集到的数据增长;而在 Helix 中,新技能可以用语言即时指定。
Figure AI 团队认为,人工智能的其他领域已(yǐ)经(jīng)掌(zhǎng)握(wò)了(le)这(zhè)种(zhǒng)即(jí)时(shí)泛(fàn)化(huà)的(de)方(fāng)法(fǎ),如(rú)果(guǒ)能(néng)够(gòu)简(jiǎn)单(dān)地(de)将(jiāng)视(shì)觉(jué)语(yǔ)言(yán)模(mó)型(xíng)(VLM)中(zhōng)捕(bǔ)捉(zhuō)到(dào)的(de)丰(fēng)富(fù)语(yǔ)义(yì)知(zhī)识(shi)直(zhí)接(jiē)转(zhuǎn)化(huà)为(wèi)机(jī)器(qì)人(rén)动(dòng)作(zuò),将(jiāng)从(cóng)根(gēn)本(běn)上(shàng)改(gǎi)变(biàn)机(jī)器(qì)人(rén)技(jì)术(shù)的(de)发(fā)展(zhǎn)轨(guǐ)迹(jī)。
突(tū)然(rán)间(jiān),只(zhǐ)需(xū)用(yòng)自然语言与机器人对话,就能立即获得曾经需要数百次演示的新技能。但关键问题是:他们如何从 VLM 中提取所有这些常识性知识,并将其转化为可通(tōng)用(yòng)的(de)机(jī)器(qì)人(rén)控(kòng)制(zhì)呢(ne)?
于(yú)是(shì),他(tā)们(men)构(gòu)建(jiàn)了(le) Helix。

Helix:用于整个上半身控制的“系统 1、系统 2”VLA
Helix 是首创的 “系统 1、系统 2 ”VLA 模型,用于对整个仿人上半身进行高速、灵巧的控制。
之前的方法面临着一个基本的权衡:VLM 骨架通用但不快速,而机器人视觉运动策略快速但不通用。Helix 通过两个互补系统解决了这一问题,这两个系统经过端对端训练,可以进行通信:
系统 2:经过互联网训练的板载 VLM,工作频率为 7-9 Hz,用于场景理解和语言理解,可广泛应用于各种物体和环境。
系统 1:快速反应(yīng)视(shì)觉(jué)运(yùn)动(dòng)策(cè)略(è),将(jiāng)系(xì)统(tǒng) 2 生(shēng)成(chéng)的(de)潜(qián)在(zài)语(yǔ)义(yì)表(biǎo)征(zhēng)转(zhuǎn)化(huà)为(wèi) 200 Hz 的(de)精(jīng)确(què)连(lián)续(xù)机(jī)器(qì)人(rén)动(dòng)作(zuò)。
这(zhè)种(zhǒng)解(jiě)耦(ǒu)架(jià)构(gòu)允(yǔn)许(xǔ)每(měi)个(gè)系(xì)统(tǒng)以(yǐ)其(qí)最(zuì)佳(jiā)时(shí)间(jiān)尺(chǐ)度(dù)运(yùn)行(xíng)。系(xì)统(tǒng) 2 可(kě)以(yǐ)“慢(màn)思(sī)考(kǎo)”高(gāo)层(céng)次(cì)目(mù)标(biāo),而(ér)系(xì)统(tǒng) 1 则(zé)可(kě)以(yǐ)“快(kuài)思(sī)考(kǎo)”实(shí)时(shí)执(zhí)行(xíng)和(hé)调(diào)整(zhěng)动(dòng)作(zuò)。例(lì)如,在协作行为中,系统 1可快速适应伙伴机器人不断变化的动作,同时保持系统 2 的语义目标。
与现有方法相比,Helix 的设计具有几大优势:
速度和通用性:Helix 的速度可与专门的单任务行为克隆策略相媲美,同时还能对数千个新测试对象进行零样本泛化。
可扩展性:Helix 可直接输出高维动作空间的连续控制,避免了先前 VLA 方(fāng)法(fǎ)中(zhōng)使(shǐ)用(yòng)的(de)复(fù)杂(zá)动(dòng)作(zuò) token 化(huà)方(fāng)案(àn),这(zhè)些(xiē)方(fāng)案(àn)在(zài)低(dī)维(wéi)控(kòng)制(zhì)设(shè)置(zhì)中(zhōng)取(qǔ)得(de)了(le)一(yī)定(dìng)成(chéng)功(gōng),但(dàn)在(zài)高(gāo)维(wéi)仿(fǎng)人(rén)控(kòng)制(zhì)中面临扩展挑战。
结构简单:Helix 使用标准架构——系统 2 使用开源、开放权重的 VLM,系统 1 使用基于 transformer 的简单视觉运动策略。
关注分离:将系统 1 和系统 2 分离开来后,可以分别对每个系统进行迭代,而不必受制于寻找统一的观察空间或动作表示法。
模型和训练细节
1.数据
他们收集了一个高质量、多机器人、多操作员的数据集,其中包含各种远程操作行为,总计约 500 小时。为了生成受自然语言约束的训练对,他们使用了自动标注 VLM 来生成后见(hindsight)指令。VLM 处理来自机载机器人摄像头的分段视频片段,并给出提示:“你会给机器人下达什么指令,以实现视频中的动作?所有在训练过程中处理过的项目都不在评估范围内,以防止污染。
2.架构
这一系统由两个主要部分组成:系统 2 是 VLM 骨干,系统 1 是潜条件视觉运动 transformer。系统 2 基于一个 7B 参数的开源、开放权重 VLM,并在互联网规模的数据上进行了预训练。它将单目机器人图像和机器人状态信息(包括手腕姿势和手指位置)投射到视觉语言嵌入空间后进行处理。结合指定所需行为的自然语言指令,系统 2 将所有与任务相关的语义信息提炼为一个连续的潜在向量,并将其传递给系统 1,作为其底层动作的条件。
系统 1 是一个 8000 万参数的交叉注意力编码器-解码器 transformer,用于处理底层控制。它依靠一个完全卷积、多尺度的视觉骨干网进行视觉处理,该骨干网由完全在模拟中完成的预训练初始化而成。系统 1 接收与系统 2 相同的图像和状态输入,但处理频率更高,以实现反应更灵敏的闭环控制。来自系统 2 的潜向量被投射到系统 1 的 token 空间,并与来自系统 1 视觉骨干的视觉特征沿序列维度进行串联,从而提供任务条件。
系统 1 以 200hz 的频率输出完整的上半身仿人控制,包括所需的手腕姿势、手指弯曲和外展控制,以及躯干和头部方向目标。他们在动作空间中添加了一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终止条件,从而更容易地对多个学习行为进行排序。
3.训练
Helix 采用完全端到端训练方式,通过标准回归损耗将原始(shǐ)像(xiàng)素(sù)和(hé)文本(běn)指令映射为连续动作。梯度通过用于调节系统 1 行为的潜在通信向量从系统 1 反向传播到系统 2,从而对两个组件进行联合优化。Helix 无需针对特定任务进行适应性调整;它只需保持单一的训练阶段和单一的神经网络权重集,而无需单独的动(dòng)作头或每个任务的微调阶段。
在训练过程中,他们会在系统 1 和系统 2 输入之(zhī)间(jiān)添(tiān)加(jiā)一(yī)个(gè)时(shí)间(jiān)偏(piān)移(yí)。该(gāi)偏(piān)移(yí)量(liàng)经(jīng)过(guò)校(xiào)准(zhǔn),与(yǔ)系(xì)统(tǒng) 1 和(hé)系(xì)统(tǒng) 2 部(bù)署(shǔ)推(tuī)理(lǐ)延(yán)迟(chí)之(zhī)间(jiān)的(de)差距相匹配,确(què)保(bǎo)在(zài)训(xun)练(liàn)中(zhōng)准(zhǔn)确(què)反(fǎn)映(yìng)部(bù)署(shǔ)过(guò)程(chéng)中(zhōng)的(de)实(shí)时(shí)控(kòng)制(zhì)要(yào)求(qiú)。
4.优(yōu)化(huà)的(de)流(liú)推(tuī)理(lǐ)
Helix 的(de)训(xun)练(liàn)设(shè)计(jì)可(kě)在(zài) Figure 机(jī)器(qì)人(rén)上(shàng)实(shí)现(xiàn)高(gāo)效(xiào)的(de)模型并行部署,每个机器人都配备了双低功耗嵌入式 GPU。推理流水线分为系统 2(高级潜规划)和系统 1(低级控制)模型,每个模型都在专用 GPU 上运行。系统 1 作为异步后台进程运行,消耗最新观测数据(机载摄像头和机器人状态)和自然语言指令。它不断更新共享内存中的潜在向量,该向量对高级行为意图进行编码。
系统 1 作为一个独立的实时进程执行,维持着整个上半身平滑动作所需的关键 200Hz 控制回路。它同时获取最新的观测数据和最新的系统 2 潜在向量。系统 2 和系统 1 推理之间固有的速度差异自然会导致系统 1 以更高的时间分辨率处理机器人的观察结果,从而为反应控制创建(jiàn)更(gèng)紧(jǐn)密(mì)的(de)反(fǎn)馈(kuì)回(huí)路。
这(zhè)种(zhǒng)部(bù)署(shǔ)策(cè)略(è)有(yǒu)意(yì)反(fǎn)映(yìng)了(le)训(xun)练(liàn)中(zhōng)引(yǐn)入(rù)的(de)时(shí)间(jiān)偏(piān)移(yí),最(zuì)大(dà)限(xiàn)度(dù)地(de)缩(suō)小(xiǎo)了(le)训(xun)练(liàn)-推(tuī)理(lǐ)分(fēn)布(bù)差(chà)距。异步执行模型允许两个进程以各自的最佳频率运行,允许以最快的单任务模仿学习策略速度运行 Helix。
表现怎么样?
1.精细的 VLA 整个上半身控制
Helix 能以 200Hz 的频率协调 35-DoF 的(de)动(dòng)作(zuò)空(kōng)间(jiān),控(kòng)制(zhì)从(cóng)单(dān)个(gè)手(shǒu)指(zhǐ)运(yùn)动(dòng)到(dào)末(mò)端(duān)执(zhí)行(xíng)器(qì)轨(guǐ)迹(jī)、头(tóu)部(bù)注(zhù)视(shì)和(hé)躯(qū)干(gàn)姿(zī)势(shì)等(děng)一(yī)切(qiè)动(dòng)作(zuò)。头(tóu)部(bù)和(hé)躯(qū)干(gàn)控(kòng)制(zhì)带(dài)来(lái)了(le)独(dú)特(tè)的(de)挑(tiāo)战(zhàn),因(yīn)为(wèi)它(tā)们(men)的(de)移动会同时改变机器(qì)人(rén)所(suǒ)能(néng)触(chù)及(jí)的(de)范(fàn)围(wéi)和(hé)所(suǒ)能(néng)看(kàn)到(dào)的(de)范(fàn)围(wéi),从(cóng)而(ér)形(xíng)成(chéng)反(fǎn)馈(kuì)回(huí)路,这(zhè)在(zài)历(lì)史(shǐ)上(shàng)曾(céng)造(zào)成(chéng)不(bù)稳(wěn)定(dìng)。
机(jī)器(qì)人(rén)在(zài)调(diào)整(zhěng)躯(qū)干(gàn)以(yǐ)获(huò)得(de)最(zuì)佳(jiā)触(chù)及(jí)范(fàn)围(wéi)的(de)同(tóng)时(shí),还(hái)能(néng)用(yòng)头(tóu)部(bù)平(píng)稳(wěn)地(de)跟(gēn)踪(zōng)双(shuāng)手(shǒu),同(tóng)时(shí)保(bǎo)持(chí)手(shǒu)指(zhǐ)的(de)精(jīng)确(què)控(kòng)制(zhì)以(yǐ)进(jìn)行(xíng)抓(zhuā)取(qǔ)。从(cóng)历(lì)史(shǐ)上(shàng)看(kàn),在(zài)如(rú)此(cǐ)高(gāo)维(wéi)的(de)动(dòng)作(zuò)空(kōng)间(jiān)中实现如此高的精确度,即使是对单个已知任务而言,也是极具挑战性的。研究团队表示,目前还没有任何 VLA 系统能够在保持跨任务和跨对象通用能力的同时,实现如此程度的实时协调。
2.零样本多机器人协调
他们在一个极具挑战性的多机器人操控场景中将 Helix 推向了极限:两个 Figure 机器人之间的协作零样本杂货存储。
结果显示,机器人成功地操纵了全新的杂货——在训练过程中从未遇到过的物品——展示了在不同形状、尺寸和材料上的强大泛化能力。此外,两个机器人使用相同的 Helix 模型权重进行操作,无需进行特定的机器人训练或明确的角色分配。它们通过自然语言提示实现协调,例如“将一袋饼干递给你右边的机器人”或“从你左边的机器人手中接过一袋饼干并将其放入打开的抽屉”。这标志着首次展示了多个机器人使用 VLA 进行灵活、扩展的协作操纵,特别是在成功处理全新物体方面意义重大。
3.智能涌现——“捡起任何东西”
他们发现,配备 Helix 的 Figure 机器(qì)人(rén)只(zhǐ)需(xū)接(jiē)收(shōu)“拿(ná)起(qǐ) [X]”的(de)指(zhǐ)令(lìng),就(jiù)能(néng)拿(ná)起几乎任何(hé)小(xiǎo)型(xíng)家(jiā)用(yòng)物(wù)品(pǐn)。在(zài)系(xì)统(tǒng)测(cè)试(shì)中(zhōng),机(jī)器(qì)人(rén)成(chéng)功(gōng)处(chù)理(lǐ)了(le)杂(zá)乱(luàn)物(wù)品(pǐn)中(zhōng)的(de)数(shù)千(qiān)件(jiàn)新(xīn)奇(qí)物(wù)品(pǐn)——从(cóng)玻(bō)璃(lí)器(qì)皿(mǐn)和(hé)玩(wán)具(jù)到(dào)工(gōng)具(jù)和(hé)衣(yī)物(wù)——而无需任何事先演示或定制编程。
尤其值得注意的是,Helix 是如何在互联网规模的语言理解和精确的机器人控制之间架起桥梁的。例如,当提示“拿起沙漠(mò)中(zhōng)的(de)物(wù)品(pǐn)”时(shí),Helix 不(bù)仅(jǐn)能(néng)识(shi)别(bié)出(chū)符(fú)合(hé)这(zhè)一(yī)抽(chōu)象(xiàng)概(gài)念(niàn)的(de)玩(wán)具(jù)仙(xian)人(rén)掌(zhǎng),还(hái)能(néng)选(xuǎn)择(zé)最(zuì)近(jìn)的(de)手(shǒu),并(bìng)执(zhí)行(xíng)精(jīng)确(què)的(de)运(yùn)动(dòng)指(zhǐ)令(lìng),牢(láo)牢(láo)地抓住它。
这种通用的“从语言到行动”的抓取能力为在非结构化环境中部署人形机器人开辟了令人兴奋的新可能性。
“仅仅触及了可能的表面”
在这(zhè)项(xiàng)研(yán)究(jiū)中(zhōng),Helix 展(zhǎn)现(xiàn)出(chū)了(le)训(xun)练(liàn)效(xiào)率(lǜ)高(gāo)且(qiě)仅需要单一权重集的特点。
在训练效率方面,Helix 以(yǐ)极(jí)少(shǎo)的(de)资(zī)源(yuán)实(shí)现(xiàn)了(le)强(qiáng)大(dà)的(de)对(duì)象(xiàng)泛(fàn)化能力。研究团队总共使用了约 500 小时的高质量监督数据对 Helix 进行训练,其规模仅为之前收集的 VLA 数据集的一小部分(<5%),并且不依赖于多(duō)机(jī)器(qì)人(rén)-具(jù)身(shēn)收(shōu)集或(huò)多(duō)阶(jiē)段(duàn)训(xun)练(liàn)。他(tā)们(men)注(zhù)意(yì)到(dào),这(zhè)种(zhǒng)收(shōu)集规(guī)模(mó)与(yǔ)现(xiàn)代(dài)的(de)单(dān)任(rèn)务(wu)模(mó)仿(fǎng)学(xué)习(xí)数(shù)据(jù)集更(gèng)相(xiāng)近(jìn)。尽(jǐn)管(guǎn)对(duì)数(shù)据(jù)的(de)要(yào)求(qiú)相对较低,但 Helix 仍能扩展到更具挑战性的上半身人形控制动作空间,并提供高速率、高维度的输出。
同时,Helix 只需一个统一的模型,就能在不同任务中实现强大的性能。只需使用一组神经网络权重(系统 2 为 7B,系统 1 为 8000 万),Helix 就能在各种容器中拾取和放置物品,操作抽屉和冰箱,协调灵巧的多机器人交接,并操控数千种新奇物品。
研究团队表示,虽然这些早期成果确实令人兴奋,但这仅仅触及了可能的表面。他们急切地想知道,当他们将 Helix 的规模扩大 1000 倍甚至更多时会发生什么。
整理:学术君