訂閱
糾錯
加入自媒體

重磅!阿里達摩院發(fā)布首個VLA與世界模型統(tǒng)一架構RynnVLA-002:97.4%成功率刷新認知

2025-11-25 16:04
AI生成未來
關注

作者:Jun Cen等

解讀:AI生成未來

亮點直擊

統(tǒng)一架構RynnVLA-002,這是一個將視覺-語言-動作(VLA)模型與世界模型統(tǒng)一在單一框架中的“動作世界模型”。

雙向增強:實現(xiàn)了 VLA 與世界模型的互補——世界模型利用物理規(guī)律優(yōu)化動作生成,而 VLA 增強了視覺理解以支持更精準的圖像預測。

混合動作生成策略:針對離散動作生成的誤差累積問題,提出了“動作注意力掩碼”策略;針對實機操作的平滑性與泛化性問題,引入了連續(xù)的 Action Transformer 頭。

卓越性能:在 LIBERO 仿真基準測試中,在無預訓練的情況下達到了 97.4% 的成功率;在真實世界 LeRobot 實驗中,集成世界模型使整體成功率提升了50%。

解決的問題

本工作主要針對現(xiàn)有架構的以下局限性進行改進:

VLA 模型的缺陷

動作理解不足:動作僅作為輸出存在,缺乏內部的顯式表征。

缺乏想象力:無法預測動作執(zhí)行后的世界狀態(tài)演變,缺乏前瞻性。

缺乏物理常識:無法內化物體交互、接觸或穩(wěn)定性等物理動力學。

世界模型的缺陷:無法直接生成動作輸出,存在功能鴻溝,限制了其在顯式動作規(guī)劃場景中的應用。

自回歸動作生成的缺陷:離散動作生成容易產(chǎn)生誤差傳播(Error Propagation),且在真實機器人上容易出現(xiàn)抖動且泛化性差。圖1(a) VLA 模型根據(jù)對圖像的理解生成動作;(b) 世界模型根據(jù)對圖像和動作的理解生成圖像;(c) 動作世界模型將對圖像和動作的理解與生成統(tǒng)一起來。圖1(a) VLA 模型根據(jù)對圖像的理解生成動作;(b) 世界模型根據(jù)對圖像和動作的理解生成圖像;(c) 動作世界模型將對圖像和動作的理解與生成統(tǒng)一起來。

提出的方案

本工作提出了 RynnVLA-002,這是一個自回歸的動作世界模型。

統(tǒng)一詞表:使用三個獨立的 Tokenizer 分別對圖像、文本和動作進行編碼,并共享同一個詞表,使得不同模態(tài)可以在同一個 LLM 架構下統(tǒng)一進行理解和生成。

聯(lián)合訓練:模型既可以作為 VLA 根據(jù)觀察生成動作,也可以作為世界模型根據(jù)動作預測未來圖像。

混合生成機制:保留離散聯(lián)合建模的同時,加入了一個連續(xù)的 Action Transformer 頭,以適應真實世界的連續(xù)控制需求。

應用的技術

基礎架構:初始化自 Chameleon 模型(一種統(tǒng)一圖像理解與生成的模型)。

Tokenization(分詞技術)

圖像:使用 VQ-GAN,壓縮率 16,碼本大小 8192。

文本:BPE Tokenizer。

動作/狀態(tài):將連續(xù)維度離散化為 256 個 bin。

動作注意力掩碼(Action Attention Masking):在離散動作生成中,通過修改 Attention Mask,使得當前動作僅依賴于文本和視覺輸入,而無法看到之前的動作 Token,從而阻斷自回歸過程中的誤差累積。

Action Transformer:引入一個連續(xù)動作頭(類似于 ACT),通過并行解碼生成平滑的動作軌跡,解決離散模型的過擬合與抖動問題。

達到的效果

仿真實驗(LIBERO)RynnVLA-002-Continuous 取得了 97.4% 的平均成功率,在 Spatial、Object、Goal 和 Long 任務上均表現(xiàn)優(yōu)異。優(yōu)于 OpenVLA、SpatialVLA、 等強基線模型,且無需大規(guī)模機器人操作預訓練數(shù)據(jù)。

真機實驗(LeRobot SO100):在干擾物(Distractors)和多目標(Multi-Target)場景下表現(xiàn)出極強的魯棒性。相比 GR00T N1.5 和 ,在復雜場景下的成功率高出 10% 到 30%。

互補驗證:消融實驗證明,引入世界模型數(shù)據(jù)訓練顯著提升了 VLA 的操作成功率(尤其是抓取任務),反之 VLA 數(shù)據(jù)也提升了世界模型的視頻生成質量。

方法框架

概覽

RynnVLA-002 的整體架構旨在統(tǒng)一體現(xiàn)式 AI 的兩大基礎模型:

VLA 模型:策略  根據(jù)語言目標 、本體感知狀態(tài)  和歷史觀測  生成動作 :

世界模型:模型  根據(jù)過去觀測和動作預測下一個觀測 :

本工作混合了 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)來訓練 RynnVLA-002,這是一個整合模型 ,共享參數(shù)組 。這種雙重特性使得模型可以根據(jù)用戶查詢,靈活地作為 VLA 或世界模型運行。

RynnVLA-002 概覽。RynnVLA-002 在訓練過程中涉及 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)。RynnVLA-002 概覽。RynnVLA-002 在訓練過程中涉及 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)。

數(shù)據(jù)Tokenization

Tokenizers:模型初始化自 Chameleon。涉及四種 Tokenizer:圖像、文本、狀態(tài)和動作。

圖像:使用 VQ-GAN,并增加了針對特定區(qū)域(如人臉、顯著物體)的感知損失。圖像被編碼為離散 Token( 圖像對應 256 個 Token)。

文本:BPE Tokenizer。

狀態(tài)與動作:將機器人本體狀態(tài)和動作的每個連續(xù)維度離散化為 256 個區(qū)間(bin)之一。

詞表:所有模態(tài)的 Token 共享一個大小為 65536 的詞表。連續(xù)動作則通過 Action Transformer 生成原始數(shù)值,不進行 Token 化。

VLA 模型數(shù)據(jù)結構

Token 序列為 {text} {state} {image-front-wrist} {action}。模型根據(jù)指令、狀態(tài)和  個歷史圖像生成  個動作塊(Action Chunk)。

世界模型數(shù)據(jù)結構: Token 序列為 {text} {images-front-wrist} {action} {images-front-wrist}。任務是根據(jù)當前圖像和動作生成下一幀圖像。文本前綴統(tǒng)一為“Generate the next frame based on the current image and the action.”。

訓練目標:混合兩種數(shù)據(jù)進行訓練,總損失函數(shù)為 。

動作塊生成

離散動作塊的注意力掩碼 (Attention Mask for Discrete Action Chunk) : 為了提高效率和成功率,模型需要生成多個動作。然而,傳統(tǒng)的自回歸方式會導致誤差傳播,即早期動作的錯誤會影響后續(xù)動作。為此,本工作設計了一種特定的 動作注意力掩碼 (Action Attention Mask)(如圖 3(b) 所示)。該掩碼確當前動作的生成僅依賴于文本和視覺輸入,而禁止訪問先前的動作 Token。這種設計使得自回歸框架能夠獨立生成多個動作,有效緩解了誤差累積問題。

連續(xù)動作塊的 Action Transformer (Action Transformer for Continuous Action Chunk) : 盡管離散模型在仿真中表現(xiàn)尚可,但在真實世界中由于光照、物體位置等動態(tài)變量,表現(xiàn)不佳且動作不平滑。為此,本工作增加了一個 Action Transformer 模塊:

原理:處理完整的上下文(語言、圖像、狀態(tài) Token),并利用可學習的 Action Queries 并行輸出整個動作塊(Action Chunk)。

優(yōu)勢:架構更緊湊,不易在有限數(shù)據(jù)上過擬合;并行生成所有動作,推理速度顯著快于順序生成的自回歸基線;生成的軌跡更平滑穩(wěn)定。

損失函數(shù):使用 L1 回歸損失 。

最終總損失函數(shù)

實驗

指標 (Metrics)本工作的評估分為兩部分。為了評估 VLA 模型,本工作測量其在每個任務 50 次部署展示(rollout)中的成功率,每次都在不同的狀態(tài)下初始化。為了評估世界模型,本工作使用四個標準指標在保留驗證集上測量其視頻預測準確性:Fréchet 視頻距離 (FVD)、峰值信噪比 (PSNR)、結構相似性指數(shù) (SSIM) 和學習感知圖像塊相似度 (LPIPS)。

基準測試結果 (Benchmark Results)本工作分別評估了離散動作和連續(xù)動作的性能。如下表1 所示,本工作的 RynnVLA-002 在離散動作下達到了 93.3% 的高成功率,在連續(xù)動作下達到了 97.4% 的高成功率,證明了本工作核心設計原則的有效性:聯(lián)合學習 VLA 建模和世界建模、用于離散動作生成的注意力掩碼(attention mask)機制,以及添加的連續(xù)動作 Transformer (Action Transformer)。令人驚訝的是,即使沒有任何預訓練,本工作的 RynnVLA-002 仍然與在 LIBERO-90 或大規(guī)模真實機器人數(shù)據(jù)集上預訓練的強基線模型表現(xiàn)相當。

真實世界機器人結果

數(shù)據(jù)集 (Datasets)

本工作整理了一個使用 LeRobot SO100 機械臂收集的新真實世界操作數(shù)據(jù)集。所有軌跡均通過人類遠程操作獲得的專家演示。本工作定義了兩個抓取和放置任務進行評估: (1) 將方塊放入圓圈內:強調基本的物體檢測和抓取執(zhí)行(248 個演示); (2) 將草莓放入杯子中:需要細粒度的定位和抓取點預測(249 個演示)。

基線 (Baselines)

本工作與兩個強大的開源基線進行了比較:GR00T N1.5 和  。對于這兩種方法,本工作從官方預訓練檢查點進行初始化,并在用于本模型的同一 SO100 數(shù)據(jù)集上對其進行微調。本工作采用這些基線官方代碼庫中的相同配方進行微調。

評估 (Evaluation)

如圖 4 所示,本工作的評估涵蓋三種場景:

單目標操作 (Single-target) :桌面上僅有一個目標物體;

多目標操作 (Multi-target) :存在多個目標物體;

帶干擾物的指令跟隨 (Instruction-following with distractors) :目標物體和干擾物同時出現(xiàn)。

如果機器人在預定義的時間預算內將至少一個目標物體放入指定位置,則視為試驗成功。如果發(fā)生以下情況,則試驗失。(1) 超出時間限制;(2) 機器人在一個目標上累計超過五次連續(xù)的抓取失敗嘗試;(3) 在帶干擾物的指令跟隨設置中,智能體嘗試操作任何干擾物體。每個任務測試 10 次,本工作報告成功率。

結果

下表 2 展示了真實世界機器人的實驗結果。RynnVLA-002 在沒有預訓練的情況下,取得了與 GR00T N1.5和  具有競爭力的結果。值得注意的是,RynnVLA-002 在雜亂環(huán)境中的表現(xiàn)優(yōu)于基線。例如,在“放置方塊”任務的多目標任務和充滿干擾物的場景中,RynnVLA-002 的成功率均超過 80%,超過基線 10% 到 30%。

消融實驗

世界模型反哺 VLA:在 LIBERO 上,加入世界數(shù)據(jù)后,離散動作平均成功率從 62.8% → 78.1%;真實機器人若缺世界數(shù)據(jù),成功率直接掉至 30% 以下?梢暬l(fā)現(xiàn),聯(lián)合訓練后機械臂會“主動重試”抓取,說明其對物體動態(tài)關注度更高。

VLA 反哺世界模型:混合訓練后的世界模型在 FVD、PSNR、SSIM、LPIPS 上持平或優(yōu)于純 World 模型;視頻可視化顯示,基線世界模型常漏預測“碗被成功抓起”的關鍵幀,而本文模型能準確生成抓取過程中的接觸與抬升。

離散動作 token 的預訓練作用:把離散動作 token 作為連續(xù)頭的輔助輸入,可顯著加速收斂(圖 8)。

腕部相機 & 本體狀態(tài):在真實場景缺一不可;缺失時任一組件都會導致抓取時機錯誤或完全失敗。

效率與 chunk 長度:連續(xù)動作推理頻率幾乎隨 chunk 長度線性增長,48 Hz 下仍保持 97% 成功率;離散動作通過 chunking 也能將單步 2.5 Hz 提升到 3.7 Hz。

世界模型預訓練:先純粹用世界數(shù)據(jù)預訓練 1 階段,再切入 VLA 任務,可將“Goal”類任務從 67.3% 提升到 73.1%,驗證“物理知識冷啟動”對后續(xù)策略學習有效。

總結

RynnVLA-002,一個統(tǒng)一的框架,它將 VLA 和世界模型集成在一起,并證明了它們之間能夠相互增強。通過這一貢獻,本工作旨在為具身智能(Embodied AI)研究社區(qū)提供一種具體的方法論,以實現(xiàn) VLA 與世界模型之間的協(xié)同作用。此外,本工作相信這項研究有助于為跨越文本、視覺和動作的多模態(tài)理解與生成奠定統(tǒng)一的基礎。

參考文獻

[1] RynnVLA-002: A Unified Vision-Language-Action and World Model

       原文標題 : 重磅!阿里達摩院發(fā)布首個VLA與世界模型統(tǒng)一架構RynnVLA-002:97.4%成功率刷新認知

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號