訂閱
糾錯(cuò)
加入自媒體

VLA模型如何重塑具身智能 —— 8家國(guó)內(nèi)外典型具身智能VLA模型梳理與分析

一、國(guó)外典型具身智能VLA架構(gòu)

國(guó)外4家典型的具身智能VLA模型:谷歌DeepMind RT-2、Physical AI 

π0 、Figure AI Helix 、英偉達(dá)GR00T N1。

1. 谷歌DeepMind —— RT2

2023年7月,谷歌DeepMind發(fā)布具身智能視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)RT-2(Robotics Transformer 2)。其核心設(shè)計(jì)是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機(jī)器人動(dòng)作軌跡數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的視覺(jué)-語(yǔ)言模型(VLM)進(jìn)行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識(shí)遷移到機(jī)器人控制中,實(shí)現(xiàn)端到端的語(yǔ)義推理與動(dòng)作生成。

1)模型架構(gòu)

RT-2以預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型為核心骨干,通過(guò)動(dòng)作Token 化將機(jī)器人控制任務(wù)統(tǒng)一到自然語(yǔ)言生成框架中,形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對(duì)應(yīng)的實(shí)例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

谷歌RT-2模型架構(gòu)(圖片來(lái)源:谷歌論文)

2)聯(lián)合微調(diào)(Co-Fine-Tune)

將機(jī)器人動(dòng)作數(shù)據(jù)(來(lái)自RT-1)與網(wǎng)絡(luò)數(shù)據(jù)混合,共同輸入模型進(jìn)行聯(lián)合微調(diào)。其中,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺(jué)問(wèn)答(VQA)、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機(jī)器人動(dòng)作數(shù)據(jù)為13臺(tái)機(jī)器人持續(xù)(歷經(jīng))17個(gè)月采集的辦公環(huán)境中的廚房場(chǎng)景數(shù)據(jù)(與RT-1訓(xùn)練所使用的數(shù)據(jù)相同)。

在具體實(shí)現(xiàn)方案中,谷歌DeepMind通過(guò)提高機(jī)器人動(dòng)作數(shù)據(jù)集的采樣權(quán)重,以平衡每批次訓(xùn)練數(shù)據(jù)中機(jī)器人動(dòng)作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。

模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動(dòng)作空間之間的映射關(guān)系。為此,需要預(yù)先保留256 個(gè)標(biāo)記(tokens)作為專用的動(dòng)作標(biāo)記。具體選擇哪些標(biāo)記作為動(dòng)作標(biāo)記,取決于所使用的視覺(jué)語(yǔ)言模型(VLM)的分詞方案:

PaLI-X:由于其分詞方案為每個(gè)不超過(guò) 1000 的整數(shù)分配了唯一的標(biāo)記,因此可直接將 action bins 映射到對(duì)應(yīng)的整數(shù)標(biāo)記上。

PaLM-E:該模型的分詞方案不包含數(shù)字的直接表示,因此需要覆蓋詞匯表中 256個(gè)使用頻率最低的標(biāo)記,將它們重新定義為動(dòng)作詞匯表。

DeepMind通過(guò)實(shí)驗(yàn)證明 —— 提升機(jī)器人性能的關(guān)鍵訓(xùn)練技巧在于:將機(jī)器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聯(lián)合微調(diào),而非僅對(duì)機(jī)器人數(shù)據(jù)實(shí)施簡(jiǎn)單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強(qiáng)的策略,因?yàn)樵诖诉^(guò)程中,策略同時(shí)接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺(jué)概念和微調(diào)過(guò)程中的低層級(jí)機(jī)器人動(dòng)作,而非僅局限于機(jī)器人動(dòng)作。

3)動(dòng)作Token化機(jī)制

RT-2 的動(dòng)作 Token 化機(jī)制是其實(shí)現(xiàn)語(yǔ)義 - 動(dòng)作對(duì)齊的核心技術(shù),通過(guò)離散化編碼、共享詞匯表空間和VLM語(yǔ)義賦能三個(gè)層面的創(chuàng)新,將機(jī)器人控制信號(hào)轉(zhuǎn)化為可被視覺(jué) - 語(yǔ)言模型(VLM)直接處理的離散標(biāo)記。

其中,動(dòng)作離散化編碼采用與RT-1相同的離散化方案。比如,將連續(xù)動(dòng)作空間(如機(jī)械臂6自由度位姿)均勻量化為256個(gè)離散區(qū)間。

另外,使用共享詞匯表空間。比如,在預(yù)訓(xùn)練VLM(如PaLI-X)的文本詞匯表中新增512個(gè)專用動(dòng)作Token,動(dòng)作Token被嵌入預(yù)訓(xùn)練VLM的詞匯表,通過(guò)同一Transformer解碼器自回歸生成混合序列,實(shí)現(xiàn)語(yǔ)言與動(dòng)作的符號(hào)統(tǒng)一。

RT-2 與標(biāo)準(zhǔn)VLM模型的核心區(qū)別在于:RT-2必須輸出有效的動(dòng)作token才能在真實(shí)機(jī)器人上執(zhí)行。為確保 RT-2 在解碼過(guò)程中輸出有效動(dòng)作標(biāo)記,通過(guò)以下方式約束其輸出詞匯表:

機(jī)器人動(dòng)作任務(wù)場(chǎng)景:當(dāng)模型接收到機(jī)器人動(dòng)作任務(wù)提示時(shí),僅允許采樣有效的動(dòng)作tokens。

標(biāo)準(zhǔn)視覺(jué)語(yǔ)言任務(wù):模型仍然被允許輸出所有可能的自然語(yǔ)言tokens(如問(wèn)答、圖像描述等)。

2. Physical Intelligence(PI)—— π0模型

2024 年10月 ,Physical Intelligence(PI)正式發(fā)布機(jī)器人領(lǐng)域端到端視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型 π0。

2025年2月,PI宣布開(kāi)源基礎(chǔ)版π0與快速推理版π0-FAST,開(kāi)源內(nèi)容涵蓋預(yù)訓(xùn)練模型參數(shù)、任務(wù)微調(diào)檢查點(diǎn)及全流程推理代碼,為學(xué)術(shù)界與產(chǎn)業(yè)界提供完整的具身智能開(kāi)發(fā)框架。

1)模型整體架構(gòu)

π0 模型整體架構(gòu)示意圖(圖片來(lái)源:PI論文)

π0 模型包括一個(gè)預(yù)訓(xùn)練的VLM 模型和一個(gè)采用條件流匹配技術(shù)的動(dòng)作專家模型(Action expert)。

其中,VLM 直接基于谷歌開(kāi)源的30億參數(shù)規(guī)模的PaliGemma 模型構(gòu)建;動(dòng)作專家模型采用獨(dú)立部署的3億參數(shù)權(quán)重,通過(guò)全層雙向跨模態(tài)注意力交互機(jī)制與 VLM 深度交互。

該模型基于雙模塊架構(gòu)實(shí)現(xiàn)端到端控制。在具體的數(shù)據(jù)處理與動(dòng)作生成流程中:

VLM 主干網(wǎng)絡(luò)(PaliGemma)負(fù)責(zé)處理圖像與文本輸入并提取語(yǔ)義特征,機(jī)器人本體感知數(shù)據(jù)(如關(guān)節(jié)角度、力反饋)通過(guò)獨(dú)立編碼器嵌入;兩類信息經(jīng)跨模態(tài)投影層映射至統(tǒng)一空間,形成視覺(jué) - 語(yǔ)言 - 物理信號(hào)的融合表征。

動(dòng)作專家模塊以該融合表征為條件,依托條件流匹配技術(shù)與動(dòng)作分塊算法,以50Hz 高頻生成連續(xù)動(dòng)作分布,直接驅(qū)動(dòng)機(jī)器人精準(zhǔn)執(zhí)行復(fù)雜靈巧任務(wù)。

2)模型訓(xùn)練

在訓(xùn)練策略上,π0模型采用了預(yù)訓(xùn)練+ 后訓(xùn)練(微調(diào))的模式。先在多樣性的大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,再用高質(zhì)量數(shù)據(jù)進(jìn)行后訓(xùn)練,從而達(dá)到所需的精細(xì)控制能力。

π0模型的預(yù)訓(xùn)練和后訓(xùn)練(圖片來(lái)源:PI論文)

a. 預(yù)訓(xùn)練階段

在預(yù)訓(xùn)練階段,預(yù)訓(xùn)練數(shù)據(jù)集應(yīng)覆蓋多樣化任務(wù),并使模型構(gòu)建跨任務(wù)、跨本體的通用動(dòng)作生成范式,實(shí)現(xiàn)從“單一任務(wù)模仿” 到 “動(dòng)態(tài)場(chǎng)景泛化” 的能力躍升。

VLM預(yù)訓(xùn)練使用數(shù)據(jù):大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)(圖像、視頻以及文本)。實(shí)際上,PI團(tuán)隊(duì)?wèi)?yīng)該是直接使用Google開(kāi)源 VLM —— PaliGemma的預(yù)訓(xùn)練權(quán)重。

動(dòng)作專家模型預(yù)訓(xùn)練使用數(shù)據(jù):開(kāi)源真機(jī)數(shù)據(jù)集Open X-Embodiment 和 PI自己基于遙操作采集的真機(jī)數(shù)據(jù)(涵蓋7種機(jī)器人本體和68項(xiàng)任務(wù)),數(shù)據(jù)總時(shí)長(zhǎng)超過(guò)10000小時(shí)。

b. 后訓(xùn)練階段

在后訓(xùn)練階段,針對(duì)特定任務(wù),依靠PI自己收集的高質(zhì)量真機(jī)數(shù)據(jù)集去訓(xùn)練模型。通過(guò)模仿學(xué)習(xí)框架,進(jìn)一步提高模型在特定任務(wù)上的成功率,目標(biāo)是支持完成疊衣服、清理餐桌等復(fù)雜靈巧的下游任務(wù)。

3. Figure AI —— Helix模型

2025年2月,F(xiàn)igure AI發(fā)布了通用具身基礎(chǔ)模型Helix ,該模型采用雙系統(tǒng)架構(gòu):系統(tǒng)S1(快思考系統(tǒng))+ 系統(tǒng)S2 (慢思考系統(tǒng))。

Helix系統(tǒng)架構(gòu)(圖片來(lái)源:Figure AI)

1)S1系統(tǒng):一個(gè)80M參數(shù)規(guī)模的Transformer模型,依賴一個(gè)完全卷積的多尺度視覺(jué)骨干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理。

S系統(tǒng)以 200Hz的頻率輸出完整的上半身人形控制,包括期望的手腕姿態(tài)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于機(jī)器人真機(jī)數(shù)據(jù)。

2)S2系統(tǒng):一個(gè)7B參數(shù)規(guī)模的預(yù)訓(xùn)練VLM模型,用于處理機(jī)器人單目視覺(jué)圖像和機(jī)器人狀態(tài)信息(包括手腕姿態(tài)和手指位置),并將它們投影到視覺(jué)語(yǔ)言嵌入空間中。

S2 系統(tǒng)將所有語(yǔ)義任務(wù)相關(guān)信息提煉為一個(gè)連續(xù)的潛在向量,以7-9 Hz的頻率傳遞給 S1系統(tǒng) ,為機(jī)器人的行為決策提供高層次的指導(dǎo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于大規(guī)模的互聯(lián)網(wǎng)文本、圖片以及視頻數(shù)據(jù)。

3)兩者之間的關(guān)聯(lián):系統(tǒng)1與系統(tǒng)2兩者之間解耦,每個(gè)系統(tǒng)不僅能夠進(jìn)行獨(dú)立迭代,而且,每個(gè)系統(tǒng)都可以在其最佳時(shí)間尺度上運(yùn)行。比如,S2系統(tǒng)可以「慢慢思考」高層次目標(biāo),而S1系統(tǒng)可以「快速思考」機(jī)器人實(shí)時(shí)執(zhí)行以及需要調(diào)整的動(dòng)作。

S1系統(tǒng)與 S2系統(tǒng)分別部署于機(jī)器人上的兩塊獨(dú)立專用 GPU上,二者對(duì)GPU要求不同:

S1系統(tǒng)需以 200Hz 高頻輸出連續(xù)動(dòng)作,要求低延遲和高能效,以確保實(shí)時(shí)控制;

S2系統(tǒng)需要部署7B參數(shù)的 VLM模型, 對(duì)算力需求更高,適合部署在高顯存、高算力的GPU上。

在演示視頻中,兩臺(tái)采用相同Helix 模型權(quán)重的人形機(jī)器人,無(wú)需訓(xùn)練或角色分配,即可通過(guò)自然語(yǔ)言協(xié)作實(shí)現(xiàn)零樣本雜貨存放。

Helix 通過(guò)架構(gòu)創(chuàng)新、數(shù)據(jù)效率提升與硬件適配優(yōu)化,突破了傳統(tǒng)機(jī)器人模型依賴多任務(wù)獨(dú)立訓(xùn)練的技術(shù)局限,這種設(shè)計(jì)使其在家庭服務(wù)、工業(yè)協(xié)作等場(chǎng)景中,具備任務(wù)快速遷移與場(chǎng)景拓展的潛力。

4. 英偉達(dá) —— GR00T N1

在2025年3月的GTC開(kāi)發(fā)者大會(huì)上,英偉達(dá)推出全球首個(gè)開(kāi)源、可定制的通用人形機(jī)器人模型 GR00T N1。

GR00T N1是一個(gè)雙系統(tǒng)架構(gòu)的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,采用流匹配(Flow-Matching)技術(shù)來(lái)學(xué)習(xí)動(dòng)作生成。

GR00T N1模型架構(gòu)簡(jiǎn)化版(圖片來(lái)源:英偉達(dá)論文)

(1)“系統(tǒng)2”是基于視覺(jué)-語(yǔ)言模型(VLM)的推理模塊,負(fù)責(zé)深度推理與規(guī)劃,類似人類的"思考中樞",運(yùn)行頻率較低(10Hz)。

在英偉達(dá)L40 GPU上運(yùn)行預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(如 Eagle-2 VLM),處理機(jī)器人的視覺(jué)感知圖像信息和語(yǔ)言指令,以解釋環(huán)境并理解任務(wù)目標(biāo)以及語(yǔ)言指令。

圖像輸入→ 使用圖像編碼器(Vision Encoder)編碼為Image Tokens 

語(yǔ)言指令輸入→ 使用文本分詞器(Text Tokenizer)轉(zhuǎn)化為文本標(biāo)記

(2)“系統(tǒng)1”是基于擴(kuò)散變換器(DiT)的動(dòng)作模塊,負(fù)責(zé)快速動(dòng)作生成,類似人類的"運(yùn)動(dòng)中樞",運(yùn)行頻率更高(120Hz)。

DiT處理機(jī)器人的本體感知狀態(tài)和動(dòng)作,這些信息隨后與經(jīng)過(guò)Eagle-2 VLM主干網(wǎng)絡(luò)處理后輸出的圖像標(biāo)記(image tokens)和文本標(biāo)記(text tokens)進(jìn)行交叉注意力運(yùn)算,最終輸出去噪后的電機(jī)動(dòng)作。

輸入:系統(tǒng)2的輸出Tokens(Image Tokens 和 Text Tokens)+ 機(jī)器人本體狀態(tài)(如關(guān)節(jié)位置等)+ 帶噪聲的動(dòng)作向量。

處理:通過(guò)交叉注意力機(jī)制融合多源輸入,逐步去噪生成動(dòng)作序列。

輸出:去噪后的運(yùn)動(dòng)動(dòng)作(如抓取軌跡)。

GR00T N1模型架構(gòu)詳情版(圖片來(lái)源:英偉達(dá)論文)

備注:英偉達(dá)公開(kāi)發(fā)布的GR00T-N1-2B 模型總參數(shù)為22億,其中視覺(jué) - 語(yǔ)言模型(VLM)包含13.4 億參數(shù)。在 L40 GPU 上使用 bf16 精度時(shí),采樣16個(gè)動(dòng)作片段的推理時(shí)間為63.9毫秒。

“系統(tǒng)1”和“系統(tǒng)2”都是基于Transformer構(gòu)建的神經(jīng)網(wǎng)絡(luò),二者在訓(xùn)練過(guò)程中緊密耦合、聯(lián)合優(yōu)化,以實(shí)現(xiàn)推理與執(zhí)行的高效協(xié)同。

GR00T N1模型預(yù)訓(xùn)練所使用的數(shù)據(jù)類型:真實(shí)機(jī)器人演示數(shù)據(jù)、合成數(shù)據(jù)(Omniverse生成)以及互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)。

用于機(jī)器人基礎(chǔ)模型訓(xùn)練的“數(shù)據(jù)金字塔”(圖片來(lái)源:英偉達(dá)論文)

應(yīng)用案例:1X Technologies、Agility Robotics、Boston Dynamics、傅利葉等機(jī)器人公司已接入GR00T N1,利用該基礎(chǔ)模型及其配套工具鏈開(kāi)發(fā)新一代機(jī)器人產(chǎn)品,并在不同的應(yīng)用場(chǎng)景中進(jìn)行落地實(shí)踐。

二、國(guó)內(nèi)典型具身智能VLA模型

國(guó)內(nèi)4家典型的具身智能VLA模型:星動(dòng)紀(jì)元ERA-42、銀河通用GraspVLA、智元機(jī)器人Genie Operator-1(GO-1)、靈初智能Psi-R1。

1. 星動(dòng)紀(jì)元 —— ERA-42

2024年12月,星動(dòng)紀(jì)元推出端到端原生機(jī)器人大模型ERA-42。該模型采用高層次規(guī)劃和低層次控制的雙系統(tǒng)架構(gòu)。系統(tǒng)之間使用latent變量進(jìn)行通信連接,實(shí)現(xiàn)了兩者之間的高效信息傳遞和協(xié)同工作。

ERA-42模型架構(gòu)(初版)

a. 高層次規(guī)劃系統(tǒng):采用7B參數(shù)的Instructblip視覺(jué)語(yǔ)言模型,負(fù)責(zé)將視覺(jué)信息與語(yǔ)言指令轉(zhuǎn)化為蘊(yùn)含常識(shí)知識(shí)的潛在特征,支持長(zhǎng)期場(chǎng)景理解(含任務(wù)規(guī)劃與糾錯(cuò))。

它相當(dāng)于是人類的“慢思考”系統(tǒng),可以對(duì)任務(wù)指令進(jìn)行深入理解,生成高層次的動(dòng)作規(guī)劃,為機(jī)器人的行為提供戰(zhàn)略指導(dǎo)。

其中,InstructBLIP 由預(yù)訓(xùn)練視覺(jué)編碼器(采用ViT架構(gòu))、大語(yǔ)言模型(LLM)、可學(xué)習(xí)查詢 tokens 以及 Q-Former 組成。

b. 低層次控制系統(tǒng):采用40M參數(shù)的緊湊型視覺(jué)驅(qū)動(dòng)動(dòng)作策略的Transformer網(wǎng)絡(luò),處理短期場(chǎng)景認(rèn)知,融合歷史觀測(cè)與視覺(jué)語(yǔ)言模型的潛在特征。

它相當(dāng)于是人類的“快思考”系統(tǒng),根據(jù)高層次規(guī)劃系統(tǒng)的輸出結(jié)果以及實(shí)時(shí)的環(huán)境反饋,它可以實(shí)現(xiàn)高頻地精確控制機(jī)器人的動(dòng)作,確保動(dòng)作的準(zhǔn)確性和實(shí)時(shí)性。

工作原理:指令經(jīng)由視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)化為連續(xù)潛在表征(continuous latent),并與采樣視覺(jué)觀測(cè)數(shù)據(jù)共同緩存至潛在緩沖區(qū)(latent buffer)。在推理的每一步:

預(yù)訓(xùn)練視覺(jué)編碼器基于最新潛在表征對(duì)視覺(jué)觀測(cè)進(jìn)行條件化編碼;

降維后的視覺(jué)語(yǔ)言標(biāo)記(reduced vision-language tokens)通過(guò)條件化動(dòng)作頭(conditioned action head)解碼為底層動(dòng)作。

ERA-42 初版基于 HiRT 架構(gòu)構(gòu)建,而在后續(xù)的迭代版本中通過(guò)集成動(dòng)作預(yù)測(cè)擴(kuò)散器(PAD)升級(jí)了世界模型,形成以 HiRT 為基礎(chǔ)框架、PAD 為預(yù)測(cè)模塊的復(fù)合架構(gòu)。

2)模型訓(xùn)練

模型訓(xùn)練使用數(shù)據(jù)類型:大規(guī)模視頻數(shù)據(jù)(預(yù)訓(xùn)練)+少部分基于遙操作的真機(jī)數(shù)據(jù)(后訓(xùn)練)。

預(yù)訓(xùn)練階段:由于采用融入世界模型的方式,ERA-42直接利用未標(biāo)注的原始視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型聚焦于原始視頻本身的預(yù)測(cè),而非對(duì)物體姿態(tài)、關(guān)鍵點(diǎn)等處理后的信息進(jìn)行預(yù)測(cè)。此舉旨在最大程度保留信息完整性,規(guī)避因人為定義的規(guī)則、范式或先驗(yàn)知識(shí)導(dǎo)致的信息損耗。

后訓(xùn)練階段:ERA-42 引入強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)構(gòu)建獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型探尋最優(yōu)動(dòng)作策略。此階段的模型訓(xùn)練主要采用基于遙操作方式獲取的真機(jī)數(shù)據(jù)。

ERA-42模型訓(xùn)練使用數(shù)據(jù)(圖片來(lái)源:星動(dòng)紀(jì)元)

應(yīng)用效果:基于ERA-42的能力, 星動(dòng)紀(jì)元自研的五指靈巧手星動(dòng)X HAND1可使用包括不限于螺釘鉆、錘子、取液槍等多種多樣的工具,完成更通用、靈巧性更強(qiáng)、復(fù)雜度更高的百種以上操作任務(wù)。并且,可以持續(xù)在同一個(gè)模型下學(xué)習(xí)新的技能。

2. 銀河通用 —— GraspVLA

2025年1月,銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員發(fā)布端到端具身抓取基礎(chǔ)大模型GraspVLA。

1)模型整體架構(gòu)

GraspVLA 由一個(gè)自回歸視覺(jué)語(yǔ)言骨干網(wǎng)絡(luò)(VLM)和一個(gè)基于流匹配的動(dòng)作專家模型組成,兩個(gè)模塊通過(guò)漸進(jìn)式動(dòng)作生成(PAG)機(jī)制連接。

其中,VLM模塊包括一個(gè)大語(yǔ)言模型(InternLM2 1.8B版本)一個(gè)視覺(jué)編碼器(融合了凍結(jié)參數(shù)的DINO-v2和SigLIP模型提取的特征)以及一個(gè)負(fù)責(zé)將視覺(jué)特征空間映射到語(yǔ)言特征空間的可訓(xùn)練投影器。

GraspVLA系統(tǒng)架構(gòu)(圖片來(lái)源:銀河通用)

主要作用:VLM的作用是獲取觀察圖像和文本指令,用于視覺(jué)-語(yǔ)言聯(lián)合感知。動(dòng)作專家模塊的主要作用是進(jìn)行細(xì)粒度的末端執(zhí)行器的動(dòng)作生成。

工作原理:在數(shù)據(jù)層面,模型利用互聯(lián)網(wǎng)基礎(chǔ)數(shù)據(jù)與合成動(dòng)作數(shù)據(jù)的協(xié)同效應(yīng),流程為:首先為合成數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)生成目標(biāo)物體的2D 邊界框;隨后,僅針對(duì)合成數(shù)據(jù)集,由 VLM 在機(jī)器人基坐標(biāo)系中進(jìn)一步預(yù)測(cè)目標(biāo)的抓取姿態(tài);最終,動(dòng)作專家基于 VLM 處理輸入及中間推理令牌(tokens) 時(shí)產(chǎn)生的鍵值緩存(key-value cache),為合成數(shù)據(jù)集生成動(dòng)作塊(action chunk)。

2)模型訓(xùn)練

GraspVLA的模型訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中,預(yù)訓(xùn)練是針對(duì)通用需求,主要采用大規(guī)模合成數(shù)據(jù)去訓(xùn)練。后訓(xùn)練是針對(duì)專用需求,主要基于少部分真機(jī)數(shù)據(jù)訓(xùn)練。

a. 預(yù)訓(xùn)練

在沒(méi)有大規(guī)模真實(shí)數(shù)據(jù)的條件下,銀河通用以10億級(jí)規(guī)模的仿真合成數(shù)據(jù)(SynGrasp-1B)為基礎(chǔ)對(duì)GraspVLA進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了支持通用需求的基礎(chǔ)模型 —— “通才”,掌握了包括高度泛化、平面位置泛化、物體類別泛化、光照泛化、干擾物泛化、背景泛化和閉環(huán)能力在內(nèi)的七大泛化能力,能夠在真實(shí)場(chǎng)景中實(shí)現(xiàn)零樣本抓取,無(wú)需額外訓(xùn)練即可應(yīng)對(duì)未見(jiàn)過(guò)物體的復(fù)雜擺放和動(dòng)態(tài)環(huán)境變化。

SynGrasp-1B —— 10億級(jí)規(guī)模的合成數(shù)據(jù)(圖片來(lái)源:銀河通用)

備注:SynGrasp-1B 是基于先進(jìn)光線追蹤渲染技術(shù)與物理模擬系統(tǒng)構(gòu)建的十億幀級(jí)抓取數(shù)據(jù)集。該數(shù)據(jù)集涵蓋 240個(gè)物體類別、10680 個(gè)實(shí)例,依托160 張 NVIDIA 4090 GPU 組成的計(jì)算集群,歷時(shí)10天完成十億幀數(shù)據(jù)的生成工作。

b. 后訓(xùn)練

針對(duì)專用需求,需要再對(duì)基礎(chǔ)模型進(jìn)行后訓(xùn)練,即進(jìn)一步通過(guò)小樣本真機(jī)數(shù)據(jù)進(jìn)行微調(diào),可使其成長(zhǎng)為特定場(chǎng)景應(yīng)用下的“專才”。例如,面向工業(yè)場(chǎng)景中抓取接線座、三角板等特殊零部件的需求,僅需少量真實(shí)數(shù)據(jù)后訓(xùn)練,模型就能快速掌握工業(yè)術(shù)語(yǔ),實(shí)現(xiàn)特定零部件的精準(zhǔn)抓取,進(jìn)而實(shí)現(xiàn)基礎(chǔ)能力的快速遷移。

3. 智元機(jī)器人 —— 智元啟元大模型GO-1

2025年3月,智元機(jī)器人正式發(fā)布基于ViLLA(Vision-Language-Latent-Action)架構(gòu)打造的通用具身基座大模型:智元啟元大模型 —— Genie Operator-1(簡(jiǎn)稱GO-1 )。

Genie Operator-1模型架構(gòu)(圖片來(lái)源:智元機(jī)器人)

其中,ViLLA架構(gòu)由VLM(視覺(jué)-語(yǔ)言多模態(tài)大模型) + MoE(混合專家)組成。其中,MoE包含混合專家1 —— Latent Planner(隱式規(guī)劃器)和混合專家2 —— Action Expert(動(dòng)作專家)兩部分組成。

1)VLM模型:采用InternVL-2B多模態(tài)大模型,接收多視角視覺(jué)圖片、力覺(jué)信號(hào)、自然語(yǔ)言等多模態(tài)信息的輸入,實(shí)現(xiàn)通用的場(chǎng)景感知和理解以及語(yǔ)言指令的理解。

該模型訓(xùn)練所使用的數(shù)據(jù)主要來(lái)自大規(guī)模的互聯(lián)網(wǎng)圖像和文本數(shù)據(jù)。

2)混合專家1 —— Latent Planner(隱式規(guī)劃器):模型架構(gòu)采用與VLM 主干網(wǎng)絡(luò)相同的Transformer 結(jié)構(gòu),但使用兩套獨(dú)立的FFN(前饋神經(jīng)網(wǎng)絡(luò))和Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。

它的主要作用為基于VLM的中間層輸出預(yù)測(cè)Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),以實(shí)現(xiàn)通用動(dòng)作的理解和規(guī)劃。

該模型訓(xùn)練所使用的數(shù)據(jù):主要為大量人類操作和跨本體操作視頻,目的在于將異構(gòu)數(shù)據(jù)源中真實(shí)世界的動(dòng)作知識(shí)遷移到通用操作任務(wù)中。

3)混合專家2 ——Action Expert(動(dòng)作專家):在結(jié)構(gòu)設(shè)計(jì)上與Latent Planner類似,也是與VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu)。

它的作用在于基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細(xì)動(dòng)作序列。

該模型訓(xùn)練所使用的數(shù)據(jù)是高質(zhì)量的真機(jī)數(shù)據(jù)。

簡(jiǎn)單來(lái)說(shuō):VLM模型負(fù)責(zé)“看懂”世界和任務(wù),Latent Planner在“腦海”中構(gòu)思出達(dá)成目標(biāo)的步驟(做什么),Action Expert則將這些步驟轉(zhuǎn)化為機(jī)器人身體能執(zhí)行的具體動(dòng)作(怎么做)。三者形成“感知→規(guī)劃→執(zhí)行”的閉環(huán)。

4. 靈初智能 —— Psi-R1

2025年4月,靈初智能正式推出基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身VLA模型Psi-R1。

Psi R1模型采取了“快慢腦”的分層架構(gòu),其中,快腦S1專注操作,慢腦S2專注推理,此架構(gòu)支持機(jī)器人在開(kāi)放環(huán)境下實(shí)現(xiàn)自主推理決策和長(zhǎng)程靈巧操作的能力。

上層規(guī)劃Planner(即慢腦S2系統(tǒng)):采用基于自回歸生成機(jī)制的Causal VLM架構(gòu),負(fù)責(zé)場(chǎng)景抽象理解、任務(wù)規(guī)劃決策。

下層控制Controller(即快腦S1系統(tǒng)):采用DiT 模塊,專注于高精度的控制執(zhí)行操作。

Psi-R1模型架構(gòu)(圖片來(lái)源:靈初智能)

Psi-R1模型通過(guò) Action Tokenizer 將慢腦S2輸出的高層動(dòng)作規(guī)劃離散化為可執(zhí)行指令,供快腦S1解析執(zhí)行,實(shí)現(xiàn)動(dòng)作空間的統(tǒng)一表征。該機(jī)制協(xié)同視覺(jué)—語(yǔ)言模態(tài)編碼器,共同完成跨模態(tài)對(duì)齊與融合。

據(jù)了解,Psi-R1模型是構(gòu)建了首個(gè)支持「動(dòng)作感知 - 環(huán)境反饋 - 動(dòng)態(tài)決策」全閉環(huán)的VLA模型,實(shí)現(xiàn)機(jī)器人操作的視覺(jué)-語(yǔ)言-動(dòng)作多模態(tài)協(xié)同的的CoAT思維鏈。再通過(guò)真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練,搭載R1模型的機(jī)器人能夠在多數(shù)靈巧操作任務(wù)中展現(xiàn)出接近人類水平的目標(biāo)泛化能力與長(zhǎng)程任務(wù)操作穩(wěn)定性。

應(yīng)用場(chǎng)景:麻將作為策略性博弈棋牌,兼具高度隨機(jī)性與交互性。在這一場(chǎng)景中,搭載R1 模型的機(jī)器人能夠完整進(jìn)行一局時(shí)長(zhǎng)超 30 分鐘的國(guó)標(biāo)麻將:不僅能精準(zhǔn)完成翻牌、抓牌、理牌、出牌等操作,展現(xiàn)出接近人類的靈巧操作水平;還能理解麻將規(guī)則,動(dòng)態(tài)制定出牌、碰杠等策略,實(shí)現(xiàn)從規(guī)則理解到實(shí)時(shí)博弈的全流程推理與執(zhí)行。

該機(jī)器人完成了時(shí)長(zhǎng)30分鐘以上的CoAT長(zhǎng)線思維鏈,打破了傳統(tǒng)機(jī)器人在復(fù)雜任務(wù)中面臨的時(shí)間與思考瓶頸。

參考資料:

1.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2.π0: A Vision-Language-Action Flow Model for General Robot Control

3.Figure AI 官網(wǎng) 

4.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

5.HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

6.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

7.AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

8. 靈初智能官網(wǎng)

       原文標(biāo)題 : VLA模型如何重塑具身智能 —— 8家國(guó)內(nèi)外典型具身智能VLA模型梳理與分析

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)