在线观看国产精品日韩av,a片在线观看av,夜色爽爽影院18禁

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

VLA模型如何重塑具身智能 —— 8家國內(nèi)外典型具身智能VLA模型梳理與分析

2025-07-14 14:10

機(jī)器覺醒時(shí)代

關(guān)注

一、國外典型具身智能VLA架構(gòu)

國外4家典型的具身智能VLA模型：谷歌DeepMind RT-2、Physical AI

π0 、Figure AI Helix 、英偉達(dá)GR00T N1。

1. 谷歌DeepMind —— RT2

2023年7月，谷歌DeepMind發(fā)布具身智能視覺-語言-動(dòng)作模型（VLA）RT-2（Robotics Transformer 2）。其核心設(shè)計(jì)是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機(jī)器人動(dòng)作軌跡數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的視覺-語言模型（VLM）進(jìn)行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識(shí)遷移到機(jī)器人控制中，實(shí)現(xiàn)端到端的語義推理與動(dòng)作生成。

1）模型架構(gòu)

RT-2以預(yù)訓(xùn)練的視覺-語言模型為核心骨干，通過動(dòng)作Token 化將機(jī)器人控制任務(wù)統(tǒng)一到自然語言生成框架中，形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對(duì)應(yīng)的實(shí)例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

谷歌RT-2模型架構(gòu)（圖片來源：谷歌論文）

2）聯(lián)合微調(diào)（Co-Fine-Tune）

將機(jī)器人動(dòng)作數(shù)據(jù)（來自RT-1）與網(wǎng)絡(luò)數(shù)據(jù)混合，共同輸入模型進(jìn)行聯(lián)合微調(diào)。其中，網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺問答（VQA）、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機(jī)器人動(dòng)作數(shù)據(jù)為13臺(tái)機(jī)器人持續(xù)（歷經(jīng)）17個(gè)月采集的辦公環(huán)境中的廚房場(chǎng)景數(shù)據(jù)（與RT-1訓(xùn)練所使用的數(shù)據(jù)相同）。

在具體實(shí)現(xiàn)方案中，谷歌DeepMind通過提高機(jī)器人動(dòng)作數(shù)據(jù)集的采樣權(quán)重，以平衡每批次訓(xùn)練數(shù)據(jù)中機(jī)器人動(dòng)作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。

模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動(dòng)作空間之間的映射關(guān)系。為此，需要預(yù)先保留256 個(gè)標(biāo)記（tokens）作為專用的動(dòng)作標(biāo)記。具體選擇哪些標(biāo)記作為動(dòng)作標(biāo)記，取決于所使用的視覺語言模型（VLM）的分詞方案：

PaLI-X：由于其分詞方案為每個(gè)不超過 1000 的整數(shù)分配了唯一的標(biāo)記，因此可直接將 action bins 映射到對(duì)應(yīng)的整數(shù)標(biāo)記上。

PaLM-E：該模型的分詞方案不包含數(shù)字的直接表示，因此需要覆蓋詞匯表中 256個(gè)使用頻率最低的標(biāo)記，將它們重新定義為動(dòng)作詞匯表。

DeepMind通過實(shí)驗(yàn)證明 —— 提升機(jī)器人性能的關(guān)鍵訓(xùn)練技巧在于：將機(jī)器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聯(lián)合微調(diào)，而非僅對(duì)機(jī)器人數(shù)據(jù)實(shí)施簡(jiǎn)單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強(qiáng)的策略，因?yàn)樵诖诉^程中，策略同時(shí)接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺概念和微調(diào)過程中的低層級(jí)機(jī)器人動(dòng)作，而非僅局限于機(jī)器人動(dòng)作。

3）動(dòng)作Token化機(jī)制

RT-2 的動(dòng)作 Token 化機(jī)制是其實(shí)現(xiàn)語義 - 動(dòng)作對(duì)齊的核心技術(shù)，通過離散化編碼、共享詞匯表空間和VLM語義賦能三個(gè)層面的創(chuàng)新，將機(jī)器人控制信號(hào)轉(zhuǎn)化為可被視覺 - 語言模型（VLM）直接處理的離散標(biāo)記。

其中，動(dòng)作離散化編碼采用與RT-1相同的離散化方案。比如，將連續(xù)動(dòng)作空間（如機(jī)械臂6自由度位姿）均勻量化為256個(gè)離散區(qū)間。

另外，使用共享詞匯表空間。比如，在預(yù)訓(xùn)練VLM（如PaLI-X）的文本詞匯表中新增512個(gè)專用動(dòng)作Token，動(dòng)作Token被嵌入預(yù)訓(xùn)練VLM的詞匯表，通過同一Transformer解碼器自回歸生成混合序列，實(shí)現(xiàn)語言與動(dòng)作的符號(hào)統(tǒng)一。

RT-2 與標(biāo)準(zhǔn)VLM模型的核心區(qū)別在于：RT-2必須輸出有效的動(dòng)作token才能在真實(shí)機(jī)器人上執(zhí)行。為確保 RT-2 在解碼過程中輸出有效動(dòng)作標(biāo)記，通過以下方式約束其輸出詞匯表：

機(jī)器人動(dòng)作任務(wù)場(chǎng)景：當(dāng)模型接收到機(jī)器人動(dòng)作任務(wù)提示時(shí)，僅允許采樣有效的動(dòng)作tokens。

標(biāo)準(zhǔn)視覺語言任務(wù)：模型仍然被允許輸出所有可能的自然語言tokens（如問答、圖像描述等）。

2. Physical Intelligence（PI）—— π0模型

2024 年10月，Physical Intelligence（PI）正式發(fā)布機(jī)器人領(lǐng)域端到端視覺-語言-動(dòng)作（VLA）模型 π0。

2025年2月，PI宣布開源基礎(chǔ)版π0與快速推理版π0-FAST，開源內(nèi)容涵蓋預(yù)訓(xùn)練模型參數(shù)、任務(wù)微調(diào)檢查點(diǎn)及全流程推理代碼，為學(xué)術(shù)界與產(chǎn)業(yè)界提供完整的具身智能開發(fā)框架。

1）模型整體架構(gòu)

π0 模型整體架構(gòu)示意圖（圖片來源：PI論文）

π0 模型包括一個(gè)預(yù)訓(xùn)練的VLM 模型和一個(gè)采用條件流匹配技術(shù)的動(dòng)作專家模型（Action expert）。

其中，VLM 直接基于谷歌開源的30億參數(shù)規(guī)模的PaliGemma 模型構(gòu)建；動(dòng)作專家模型采用獨(dú)立部署的3億參數(shù)權(quán)重，通過全層雙向跨模態(tài)注意力交互機(jī)制與 VLM 深度交互。

該模型基于雙模塊架構(gòu)實(shí)現(xiàn)端到端控制。在具體的數(shù)據(jù)處理與動(dòng)作生成流程中：

VLM 主干網(wǎng)絡(luò)（PaliGemma）負(fù)責(zé)處理圖像與文本輸入并提取語義特征，機(jī)器人本體感知數(shù)據(jù)（如關(guān)節(jié)角度、力反饋）通過獨(dú)立編碼器嵌入；兩類信息經(jīng)跨模態(tài)投影層映射至統(tǒng)一空間，形成視覺 - 語言 - 物理信號(hào)的融合表征。

動(dòng)作專家模塊以該融合表征為條件，依托條件流匹配技術(shù)與動(dòng)作分塊算法，以50Hz 高頻生成連續(xù)動(dòng)作分布，直接驅(qū)動(dòng)機(jī)器人精準(zhǔn)執(zhí)行復(fù)雜靈巧任務(wù)。

2）模型訓(xùn)練

在訓(xùn)練策略上，π0模型采用了預(yù)訓(xùn)練+ 后訓(xùn)練（微調(diào)）的模式。先在多樣性的大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，再用高質(zhì)量數(shù)據(jù)進(jìn)行后訓(xùn)練，從而達(dá)到所需的精細(xì)控制能力。

π0模型的預(yù)訓(xùn)練和后訓(xùn)練（圖片來源：PI論文）

a. 預(yù)訓(xùn)練階段

在預(yù)訓(xùn)練階段，預(yù)訓(xùn)練數(shù)據(jù)集應(yīng)覆蓋多樣化任務(wù)，并使模型構(gòu)建跨任務(wù)、跨本體的通用動(dòng)作生成范式，實(shí)現(xiàn)從“單一任務(wù)模仿” 到 “動(dòng)態(tài)場(chǎng)景泛化” 的能力躍升。

VLM預(yù)訓(xùn)練使用數(shù)據(jù)：大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)（圖像、視頻以及文本）。實(shí)際上，PI團(tuán)隊(duì)?wèi)?yīng)該是直接使用Google開源 VLM —— PaliGemma的預(yù)訓(xùn)練權(quán)重。

動(dòng)作專家模型預(yù)訓(xùn)練使用數(shù)據(jù)：開源真機(jī)數(shù)據(jù)集Open X-Embodiment 和 PI自己基于遙操作采集的真機(jī)數(shù)據(jù)（涵蓋7種機(jī)器人本體和68項(xiàng)任務(wù)），數(shù)據(jù)總時(shí)長(zhǎng)超過10000小時(shí)。

b. 后訓(xùn)練階段

在后訓(xùn)練階段，針對(duì)特定任務(wù)，依靠PI自己收集的高質(zhì)量真機(jī)數(shù)據(jù)集去訓(xùn)練模型。通過模仿學(xué)習(xí)框架，進(jìn)一步提高模型在特定任務(wù)上的成功率，目標(biāo)是支持完成疊衣服、清理餐桌等復(fù)雜靈巧的下游任務(wù)。

3. Figure AI —— Helix模型

2025年2月，F(xiàn)igure AI發(fā)布了通用具身基礎(chǔ)模型Helix ，該模型采用雙系統(tǒng)架構(gòu)：系統(tǒng)S1（快思考系統(tǒng)）+ 系統(tǒng)S2 （慢思考系統(tǒng)）。

Helix系統(tǒng)架構(gòu)（圖片來源：Figure AI）

1）S1系統(tǒng)：一個(gè)80M參數(shù)規(guī)模的Transformer模型，依賴一個(gè)完全卷積的多尺度視覺骨干網(wǎng)絡(luò)進(jìn)行視覺處理。

S系統(tǒng)以 200Hz的頻率輸出完整的上半身人形控制，包括期望的手腕姿態(tài)、手指彎曲和外展控制，以及軀干和頭部方向目標(biāo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于機(jī)器人真機(jī)數(shù)據(jù)。

2）S2系統(tǒng)：一個(gè)7B參數(shù)規(guī)模的預(yù)訓(xùn)練VLM模型，用于處理機(jī)器人單目視覺圖像和機(jī)器人狀態(tài)信息（包括手腕姿態(tài)和手指位置），并將它們投影到視覺語言嵌入空間中。

S2 系統(tǒng)將所有語義任務(wù)相關(guān)信息提煉為一個(gè)連續(xù)的潛在向量，以7-9 Hz的頻率傳遞給 S1系統(tǒng) ，為機(jī)器人的行為決策提供高層次的指導(dǎo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于大規(guī)模的互聯(lián)網(wǎng)文本、圖片以及視頻數(shù)據(jù)。

3）兩者之間的關(guān)聯(lián)：系統(tǒng)1與系統(tǒng)2兩者之間解耦，每個(gè)系統(tǒng)不僅能夠進(jìn)行獨(dú)立迭代，而且，每個(gè)系統(tǒng)都可以在其最佳時(shí)間尺度上運(yùn)行。比如，S2系統(tǒng)可以「慢慢思考」高層次目標(biāo)，而S1系統(tǒng)可以「快速思考」機(jī)器人實(shí)時(shí)執(zhí)行以及需要調(diào)整的動(dòng)作。

S1系統(tǒng)與 S2系統(tǒng)分別部署于機(jī)器人上的兩塊獨(dú)立專用 GPU上，二者對(duì)GPU要求不同：

S1系統(tǒng)需以 200Hz 高頻輸出連續(xù)動(dòng)作，要求低延遲和高能效，以確保實(shí)時(shí)控制；

S2系統(tǒng)需要部署7B參數(shù)的 VLM模型，對(duì)算力需求更高，適合部署在高顯存、高算力的GPU上。

在演示視頻中，兩臺(tái)采用相同Helix 模型權(quán)重的人形機(jī)器人，無需訓(xùn)練或角色分配，即可通過自然語言協(xié)作實(shí)現(xiàn)零樣本雜貨存放。

Helix 通過架構(gòu)創(chuàng)新、數(shù)據(jù)效率提升與硬件適配優(yōu)化，突破了傳統(tǒng)機(jī)器人模型依賴多任務(wù)獨(dú)立訓(xùn)練的技術(shù)局限，這種設(shè)計(jì)使其在家庭服務(wù)、工業(yè)協(xié)作等場(chǎng)景中，具備任務(wù)快速遷移與場(chǎng)景拓展的潛力。

4. 英偉達(dá) —— GR00T N1

在2025年3月的GTC開發(fā)者大會(huì)上，英偉達(dá)推出全球首個(gè)開源、可定制的通用人形機(jī)器人模型 GR00T N1。

GR00T N1是一個(gè)雙系統(tǒng)架構(gòu)的視覺-語言-動(dòng)作（VLA）模型，采用流匹配（Flow-Matching）技術(shù)來學(xué)習(xí)動(dòng)作生成。

GR00T N1模型架構(gòu)簡(jiǎn)化版（圖片來源：英偉達(dá)論文）

（1）“系統(tǒng)2”是基于視覺-語言模型（VLM）的推理模塊，負(fù)責(zé)深度推理與規(guī)劃，類似人類的"思考中樞"，運(yùn)行頻率較低（10Hz）。

在英偉達(dá)L40 GPU上運(yùn)行預(yù)訓(xùn)練的視覺語言模型（如 Eagle-2 VLM），處理機(jī)器人的視覺感知圖像信息和語言指令，以解釋環(huán)境并理解任務(wù)目標(biāo)以及語言指令。

圖像輸入→ 使用圖像編碼器(Vision Encoder）編碼為Image Tokens

語言指令輸入→ 使用文本分詞器（Text Tokenizer）轉(zhuǎn)化為文本標(biāo)記

（2）“系統(tǒng)1”是基于擴(kuò)散變換器（DiT）的動(dòng)作模塊，負(fù)責(zé)快速動(dòng)作生成，類似人類的"運(yùn)動(dòng)中樞"，運(yùn)行頻率更高（120Hz）。

DiT處理機(jī)器人的本體感知狀態(tài)和動(dòng)作，這些信息隨后與經(jīng)過Eagle-2 VLM主干網(wǎng)絡(luò)處理后輸出的圖像標(biāo)記（image tokens）和文本標(biāo)記（text tokens）進(jìn)行交叉注意力運(yùn)算，最終輸出去噪后的電機(jī)動(dòng)作。

輸入：系統(tǒng)2的輸出Tokens（Image Tokens 和 Text Tokens）+ 機(jī)器人本體狀態(tài)（如關(guān)節(jié)位置等）+ 帶噪聲的動(dòng)作向量。

處理：通過交叉注意力機(jī)制融合多源輸入，逐步去噪生成動(dòng)作序列。

輸出：去噪后的運(yùn)動(dòng)動(dòng)作（如抓取軌跡）。

GR00T N1模型架構(gòu)詳情版（圖片來源：英偉達(dá)論文）

備注：英偉達(dá)公開發(fā)布的GR00T-N1-2B 模型總參數(shù)為22億，其中視覺 - 語言模型（VLM）包含13.4 億參數(shù)。在 L40 GPU 上使用 bf16 精度時(shí)，采樣16個(gè)動(dòng)作片段的推理時(shí)間為63.9毫秒。

“系統(tǒng)1”和“系統(tǒng)2”都是基于Transformer構(gòu)建的神經(jīng)網(wǎng)絡(luò)，二者在訓(xùn)練過程中緊密耦合、聯(lián)合優(yōu)化，以實(shí)現(xiàn)推理與執(zhí)行的高效協(xié)同。

GR00T N1模型預(yù)訓(xùn)練所使用的數(shù)據(jù)類型：真實(shí)機(jī)器人演示數(shù)據(jù)、合成數(shù)據(jù)（Omniverse生成）以及互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)。

用于機(jī)器人基礎(chǔ)模型訓(xùn)練的“數(shù)據(jù)金字塔”（圖片來源：英偉達(dá)論文）

應(yīng)用案例：1X Technologies、Agility Robotics、Boston Dynamics、傅利葉等機(jī)器人公司已接入GR00T N1，利用該基礎(chǔ)模型及其配套工具鏈開發(fā)新一代機(jī)器人產(chǎn)品，并在不同的應(yīng)用場(chǎng)景中進(jìn)行落地實(shí)踐。

二、國內(nèi)典型具身智能VLA模型

國內(nèi)4家典型的具身智能VLA模型：星動(dòng)紀(jì)元ERA-42、銀河通用GraspVLA、智元機(jī)器人Genie Operator-1（GO-1）、靈初智能Psi-R1。

1. 星動(dòng)紀(jì)元 —— ERA-42

2024年12月，星動(dòng)紀(jì)元推出端到端原生機(jī)器人大模型ERA-42。該模型采用高層次規(guī)劃和低層次控制的雙系統(tǒng)架構(gòu)。系統(tǒng)之間使用latent變量進(jìn)行通信連接，實(shí)現(xiàn)了兩者之間的高效信息傳遞和協(xié)同工作。

ERA-42模型架構(gòu)（初版）

a. 高層次規(guī)劃系統(tǒng)：采用7B參數(shù)的Instructblip視覺語言模型，負(fù)責(zé)將視覺信息與語言指令轉(zhuǎn)化為蘊(yùn)含常識(shí)知識(shí)的潛在特征，支持長(zhǎng)期場(chǎng)景理解（含任務(wù)規(guī)劃與糾錯(cuò)）。

它相當(dāng)于是人類的“慢思考”系統(tǒng)，可以對(duì)任務(wù)指令進(jìn)行深入理解，生成高層次的動(dòng)作規(guī)劃，為機(jī)器人的行為提供戰(zhàn)略指導(dǎo)。

其中，InstructBLIP 由預(yù)訓(xùn)練視覺編碼器（采用ViT架構(gòu)）、大語言模型（LLM）、可學(xué)習(xí)查詢 tokens 以及 Q-Former 組成。

b. 低層次控制系統(tǒng)：采用40M參數(shù)的緊湊型視覺驅(qū)動(dòng)動(dòng)作策略的Transformer網(wǎng)絡(luò)，處理短期場(chǎng)景認(rèn)知，融合歷史觀測(cè)與視覺語言模型的潛在特征。

它相當(dāng)于是人類的“快思考”系統(tǒng)，根據(jù)高層次規(guī)劃系統(tǒng)的輸出結(jié)果以及實(shí)時(shí)的環(huán)境反饋，它可以實(shí)現(xiàn)高頻地精確控制機(jī)器人的動(dòng)作，確保動(dòng)作的準(zhǔn)確性和實(shí)時(shí)性。

工作原理：指令經(jīng)由視覺語言模型（VLM）轉(zhuǎn)化為連續(xù)潛在表征（continuous latent），并與采樣視覺觀測(cè)數(shù)據(jù)共同緩存至潛在緩沖區(qū)（latent buffer）。在推理的每一步：

預(yù)訓(xùn)練視覺編碼器基于最新潛在表征對(duì)視覺觀測(cè)進(jìn)行條件化編碼；

降維后的視覺語言標(biāo)記（reduced vision-language tokens）通過條件化動(dòng)作頭（conditioned action head）解碼為底層動(dòng)作。

ERA-42 初版基于 HiRT 架構(gòu)構(gòu)建，而在后續(xù)的迭代版本中通過集成動(dòng)作預(yù)測(cè)擴(kuò)散器（PAD）升級(jí)了世界模型，形成以 HiRT 為基礎(chǔ)框架、PAD 為預(yù)測(cè)模塊的復(fù)合架構(gòu)。

2）模型訓(xùn)練

模型訓(xùn)練使用數(shù)據(jù)類型：大規(guī)模視頻數(shù)據(jù)（預(yù)訓(xùn)練）+少部分基于遙操作的真機(jī)數(shù)據(jù)（后訓(xùn)練）。

預(yù)訓(xùn)練階段：由于采用融入世界模型的方式，ERA-42直接利用未標(biāo)注的原始視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，使模型聚焦于原始視頻本身的預(yù)測(cè)，而非對(duì)物體姿態(tài)、關(guān)鍵點(diǎn)等處理后的信息進(jìn)行預(yù)測(cè)。此舉旨在最大程度保留信息完整性，規(guī)避因人為定義的規(guī)則、范式或先驗(yàn)知識(shí)導(dǎo)致的信息損耗。

后訓(xùn)練階段：ERA-42 引入強(qiáng)化學(xué)習(xí)技術(shù)，通過構(gòu)建獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型探尋最優(yōu)動(dòng)作策略。此階段的模型訓(xùn)練主要采用基于遙操作方式獲取的真機(jī)數(shù)據(jù)。

ERA-42模型訓(xùn)練使用數(shù)據(jù)（圖片來源：星動(dòng)紀(jì)元）

應(yīng)用效果：基于ERA-42的能力, 星動(dòng)紀(jì)元自研的五指靈巧手星動(dòng)X HAND1可使用包括不限于螺釘鉆、錘子、取液槍等多種多樣的工具，完成更通用、靈巧性更強(qiáng)、復(fù)雜度更高的百種以上操作任務(wù)。并且，可以持續(xù)在同一個(gè)模型下學(xué)習(xí)新的技能。

2. 銀河通用 —— GraspVLA

2025年1月，銀河通用聯(lián)合北京智源人工智能研究院（BAAI）及北京大學(xué)和香港大學(xué)研究人員發(fā)布端到端具身抓取基礎(chǔ)大模型GraspVLA。

1）模型整體架構(gòu)

GraspVLA 由一個(gè)自回歸視覺語言骨干網(wǎng)絡(luò)（VLM）和一個(gè)基于流匹配的動(dòng)作專家模型組成，兩個(gè)模塊通過漸進(jìn)式動(dòng)作生成(PAG)機(jī)制連接。

其中，VLM模塊包括一個(gè)大語言模型（InternLM2 1.8B版本）一個(gè)視覺編碼器（融合了凍結(jié)參數(shù)的DINO-v2和SigLIP模型提取的特征）以及一個(gè)負(fù)責(zé)將視覺特征空間映射到語言特征空間的可訓(xùn)練投影器。

GraspVLA系統(tǒng)架構(gòu)（圖片來源：銀河通用）

主要作用：VLM的作用是獲取觀察圖像和文本指令，用于視覺-語言聯(lián)合感知。動(dòng)作專家模塊的主要作用是進(jìn)行細(xì)粒度的末端執(zhí)行器的動(dòng)作生成。

工作原理：在數(shù)據(jù)層面，模型利用互聯(lián)網(wǎng)基礎(chǔ)數(shù)據(jù)與合成動(dòng)作數(shù)據(jù)的協(xié)同效應(yīng)，流程為：首先為合成數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)生成目標(biāo)物體的2D 邊界框；隨后，僅針對(duì)合成數(shù)據(jù)集，由 VLM 在機(jī)器人基坐標(biāo)系中進(jìn)一步預(yù)測(cè)目標(biāo)的抓取姿態(tài)；最終，動(dòng)作專家基于 VLM 處理輸入及中間推理令牌(tokens) 時(shí)產(chǎn)生的鍵值緩存(key-value cache)，為合成數(shù)據(jù)集生成動(dòng)作塊(action chunk)。

2）模型訓(xùn)練

GraspVLA的模型訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中，預(yù)訓(xùn)練是針對(duì)通用需求，主要采用大規(guī)模合成數(shù)據(jù)去訓(xùn)練。后訓(xùn)練是針對(duì)專用需求，主要基于少部分真機(jī)數(shù)據(jù)訓(xùn)練。

a. 預(yù)訓(xùn)練

在沒有大規(guī)模真實(shí)數(shù)據(jù)的條件下，銀河通用以10億級(jí)規(guī)模的仿真合成數(shù)據(jù)（SynGrasp-1B）為基礎(chǔ)對(duì)GraspVLA進(jìn)行預(yù)訓(xùn)練，實(shí)現(xiàn)了支持通用需求的基礎(chǔ)模型 —— “通才”，掌握了包括高度泛化、平面位置泛化、物體類別泛化、光照泛化、干擾物泛化、背景泛化和閉環(huán)能力在內(nèi)的七大泛化能力，能夠在真實(shí)場(chǎng)景中實(shí)現(xiàn)零樣本抓取，無需額外訓(xùn)練即可應(yīng)對(duì)未見過物體的復(fù)雜擺放和動(dòng)態(tài)環(huán)境變化。

SynGrasp-1B —— 10億級(jí)規(guī)模的合成數(shù)據(jù)（圖片來源：銀河通用）

備注：SynGrasp-1B 是基于先進(jìn)光線追蹤渲染技術(shù)與物理模擬系統(tǒng)構(gòu)建的十億幀級(jí)抓取數(shù)據(jù)集。該數(shù)據(jù)集涵蓋 240個(gè)物體類別、10680 個(gè)實(shí)例，依托160 張 NVIDIA 4090 GPU 組成的計(jì)算集群，歷時(shí)10天完成十億幀數(shù)據(jù)的生成工作。

b. 后訓(xùn)練

針對(duì)專用需求，需要再對(duì)基礎(chǔ)模型進(jìn)行后訓(xùn)練，即進(jìn)一步通過小樣本真機(jī)數(shù)據(jù)進(jìn)行微調(diào)，可使其成長(zhǎng)為特定場(chǎng)景應(yīng)用下的“專才”。例如，面向工業(yè)場(chǎng)景中抓取接線座、三角板等特殊零部件的需求，僅需少量真實(shí)數(shù)據(jù)后訓(xùn)練，模型就能快速掌握工業(yè)術(shù)語，實(shí)現(xiàn)特定零部件的精準(zhǔn)抓取，進(jìn)而實(shí)現(xiàn)基礎(chǔ)能力的快速遷移。

3. 智元機(jī)器人 —— 智元啟元大模型GO-1

2025年3月，智元機(jī)器人正式發(fā)布基于ViLLA（Vision-Language-Latent-Action）架構(gòu)打造的通用具身基座大模型：智元啟元大模型 —— Genie Operator-1（簡(jiǎn)稱GO-1 ）。

Genie Operator-1模型架構(gòu)（圖片來源：智元機(jī)器人）

其中，ViLLA架構(gòu)由VLM(視覺-語言多模態(tài)大模型) + MoE(混合專家)組成。其中，MoE包含混合專家1 —— Latent Planner（隱式規(guī)劃器）和混合專家2 —— Action Expert（動(dòng)作專家）兩部分組成。

1）VLM模型：采用InternVL-2B多模態(tài)大模型，接收多視角視覺圖片、力覺信號(hào)、自然語言等多模態(tài)信息的輸入，實(shí)現(xiàn)通用的場(chǎng)景感知和理解以及語言指令的理解。

該模型訓(xùn)練所使用的數(shù)據(jù)主要來自大規(guī)模的互聯(lián)網(wǎng)圖像和文本數(shù)據(jù)。

2）混合專家1 —— Latent Planner（隱式規(guī)劃器）：模型架構(gòu)采用與VLM 主干網(wǎng)絡(luò)相同的Transformer 結(jié)構(gòu)，但使用兩套獨(dú)立的FFN(前饋神經(jīng)網(wǎng)絡(luò))和Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。

它的主要作用為基于VLM的中間層輸出預(yù)測(cè)Latent Action Tokens作為CoP(Chain of Planning，規(guī)劃鏈)，以實(shí)現(xiàn)通用動(dòng)作的理解和規(guī)劃。

該模型訓(xùn)練所使用的數(shù)據(jù)：主要為大量人類操作和跨本體操作視頻，目的在于將異構(gòu)數(shù)據(jù)源中真實(shí)世界的動(dòng)作知識(shí)遷移到通用操作任務(wù)中。

3）混合專家2 ——Action Expert（動(dòng)作專家）：在結(jié)構(gòu)設(shè)計(jì)上與Latent Planner類似，也是與VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu)。

它的作用在于基于VLM的中間層輸出以及Latent Action Tokens，生成最終的精細(xì)動(dòng)作序列。

該模型訓(xùn)練所使用的數(shù)據(jù)是高質(zhì)量的真機(jī)數(shù)據(jù)。

簡(jiǎn)單來說：VLM模型負(fù)責(zé)“看懂”世界和任務(wù)，Latent Planner在“腦海”中構(gòu)思出達(dá)成目標(biāo)的步驟（做什么），Action Expert則將這些步驟轉(zhuǎn)化為機(jī)器人身體能執(zhí)行的具體動(dòng)作（怎么做）。三者形成“感知→規(guī)劃→執(zhí)行”的閉環(huán)。

4. 靈初智能 —— Psi-R1

2025年4月，靈初智能正式推出基于強(qiáng)化學(xué)習(xí)（RL）的端到端具身VLA模型Psi-R1。

Psi R1模型采取了“快慢腦”的分層架構(gòu)，其中，快腦S1專注操作，慢腦S2專注推理，此架構(gòu)支持機(jī)器人在開放環(huán)境下實(shí)現(xiàn)自主推理決策和長(zhǎng)程靈巧操作的能力。

上層規(guī)劃Planner（即慢腦S2系統(tǒng)）：采用基于自回歸生成機(jī)制的Causal VLM架構(gòu)，負(fù)責(zé)場(chǎng)景抽象理解、任務(wù)規(guī)劃決策。

下層控制Controller（即快腦S1系統(tǒng)）：采用DiT 模塊，專注于高精度的控制執(zhí)行操作。

Psi-R1模型架構(gòu)（圖片來源：靈初智能）

Psi-R1模型通過 Action Tokenizer 將慢腦S2輸出的高層動(dòng)作規(guī)劃離散化為可執(zhí)行指令，供快腦S1解析執(zhí)行，實(shí)現(xiàn)動(dòng)作空間的統(tǒng)一表征。該機(jī)制協(xié)同視覺—語言模態(tài)編碼器，共同完成跨模態(tài)對(duì)齊與融合。

據(jù)了解，Psi-R1模型是構(gòu)建了首個(gè)支持「動(dòng)作感知 - 環(huán)境反饋 - 動(dòng)態(tài)決策」全閉環(huán)的VLA模型，實(shí)現(xiàn)機(jī)器人操作的視覺-語言-動(dòng)作多模態(tài)協(xié)同的的CoAT思維鏈。再通過真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練，搭載R1模型的機(jī)器人能夠在多數(shù)靈巧操作任務(wù)中展現(xiàn)出接近人類水平的目標(biāo)泛化能力與長(zhǎng)程任務(wù)操作穩(wěn)定性。

應(yīng)用場(chǎng)景：麻將作為策略性博弈棋牌，兼具高度隨機(jī)性與交互性。在這一場(chǎng)景中，搭載R1 模型的機(jī)器人能夠完整進(jìn)行一局時(shí)長(zhǎng)超 30 分鐘的國標(biāo)麻將：不僅能精準(zhǔn)完成翻牌、抓牌、理牌、出牌等操作，展現(xiàn)出接近人類的靈巧操作水平；還能理解麻將規(guī)則，動(dòng)態(tài)制定出牌、碰杠等策略，實(shí)現(xiàn)從規(guī)則理解到實(shí)時(shí)博弈的全流程推理與執(zhí)行。

該機(jī)器人完成了時(shí)長(zhǎng)30分鐘以上的CoAT長(zhǎng)線思維鏈，打破了傳統(tǒng)機(jī)器人在復(fù)雜任務(wù)中面臨的時(shí)間與思考瓶頸。

參考資料：

1.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2.π0: A Vision-Language-Action Flow Model for General Robot Control

3.Figure AI 官網(wǎng)

4.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

5.HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

6.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

7.AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

8. 靈初智能官網(wǎng)

原文標(biāo)題 : VLA模型如何重塑具身智能 —— 8家國內(nèi)外典型具身智能VLA模型梳理與分析