一本道av高清网,亚洲东京热无码素人久久久,18禁无翼乌工口全彩大全

2022~2025：2萬(wàn)字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局

2025-07-21 14:37

谷歌在具身智能領(lǐng)域的布局以具身智能大模型為技術(shù)基座，通過(guò)端云協(xié)同推理、開(kāi)源工具鏈下沉、跨形態(tài)硬件泛化適配及漸進(jìn)式場(chǎng)景驗(yàn)證，構(gòu)建從感知到執(zhí)行的協(xié)同框架，探索具身智能機(jī)器人從單一任務(wù)工具向通用具身智能體的演進(jìn)路徑。

谷歌具身智能基礎(chǔ)模型領(lǐng)域關(guān)鍵布局（機(jī)器覺(jué)醒時(shí)代制表）

2022年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2022年4月，谷歌推出具身智能模型 SayCan

盡管大型語(yǔ)言模型（LLMs）能從海量文本中習(xí)得豐富知識(shí)，但它們?nèi)狈?duì)物理世界的具象認(rèn)知，也無(wú)法觀測(cè)自身生成內(nèi)容對(duì)物理過(guò)程的實(shí)際影響，難以支持在特定具身化實(shí)體中進(jìn)行決策。

這使得其在將高級(jí)指令拆解為機(jī)器人可執(zhí)行的低級(jí)指令時(shí)，不僅可能產(chǎn)生人類眼中荒謬甚至滑稽的錯(cuò)誤，更可能在特定物理場(chǎng)景中生成邏輯混亂或存在安全風(fēng)險(xiǎn)的指令解析。

如下圖所示：當(dāng)具備"抓取海綿"、"移動(dòng)到餐桌"等技能的廚房機(jī)器人收到"飲料灑了，能否幫忙清理？"的請(qǐng)求時(shí)，語(yǔ)言模型可能給出看似合理卻無(wú)法執(zhí)行的方案——例如建議"使用吸塵器清理"，但該方案在場(chǎng)景中無(wú)吸塵器，或具身智能體不具備操作吸塵器的能力時(shí)，會(huì)完全失效，因?yàn)榫呱碇悄荏w的本體能力范圍通常是固定且有限的。

SayCan模型通過(guò)預(yù)訓(xùn)練技能的價(jià)值函數(shù)實(shí)現(xiàn)語(yǔ)言模型現(xiàn)實(shí)落地

1）具身智能模型—— SayCan

通過(guò)提示詞工程，大型語(yǔ)言模型或許能夠?qū)⒏呒?jí)指令分解為子任務(wù)，但如果脫離機(jī)器人自身能力以及機(jī)器人與環(huán)境當(dāng)前狀態(tài)的語(yǔ)境，它就無(wú)法完成這種任務(wù)的分解。

因此，需要明確將高級(jí)指令分解為一系列可用的低級(jí)技能。其中，一種方法是精心設(shè)計(jì)提示詞，這是一種引導(dǎo)語(yǔ)言模型產(chǎn)生特定響應(yīng)結(jié)構(gòu)的技術(shù)。提示詞工程會(huì)在模型的上下文文本（即“提示詞”）中提供示例，明確指定任務(wù)以及模型需要模仿的響應(yīng)結(jié)構(gòu)。

然而，這并不足以將輸出完全限制在具身智能體可執(zhí)行的基本技能范圍內(nèi)，實(shí)際上，它有時(shí)會(huì)生成不可執(zhí)行的動(dòng)作，或生成的語(yǔ)言格式難以解析為獨(dú)立步驟。

基于此，2022年4月，谷歌提出SayCan模型，旨在從大型語(yǔ)言模型（LLMs）中提取知識(shí)并將其應(yīng)用到實(shí)際物理任務(wù)的落地執(zhí)行中。其中，大型語(yǔ)言模型（Say）提供任務(wù)層面的落地能力，用于確定有助于實(shí)現(xiàn)高級(jí)目標(biāo)的有效動(dòng)作；而習(xí)得的可供性函數(shù)（Can）提供世界層面的落地能力，用于判斷計(jì)劃中哪些動(dòng)作（或計(jì)劃）是可執(zhí)行的。

具體來(lái)說(shuō)，采用強(qiáng)化學(xué)習(xí)來(lái)為各個(gè)技能學(xué)習(xí)價(jià)值函數(shù)，該函數(shù)通過(guò)可供性表征物理世界的可行操作空間；隨后，再將這些技能的文本標(biāo)簽作為潛在響應(yīng)，由語(yǔ)言模型對(duì)其進(jìn)行評(píng)分。

因此，技能和語(yǔ)言模型相結(jié)合進(jìn)而形成了一種共生關(guān)系：技能及其價(jià)值函數(shù)可充當(dāng)語(yǔ)言模型的“手和眼”，而語(yǔ)言模型則提供關(guān)于如何完成任務(wù)的高層級(jí)語(yǔ)義知識(shí)。

通過(guò)預(yù)訓(xùn)練技能實(shí)現(xiàn)現(xiàn)實(shí)世界具身化 —— 這些技能將約束模型僅生成既可行又符合場(chǎng)景的文本動(dòng)作指令，從而讓機(jī)器人等具身智能體能夠遵循高級(jí)文本指令 —— 大語(yǔ)言模型負(fù)責(zé)提供執(zhí)行復(fù)雜時(shí)序擴(kuò)展指令的流程知識(shí)，而技能關(guān)聯(lián)的價(jià)值函數(shù)則構(gòu)建起連接知識(shí)與物理環(huán)境的關(guān)鍵具身化橋梁。

除了讓大型語(yǔ)言模型單純解讀指令外，還可以借助它對(duì)“單個(gè)技能在推進(jìn)高級(jí)指令完成過(guò)程中所起作用的可能性” 進(jìn)行評(píng)分 —— 若每個(gè)技能都有一個(gè)可供性函數(shù)（如習(xí)得的價(jià)值函數(shù)），用于量化其從當(dāng)前狀態(tài)成功執(zhí)行的可能性，那么該函數(shù)的數(shù)值便可用于對(duì)技能的可能性進(jìn)行加權(quán)。

通過(guò)這種方式，大型語(yǔ)言模型會(huì)給出“每個(gè)技能對(duì)完成指令的貢獻(xiàn)概率”，而可供性函數(shù)會(huì)給出 “每個(gè)技能成功執(zhí)行的概率”—— 將兩者結(jié)合，就能得到 “每個(gè)技能成功完成指令的概率”。

另外，SayCan 還具有可解釋性特點(diǎn)：模型不僅輸出生成式響應(yīng)，還會(huì)給出多種可能響應(yīng)的概率分布。下圖展示了其核心機(jī)制：任務(wù)集（定義機(jī)器人低級(jí)策略可執(zhí)行的技能）與提示詞工程（提供計(jì)劃示例及人機(jī)對(duì)話格式約束）共同作用，將大型語(yǔ)言模型（LLM）的輸出約束為可執(zhí)行的技能序列。

SayCan模型執(zhí)行過(guò)程示意圖

2）在機(jī)器人系統(tǒng)中執(zhí)行SayCan

a. 語(yǔ)言條件型機(jī)器人控制策略

為實(shí)例化SayCan框架，需提供一組技能組件，每個(gè)組件包含策略模塊、價(jià)值函數(shù)及簡(jiǎn)短語(yǔ)言描述（例如"拾取易拉罐"）。

在谷歌的實(shí)施方案中，各獨(dú)立技能的訓(xùn)練采用兩種方法：遵循BC-Z方法的圖像行為克隆，或采用MT-Opt的強(qiáng)化學(xué)習(xí)。

無(wú)論技能策略如何獲取，均使用基于時(shí)序差分備份（TD backups）訓(xùn)練的價(jià)值函數(shù)作為該技能的功能可供性模型。雖然當(dāng)前數(shù)據(jù)收集階段顯示行為克隆策略成功率更高，但強(qiáng)化學(xué)習(xí)策略提供的價(jià)值函數(shù)作為關(guān)鍵抽象層，能將控制能力轉(zhuǎn)化為場(chǎng)景語(yǔ)義理解。

為降低多技能訓(xùn)練成本，谷歌分別采用多任務(wù)行為克隆與多任務(wù)強(qiáng)化學(xué)習(xí)方案：通過(guò)以語(yǔ)言描述為輸入條件的多任務(wù)策略模型，替代為每個(gè)技能單獨(dú)訓(xùn)練策略和價(jià)值函數(shù)的傳統(tǒng)模式。

為了讓策略以語(yǔ)言為條件，谷歌采用了一個(gè)預(yù)訓(xùn)練的大型句子編碼器語(yǔ)言模型。在訓(xùn)練過(guò)程中，凍結(jié)該語(yǔ)言模型的參數(shù)，并使用通過(guò)輸入每個(gè)技能的文本描述生成的嵌入向量。這些文本嵌入向量被用作策略和價(jià)值函數(shù)的輸入，用于指定應(yīng)執(zhí)行的技能。

由于用于生成文本嵌入向量的語(yǔ)言模型與用于規(guī)劃的語(yǔ)言模型不一定相同，因此SayCan 能夠靈活運(yùn)用不同的語(yǔ)言模型 —— 這些模型分別適用于不同的抽象層級(jí)，比如有的擅長(zhǎng)理解涉及多個(gè)技能的規(guī)劃，有的則更適合細(xì)致地表達(dá)特定技能。

b. 訓(xùn)練低級(jí)技能

谷歌分別采用行為克�。˙C）和強(qiáng)化學(xué)習(xí)（RL）的策略訓(xùn)練流程，以獲得受語(yǔ)言條件約束的策略和價(jià)值函數(shù)。

行為克�。˙C）策略：谷歌以BC-Z為基礎(chǔ)，采用了類似的策略網(wǎng)絡(luò)架構(gòu)。該架構(gòu)的訓(xùn)練中，連續(xù)動(dòng)作組件采用均方誤差（MSE）損失函數(shù)，離散動(dòng)作組件采用交叉熵?fù)p失函數(shù)，且每個(gè)動(dòng)作組件的權(quán)重相同。訓(xùn)練過(guò)程中使用了標(biāo)準(zhǔn)的圖像增強(qiáng)手段（隨機(jī)調(diào)整亮度和對(duì)比度）以及隨機(jī)裁剪。

BC策略中的網(wǎng)絡(luò)架構(gòu)

強(qiáng)化學(xué)習(xí)（RL）策略：谷歌在日常機(jī)器人模擬器中使用MT-Opt ，并結(jié)合 RetinaGAN 的模擬到現(xiàn)實(shí)遷移技術(shù)。通過(guò)利用模擬演示提供初始成功案例來(lái)提升模擬策略的性能，然后通過(guò)在線數(shù)據(jù)收集，持續(xù)改進(jìn)強(qiáng)化學(xué)習(xí)效果。

RL策略中的網(wǎng)絡(luò)架構(gòu)

備注：

1）采用稀疏獎(jiǎng)勵(lì)函數(shù)：若語(yǔ)言指令在一個(gè)回合結(jié)束時(shí)被成功執(zhí)行，獎(jiǎng)勵(lì)值為1.0；否則為0。語(yǔ)言指令的執(zhí)行成功與否由人工評(píng)定 —— 評(píng)定者會(huì)觀看機(jī)器人執(zhí)行技能的視頻以及給定的指令。如果三名評(píng)定者中有兩名認(rèn)為技能已成功完成，則該回合被標(biāo)記為正向獎(jiǎng)勵(lì)。

2）策略動(dòng)作空間包括：末端執(zhí)行器姿態(tài)的六個(gè)自由度、夾爪的開(kāi)合指令、機(jī)器人移動(dòng)基座的x-y 位置和偏航角增量，以及終止動(dòng)作。

3) SayCan的局限性

盡管SayCan 方法為語(yǔ)言模型與智能體行動(dòng)能力的結(jié)合提供了可行路徑，但它仍存在諸多局限性。

首先，該方法繼承了大型語(yǔ)言模型（LLMs）的固有局限，尤其體現(xiàn)在對(duì)訓(xùn)練數(shù)據(jù)分布的強(qiáng)依賴上 —— 若訓(xùn)練數(shù)據(jù)中缺乏特定場(chǎng)景、指令或技能的樣本，語(yǔ)言模型可能無(wú)法生成合理的技能規(guī)劃，甚至?xí)敵雠c實(shí)際需求脫節(jié)的決策建議。

其次，盡管SayCan 支持用戶通過(guò)自然語(yǔ)言指令與智能體交互，但其性能的核心瓶頸在于底層技能庫(kù)的覆蓋范圍與執(zhí)行精度：若技能庫(kù)未包含完成任務(wù)所需的關(guān)鍵動(dòng)作（如特定場(chǎng)景下的抓取姿勢(shì)、精細(xì)操作步驟），即便語(yǔ)言模型規(guī)劃邏輯嚴(yán)密，智能體也無(wú)法將規(guī)劃轉(zhuǎn)化為有效行動(dòng)。

此外，當(dāng)前系統(tǒng)缺乏對(duì)技能執(zhí)行過(guò)程的實(shí)時(shí)反饋與動(dòng)態(tài)調(diào)整機(jī)制：當(dāng)個(gè)別技能在語(yǔ)言模型評(píng)估為“高價(jià)值” 的情況下實(shí)際執(zhí)行失效時(shí)（如預(yù)期抓取物體卻未成功），系統(tǒng)難以快速修正執(zhí)行路徑。盡管通過(guò)優(yōu)化語(yǔ)言模型的提示策略可能在一定程度上緩解這一問(wèn)題，但復(fù)雜場(chǎng)景下的魯棒性仍待提升。

同時(shí)，SayCan在復(fù)雜任務(wù)的長(zhǎng)時(shí)序規(guī)劃上存在短板。對(duì)于需要多步驟協(xié)同的任務(wù)（如 “整理桌面并將文件放入抽屜”），語(yǔ)言模型可能難以將自然語(yǔ)言指令分解為連貫的技能序列，容易出現(xiàn)步驟遺漏或邏輯沖突（如先關(guān)閉抽屜再試圖放入文件），導(dǎo)致任務(wù)執(zhí)行中斷。

另外，系統(tǒng)對(duì)環(huán)境動(dòng)態(tài)變化的適應(yīng)性較弱。若任務(wù)執(zhí)行過(guò)程中環(huán)境發(fā)生未預(yù)期的改變（如物體位置移動(dòng)、突發(fā)障礙物出現(xiàn)），預(yù)先規(guī)劃的技能序列可能不再適用，而語(yǔ)言模型難以基于實(shí)時(shí)環(huán)境反饋快速更新規(guī)劃，導(dǎo)致智能體陷入“規(guī)劃 - 執(zhí)行” 脫節(jié)的困境。

最后，安全性校驗(yàn)機(jī)制的缺失也是重要局限。語(yǔ)言模型可能推薦存在潛在風(fēng)險(xiǎn)的技能（如抓取易碎品時(shí)采用不當(dāng)力度），但系統(tǒng)缺乏對(duì)技能安全性的前置評(píng)估，可能引發(fā)物體損壞或環(huán)境干擾等問(wèn)題。

2. 2022年5月：谷歌發(fā)布通用具身智能體Gato

2022年5月，DeepMind發(fā)布通用具身智能體 Gato。它是一個(gè)集多模態(tài)、多任務(wù)、多具身特性于一體的通用智能體，其核心架構(gòu)采用了包含 11.8 億參數(shù)的Transformer序列模型。

核心設(shè)計(jì)：

繼承LLM的Transformer序列建模范式，通過(guò)將跨模態(tài)數(shù)據(jù)序列化（圖像分塊、動(dòng)作離散化）擴(kuò)展至物理交互領(lǐng)域；基于廣泛的多模態(tài)數(shù)據(jù)訓(xùn)練（涵蓋圖像、文本、本體狀態(tài)感知、關(guān)節(jié)扭矩、按鈕操作等），賦予模型對(duì)離散/連續(xù)觀測(cè)與動(dòng)作的泛化處理能力。

通過(guò)使用一組具有相同權(quán)重的單一神經(jīng)網(wǎng)絡(luò)，可處理不同具身形態(tài)（如機(jī)械臂、仿生機(jī)器人）的多源傳感數(shù)據(jù)，實(shí)現(xiàn)跨場(chǎng)景感知與動(dòng)作生成。

通用智能體Gato可適配不同具身形態(tài)

1）基礎(chǔ)模型訓(xùn)練數(shù)據(jù)

a. 控制任務(wù)數(shù)據(jù)（占比 85.3%）：包含游戲交互（如Atari游戲按鍵序列）、機(jī)器人操作（真實(shí)機(jī)械臂關(guān)節(jié)力矩、本體狀態(tài)感知數(shù)據(jù)）以及導(dǎo)航與規(guī)劃任務(wù)（如Meta-World中的機(jī)械臂操控、BabyAI中的3D導(dǎo)航）。這些數(shù)據(jù)主要來(lái)自模擬環(huán)境（如MuJoCo、DM Control Suite）和真實(shí)機(jī)器人平臺(tái)（如Sawyer機(jī)械臂）的軌跡記錄，總計(jì)覆蓋596項(xiàng)任務(wù)，占訓(xùn)練數(shù)據(jù)總量的85.3%。

b. 視覺(jué)與語(yǔ)言數(shù)據(jù)（占比 14.7%）：整合了純文本語(yǔ)料（對(duì)話、網(wǎng)頁(yè)文本）、圖像數(shù)據(jù)（如ImageNet）及圖文配對(duì)信息（圖像描述任務(wù)）。此類數(shù)據(jù)用于支持圖像字幕生成、文本對(duì)話等能力，但其占比顯著低于控制任務(wù)。

Gato模型訓(xùn)練所使用數(shù)據(jù)集

2）模型的訓(xùn)練與部署

a. 訓(xùn)練階段

來(lái)自不同任務(wù)和模態(tài)的數(shù)據(jù)被序列化為一個(gè)扁平的 Token 序列，分批處理后由 Transformer 神經(jīng)網(wǎng)絡(luò)處理。通過(guò)掩碼機(jī)制，損失函數(shù)僅應(yīng)用于目標(biāo)輸出（即文本和各種動(dòng)作）。

Gato訓(xùn)練階段示意圖

b. 部署階段

采樣的 Tokens 會(huì)根據(jù)上下文組合成對(duì)話回復(fù)、圖像字幕、按鈕操作或其他動(dòng)作。Gato 使用自回歸生成控制策略，預(yù)測(cè) t+1 的編碼并反解碼為動(dòng)作，與環(huán)境交互。

將Gato部署為策略的過(guò)程示意圖

3）Gato —— 邁向AGI的關(guān)鍵一步

Gato 首次提出 “通才智能體（Generalist Agent）”概念，將 AI研究從“任務(wù)特定優(yōu)化”轉(zhuǎn)向“跨多任務(wù)統(tǒng)一建模”。

a. 方法論革新：擴(kuò)展LLM的“預(yù)訓(xùn)練+微調(diào)”范式至物理交互場(chǎng)景，通過(guò)數(shù)據(jù)序列化（圖像分塊、動(dòng)作離散化等）實(shí)現(xiàn)多模態(tài)統(tǒng)一處理，首次驗(yàn)證Transformer在低維連續(xù)控制任務(wù)（如機(jī)械臂操作）中的潛力，但未突破其短期記憶瓶頸。例如，Gato在物理任務(wù)中依賴專家演示數(shù)據(jù)，且未解決長(zhǎng)期記憶問(wèn)題（上下文窗口僅1024 tokens）。

b. AGI路徑探索：通過(guò)參數(shù)縮放實(shí)驗(yàn)（79M→364M→1.18B）驗(yàn)證模型規(guī)模、數(shù)據(jù)多樣性與多任務(wù)泛化能力的正相關(guān)性，為通用模型研發(fā)提供實(shí)證依據(jù)；但后續(xù)研究表明，單純擴(kuò)大規(guī)模難以提升專業(yè)化能力，需結(jié)合“通專融合”架構(gòu)解決任務(wù)可持續(xù)性問(wèn)題。

Gato驗(yàn)證并實(shí)現(xiàn)了跨模態(tài)統(tǒng)一建模，將計(jì)算機(jī)視覺(jué)（CV）、自然語(yǔ)言處理（NLP）和機(jī)器人控制等不同模態(tài)數(shù)據(jù)（如圖像、文本、傳感器信號(hào)、關(guān)節(jié)力矩）通過(guò)統(tǒng)一的Transformer 序列模型進(jìn)行處理。

數(shù)據(jù)序列化：所有模態(tài)數(shù)據(jù)被轉(zhuǎn)化為Token序列（如文本通過(guò)SentencePiece編碼，圖像分割為 16x16 圖塊，連續(xù)狀態(tài)和動(dòng)作通過(guò)標(biāo)量離散化），形成統(tǒng)一輸入空間；

模型參數(shù)共享：同一套11.8 億參數(shù)的模型可同時(shí)處理視覺(jué)識(shí)別、語(yǔ)言對(duì)話、機(jī)器人操作等任務(wù)，避免了傳統(tǒng)方法為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)模型的冗余；

動(dòng)態(tài)決策：模型基于輸入序列的上下文自回歸地預(yù)測(cè)下一個(gè)Token，該Token可以自動(dòng)對(duì)應(yīng)到不同的輸出模態(tài)（如生成文本回復(fù)、游戲按鍵或機(jī)械臂控制指令），實(shí)現(xiàn)跨模態(tài)無(wú)縫交互。

總而言之，Gato在跨模態(tài)整合、任務(wù)通用性上的突破，被學(xué)界視為邁向通用人工智能的關(guān)鍵一步。

4）Gato的局限性

有業(yè)內(nèi)相關(guān)專家指出，Gato模型的最大價(jià)值之一是將強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理三大領(lǐng)域深度融合。盡管技術(shù)路徑上借鑒了既有框架，但能將圖像、文本與機(jī)器控制等不同模態(tài)數(shù)據(jù)映射至同一表征空間，并用同一套模型參數(shù)實(shí)現(xiàn)統(tǒng)一表達(dá)，已實(shí)屬難得。

但是，Gato總體上依然是數(shù)據(jù)驅(qū)動(dòng)的方式，且并沒(méi)有在訓(xùn)練分布外的任務(wù)上獲得較好效果。同時(shí)，訓(xùn)練數(shù)據(jù)總體上偏向游戲和機(jī)器人控制任務(wù)，采用有監(jiān)督的離線訓(xùn)練方式，依賴專家數(shù)據(jù)，未充分利用強(qiáng)化學(xué)習(xí)的核心機(jī)制——獎(jiǎng)勵(lì)信號(hào)和在線交互。例如，其機(jī)器人控制任務(wù)的成功依賴預(yù)訓(xùn)練的專家軌跡，而非通過(guò)實(shí)時(shí)獎(jiǎng)勵(lì)優(yōu)化策略。

這一局限性在后續(xù)模型RoboCat中通過(guò)自我改進(jìn)循環(huán)（Self-Improvement Loop）得到部分解決。

3. 2022年10月：谷歌發(fā)布機(jī)器人Transformer模型RT-1

2022 年 10 月，谷歌 DeepMind 發(fā)布 RT-1 模型，其訓(xùn)練數(shù)據(jù)源自 13 臺(tái)機(jī)器人持續(xù) 17 個(gè)月采集的超 13 萬(wàn)條任務(wù)片段。該研究開(kāi)創(chuàng)性地將Transformer的應(yīng)用向前推進(jìn) —— 將語(yǔ)言和視覺(jué)觀測(cè)到機(jī)器人動(dòng)作的映射視為一個(gè)序列建模問(wèn)題，并利用Transformer學(xué)習(xí)這一映射。

能否借助多樣化的機(jī)器人任務(wù)數(shù)據(jù)，訓(xùn)練出統(tǒng)一且強(qiáng)大的多任務(wù)骨干模型，使其具備對(duì)新任務(wù)、操作環(huán)境及物體的零樣本泛化能力？這一目標(biāo)面臨兩大核心挑戰(zhàn)：數(shù)據(jù)集構(gòu)建與模型設(shè)計(jì)。谷歌RT-1模型正是針對(duì)該命題的突破性探索。在RT-1模型的研究探索中，谷歌DeepMind 研究人員發(fā)現(xiàn)：

數(shù)據(jù)模型要實(shí)現(xiàn)優(yōu)質(zhì)泛化，必須構(gòu)建兼具規(guī)模與廣度的數(shù)據(jù)集，覆蓋多樣化任務(wù)與場(chǎng)景。同時(shí)，數(shù)據(jù)集中的任務(wù)需具備強(qiáng)關(guān)聯(lián)性以支撐泛化，使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)間的內(nèi)在規(guī)律，并通過(guò)創(chuàng)新性組合完成新任務(wù)。

模型架構(gòu)設(shè)計(jì)的挑戰(zhàn)在于—— 高效的多任務(wù)機(jī)器人學(xué)習(xí)需要的高容量模型。

1）RT-1模型工作原理

RT-1執(zhí)行閉環(huán)控制，并以3Hz的頻率持續(xù)輸出動(dòng)作指令，直至觸發(fā)"終止"動(dòng)作或達(dá)到預(yù)設(shè)時(shí)間步上限。

首先通過(guò)ImageNet預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)EfficientNet處理圖像，該網(wǎng)絡(luò)通過(guò)FiLM模塊與指令的預(yù)訓(xùn)練嵌入向量進(jìn)行條件調(diào)節(jié)；隨后采用令牌學(xué)習(xí)器（tokenLearner）生成緊湊令牌集( set of tokens)；最終由Transformer對(duì)這些令牌執(zhí)行注意力計(jì)算，輸出離散化動(dòng)作令牌(action token)。

RT-1工作流程圖

RT-1架構(gòu)包含以下核心內(nèi)容：

RT-1架構(gòu)圖

a. EfficientNet網(wǎng)絡(luò)

RT-1通過(guò)將6 幅圖像的歷史記錄輸入一個(gè)基于ImageNet 預(yù)訓(xùn)練的 EfficientNet-B3模型來(lái)對(duì)其進(jìn)行令牌化。

該模型接收分辨率為 300×300 的6幅圖像作為輸入，并從最終的卷積層輸出一個(gè)形狀為 9×9×512 的空間特征圖。

為了包含語(yǔ)言指令，研究人員使用預(yù)訓(xùn)練的語(yǔ)言嵌入形式，讓圖像令牌化器以自然語(yǔ)言指令為條件，從而能夠在早期提取任務(wù)相關(guān)的圖像特征，并提升 RT-1 的性能。

EfficientNet是一種卷積神經(jīng)網(wǎng)絡(luò)（CNN），是高效的 “圖像特征提取器”。它好比是提取畫(huà)面特征的“圖像翻譯官”，專門用來(lái)從圖像中提取特征，用于識(shí)別物體、分析場(chǎng)景等。

類似人類看照片時(shí)自動(dòng)識(shí)別 “物體輪廓”，該卷積網(wǎng)絡(luò)提前在 ImageNet（大規(guī)模圖像數(shù)據(jù)集）上學(xué)過(guò)識(shí)別貓、車、杯子等物體，能從攝像頭畫(huà)面中快速提取所要識(shí)別物體的關(guān)鍵特征。

b. FiLM 模塊

指令首先通過(guò)通用句子編碼器（USE）進(jìn)行嵌入。然后，將該嵌入用作輸入，輸入到恒等初始化的 FiLM層，這些 FiLM 層被添加到預(yù)訓(xùn)練的 EfficientNet 中，以調(diào)節(jié)圖像編碼器。

FiLM 模塊好比是指令與圖像的 “融合濾鏡”。指令（比如 “把杯子拿到桌子上”）會(huì)先被轉(zhuǎn)換成機(jī)器能懂的 “數(shù)字密碼”（預(yù)訓(xùn)練嵌入向量）。FiLM 模塊就像一個(gè)調(diào)節(jié)旋鈕，用這個(gè) “密碼” 去調(diào)整圖像特征：如果指令是 “拿杯子”，F(xiàn)iLM 會(huì)讓卷積網(wǎng)絡(luò)提取的特征更關(guān)注 “杯子的位置和把手”，忽略背景中的沙發(fā)。

c. TokenLearner（令牌學(xué)習(xí)器）

加入 TokenLearner后，將從預(yù)訓(xùn)練的 FiLM-EfficientNet層輸出的 81個(gè)視覺(jué)令牌二次采樣到僅剩8個(gè)最終令牌，然后這些令牌被傳遞到Transformer 層。

TokenLearner可類比成是特征的 “智能摘要工具”。卷積網(wǎng)絡(luò)處理后的圖像特征可能包含數(shù)萬(wàn)維數(shù)據(jù)（比如一張圖拆成 1000 個(gè)小區(qū)域的特征），直接處理像 “讀一本厚書(shū)”，效率很低。令牌學(xué)習(xí)器會(huì)自動(dòng)挑選最重要的特征，把海量數(shù)據(jù) “壓縮” 成幾十個(gè)關(guān)鍵 “令牌”（Token），類似從書(shū)中提取 “杯子、桌子、位置” 等關(guān)鍵詞，扔掉無(wú)關(guān)細(xì)節(jié)（比如杯子上的花紋）。這樣一來(lái)，數(shù)據(jù)量大幅減少，后續(xù)模型處理速度就像 “從讀整本書(shū)變成看目錄”，效率飆升。

d. Transformer

每幅圖像產(chǎn)生的這8個(gè)令牌隨后會(huì)與歷史記錄中的其他圖像令牌拼接，形成總共 48 個(gè)令牌（并添加了位置編碼），輸入到 RT-1 的 Transformer 骨干網(wǎng)絡(luò)中。該Transformer 是一個(gè)19M參數(shù)的，且僅包含解碼器的序列模型，具有8個(gè)自注意力層，其輸出是動(dòng)作令牌。

Transformer可以看成是基于“關(guān)鍵詞”的注意力決策者。Transformer 就像一個(gè)經(jīng)驗(yàn)豐富的 “規(guī)劃師”，它會(huì)分析壓縮后的令牌（圖像關(guān)鍵詞）和指令密碼，并最終輸出機(jī)器人的動(dòng)作執(zhí)行指令。

e. 其它

動(dòng)作令牌化（Action Tokenization）—— 為了對(duì)動(dòng)作進(jìn)行令牌化，RT-1中的每個(gè)動(dòng)作維度都被離散化為256個(gè)bins。

動(dòng)作維度包括：機(jī)械臂運(yùn)動(dòng)的七個(gè)變量（x, y, z, roll, pitch, yaw, 夾爪開(kāi)合度）、底盤運(yùn)動(dòng)的三個(gè)變量（x, y, yaw）以及一個(gè)用于在三種模式（控制機(jī)械臂、控制底盤和終止任務(wù)片段）間切換的離散變量。

對(duì)于每個(gè)變量，研究人員將目標(biāo)值映射到這256個(gè)bins中的一個(gè)，這些bins在每個(gè)變量的取值范圍內(nèi)均勻分布。

損失函數(shù) —— 研究人員使用了標(biāo)準(zhǔn)的分類交叉熵目標(biāo)函數(shù)和因果掩碼。

推理速度—— 一個(gè)需要在真實(shí)機(jī)器人上實(shí)時(shí)運(yùn)行的模型的獨(dú)特要求之一是快速且穩(wěn)定的推理速度。研究人員采用了兩種技術(shù)來(lái)加速推理：

通過(guò)使用TokenLearner，減少由預(yù)訓(xùn)練 EfficientNet 模型生成的令牌數(shù)量；

僅計(jì)算這些令牌一次，并在后續(xù)存在重疊的推理窗口中復(fù)用它們。

這兩項(xiàng)技術(shù)將模型推理速度分別提升了2.4倍和1.7倍。

2) RT-1局限性

盡管RT-1 在多項(xiàng)關(guān)鍵指標(biāo)上表現(xiàn)突出：以 97% 成功率執(zhí)行超 700 條指令，在新任務(wù)、物體與環(huán)境的泛化能力上超越已發(fā)布基線模型；能有效融合模擬環(huán)境與異構(gòu)機(jī)器人形態(tài)的數(shù)據(jù)，且在不削弱原任務(wù)性能的前提下增強(qiáng)新場(chǎng)景適應(yīng)性；還可在SayCan框架中完成長(zhǎng)達(dá)50步的長(zhǎng)時(shí)程任務(wù) —— 但該模型仍存在一定局限性。

RT-1 的訓(xùn)練數(shù)據(jù)雖覆蓋大規(guī)模操作任務(wù)，但主要針對(duì)靈巧度要求不高的操作場(chǎng)景；

RT-1是一種模仿學(xué)習(xí)方法，繼承了該類方法固有的挑戰(zhàn)，例如，可能無(wú)法超越演示者的性能水平。

RT-1對(duì)新指令的泛化僅限于先前見(jiàn)過(guò)的概念組合，尚無(wú)法泛化到前所未見(jiàn)的全新動(dòng)作。

2023年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2023年3月：谷歌發(fā)布具身多模態(tài)視覺(jué)語(yǔ)言大模型PaLM-E

2023年3月，谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)正式推出PaLM-E。該模型之所以命名為 PaLM-E，是因?yàn)樗捎?PaLM作為預(yù)訓(xùn)練語(yǔ)言模型，并使其具備了具身能力（Embodied）。

PaLM-E是一個(gè)單一的、大型的通用型多模態(tài)語(yǔ)言模型，能夠?qū)⒁曈X(jué)-語(yǔ)言領(lǐng)域的知識(shí)遷移到具身推理領(lǐng)域，適用于具身推理任務(wù)、視覺(jué)-語(yǔ)言任務(wù)和語(yǔ)言任務(wù)，包括序列化機(jī)器人操作規(guī)劃、視覺(jué)問(wèn)答和圖像描述生成等。

該模型可直接整合來(lái)自具身智能體傳感器模態(tài)的連續(xù)輸入，從而使語(yǔ)言模型本身能夠做出更貼近現(xiàn)實(shí)的推理，以支持現(xiàn)實(shí)世界中的序列化決策。

圖像和狀態(tài)估計(jì)等輸入會(huì)被嵌入到與語(yǔ)言令牌（Language Tokens）相同的潛在嵌入空間中，并由基于 Transformer 的大型語(yǔ)言模型（LLM）的自注意力層以與處理文本相同的方式進(jìn)行處理。

PaLM-E系統(tǒng)架構(gòu)

1）PaLM-E模型整體架構(gòu)

PaLM-E模型的架構(gòu)由三部分構(gòu)成：多模態(tài)編碼器、投影器和僅含解碼器的大型語(yǔ)言模型（LLM）。它能在給定前綴或提示的情況下，以自回歸方式生成文本補(bǔ)全內(nèi)容。

其主要架構(gòu)思路是將連續(xù)的具身觀察信息（如圖像、狀態(tài)估計(jì)或其他傳感器模態(tài)）注入預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)言嵌入空間。其具體實(shí)現(xiàn)方式：將連續(xù)觀察信息編碼為一系列向量，這些向量的維度與語(yǔ)言標(biāo)記的嵌入空間維度相同。因此，連續(xù)信息以類似于語(yǔ)言令牌的方式被注入語(yǔ)言模型中。

PaLM-E 的輸入: 包括文本和（多個(gè)）連續(xù)觀察數(shù)據(jù)。與這些觀察數(shù)據(jù)對(duì)應(yīng)的多模態(tài)令牌與文本交錯(cuò)排列，形成多模態(tài)句子。例如：What happened between and ? where represents an embedding of an image. 其中，代表圖像的嵌入向量。

PaLM-E 的輸出: 是模型通過(guò)自回歸方式生成的文本，既可以是問(wèn)題的答案，也可以是PaLM-E 以文本形式生成的、由機(jī)器人執(zhí)行的一系列決策。

為實(shí)現(xiàn)模型輸出與具身智能體的連接，該研究將其區(qū)分為兩種具體情況：

a. 如果任務(wù)僅通過(guò)輸出文本即可完成（例如，在具身問(wèn)答或場(chǎng)景描述任務(wù)中），那么模型的輸出就直接被視為該任務(wù)的解決方案。

b. 如果是解決具身規(guī)劃或控制任務(wù)，它會(huì)生成文本以調(diào)控低級(jí)指令。

具體而言，假設(shè)有一些策略能夠執(zhí)行來(lái)自某個(gè)（小型）詞匯表的低級(jí)技能，而PaLM-E 生成的有效規(guī)劃必須由一系列此類技能構(gòu)成。

但是，PaLM-E 必須根據(jù)訓(xùn)練數(shù)據(jù)和提示信息自行判斷可用的技能，且沒(méi)有其他機(jī)制用于約束或過(guò)濾其輸出。盡管這些策略是受語(yǔ)言調(diào)控的，但它們無(wú)法解決長(zhǎng)時(shí)程任務(wù)或處理復(fù)雜指令。

因此，PaLM-E 被整合到控制環(huán)路中，其預(yù)測(cè)的決策由機(jī)器人通過(guò)低級(jí)策略執(zhí)行，進(jìn)而產(chǎn)生新的觀察結(jié)果 —— 基于這些結(jié)果，PaLM-E 可在必要時(shí)重新規(guī)劃。從這個(gè)意義上來(lái)說(shuō)，PaLM-E可以被理解為一種高級(jí)策略，用于對(duì)低級(jí)策略進(jìn)行排序和控制。

2) 不同傳感器模態(tài)的輸入與場(chǎng)景表征

針對(duì)不同傳感器模態(tài)（如狀態(tài)估計(jì)向量、二維圖像等），需采用專用編碼器進(jìn)行處理。為此，谷歌提出差異化的編碼器架構(gòu)選擇：通過(guò)映射函數(shù)將對(duì)應(yīng)模態(tài)數(shù)據(jù)對(duì)齊至語(yǔ)言嵌入空間。具體研究涵蓋以下模態(tài)處理方案：

狀態(tài)估計(jì)向量：采用多層感知器（MLP）。狀態(tài)向量（例如來(lái)自機(jī)器人的向量或?qū)ο蟮臓顟B(tài)估計(jì)向量）包含這些對(duì)象的位姿、大小、顏色等信息。多層感知器（MLP）會(huì)將狀態(tài)向量映射到語(yǔ)言嵌入空間中。

二維圖像特征：采用視覺(jué) Transformer（ViT）。ViT是一種Transformer架構(gòu)，能將圖像映射為多個(gè)標(biāo)記嵌入向量。研究人員考慮了多種變體，包括 40 億參數(shù)模型的ViT-4B），以及220 億參數(shù)模型 ViT-22B，這兩種模型均在圖像分類任務(wù)上進(jìn)行過(guò)預(yù)訓(xùn)練。

三維場(chǎng)景表征：采用對(duì)象場(chǎng)景表征Transformer（OSRT）。它不依賴于對(duì)象的外部知識(shí)，而是通過(guò)架構(gòu)中的歸納偏置以無(wú)監(jiān)督方式發(fā)現(xiàn)對(duì)象�；� SRT，OSRT 通過(guò)新穎的視圖合成任務(wù)，在領(lǐng)域內(nèi)數(shù)據(jù)上學(xué)習(xí)以三維為中心的神經(jīng)場(chǎng)景表征。

3）PaLM-E模型訓(xùn)練方法

PaLM-E 以預(yù)訓(xùn)練的PaLM 模型（分別為80億、620億和5400億參數(shù)的僅含解碼器版本）為基礎(chǔ)，通過(guò)輸入編碼器向其中注入連續(xù)觀察數(shù)據(jù)。

PaLM-E-12B：80 億參數(shù)LLM與 40 億參數(shù)ViT相結(jié)合；

PaLM-E-84B：620億參數(shù)LLM與220億參數(shù)ViT相結(jié)合；

PaLM-E-562B：5400億參數(shù)LLM與 220 億參數(shù)ViT相結(jié)合。

備注：PaLM-E-562B ——盡管它僅在單圖像樣本上進(jìn)行過(guò)訓(xùn)練，但卻具備多種能力，包括零樣本多模態(tài)思維鏈（CoT）推理、少樣本提示、無(wú)需光學(xué)字符識(shí)別（OCR）的數(shù)學(xué)推理以及多圖像推理。

a. 訓(xùn)練方法1：更新所有組件的參數(shù)。然而，若能提供合適的提示，大型語(yǔ)言模型會(huì)展現(xiàn)出令人印象深刻的推理能力。

b. 訓(xùn)練方法2：凍結(jié)大型語(yǔ)言模型，僅訓(xùn)練輸入編碼器；在這種情況下，編碼器必須生成嵌入向量，使凍結(jié)的大型語(yǔ)言模型能基于觀察數(shù)據(jù)，并將具身實(shí)體的能力信息傳遞給大型語(yǔ)言模型。訓(xùn)練此類編碼可理解為一種輸入條件化的軟提示，與常規(guī)軟提示相關(guān)。

c. 訓(xùn)練方法3：跨任務(wù)協(xié)同訓(xùn)練: 在多種不同數(shù)據(jù)上對(duì)模型進(jìn)行協(xié)同訓(xùn)練。其中，“完整混合數(shù)據(jù)集”主要包含大規(guī)模互聯(lián)網(wǎng)級(jí)別的視覺(jué) - 語(yǔ)言數(shù)據(jù)，涵蓋多種任務(wù)。其采樣頻率設(shè)置為：完整混合數(shù)據(jù)集中僅有 8.9% 是具身數(shù)據(jù)，且每個(gè)具身場(chǎng)景下包含多個(gè)任務(wù)。

實(shí)驗(yàn)結(jié)果顯示，相較于僅在不同任務(wù)上單獨(dú)訓(xùn)練，在“完整混合數(shù)據(jù)集” 上進(jìn)行協(xié)同訓(xùn)練的模型，性能提升了一倍以上。

4）研究發(fā)現(xiàn)

a. 盡管當(dāng)前最先進(jìn)的通用視覺(jué)- 語(yǔ)言模型在零樣本情況下無(wú)法很好地解決具身推理問(wèn)題，但通過(guò)訓(xùn)練，在多模態(tài)大型語(yǔ)言模型的訓(xùn)練中融入具身數(shù)據(jù)，可以訓(xùn)練出一個(gè)具備通用性、遷移學(xué)習(xí)能力且適用于多具身形式的決策智能體 —— 一個(gè)既能勝任通用視覺(jué) - 語(yǔ)言任務(wù)，又能高效進(jìn)行具身推理的模型。

b. 相較于單任務(wù)訓(xùn)練范式，多任務(wù)聯(lián)合訓(xùn)練顯著提升模型綜合性能。其核心價(jià)值在于跨任務(wù)知識(shí)遷移能力——該機(jī)制大幅提高機(jī)器人任務(wù)的數(shù)據(jù)利用效率（例如僅需10%的示范數(shù)據(jù)即可達(dá)到同等成功率），并賦予模型對(duì)新物體組合的強(qiáng)泛化能力（單樣本泛化成功率提升37%）及開(kāi)放世界物體的零樣本操作能力。

c. 在多模態(tài)模型聯(lián)合訓(xùn)練過(guò)程中，研究揭示兩種保持PaLM-E語(yǔ)言能力的有效途徑：

參數(shù)凍結(jié)策略：鎖定大型語(yǔ)言模型（LLM）參數(shù)，僅訓(xùn)練輸入編碼器——此方案顯著降低訓(xùn)練成本，成為構(gòu)建具身語(yǔ)言模型的高效方法。

規(guī)�；说蕉擞�(xùn)練：當(dāng)進(jìn)行全模型端到端訓(xùn)練時(shí)，模型參數(shù)量與語(yǔ)言能力保留度呈正相關(guān)（例如562B的PaLM-E模型保留540B的PaLM模型96%的語(yǔ)言性能），可有效抑制具身化過(guò)程中的災(zāi)難性遺忘現(xiàn)象。

基于語(yǔ)言任務(wù)的實(shí)驗(yàn)結(jié)果

備注：通用語(yǔ)言任務(wù)實(shí)驗(yàn)結(jié)果表明——隨著模型規(guī)模擴(kuò)大，PaLM-E模型相較于其基礎(chǔ)PaLM模型的災(zāi)難性遺忘程度顯著降低。

2. 2023年6月：谷歌發(fā)布通用智能體RoboCat

2023年6月，谷歌DeepMind推出多具身形態(tài)、多任務(wù)通用智能體RoboCat——一種基于視覺(jué)目標(biāo)條件的決策Transformer，可處理動(dòng)作標(biāo)注的視覺(jué)經(jīng)驗(yàn)數(shù)據(jù)，能夠通過(guò)自身生成的數(shù)據(jù)進(jìn)行訓(xùn)練迭代實(shí)現(xiàn)自我改進(jìn)。

1）對(duì)Gato的繼承和創(chuàng)新RoboCat

直接沿用Gato的多模態(tài)Transformer架構(gòu)作為基礎(chǔ)，將視覺(jué)、語(yǔ)言、動(dòng)作數(shù)據(jù)統(tǒng)一處理為離散token序列。這一設(shè)計(jì)被認(rèn)為是DeepMind在通用智能體Gato的技術(shù)路線上的延續(xù)。

另外，在Gato基礎(chǔ)上，RoboCat針對(duì)機(jī)器人任務(wù)強(qiáng)化了以下能力：

a. 動(dòng)作輸出適配：RoboCat 針對(duì)機(jī)器人任務(wù)的動(dòng)作頭擴(kuò)展并非簡(jiǎn)單的維度調(diào)整，而是通過(guò)動(dòng)態(tài)動(dòng)作空間映射實(shí)現(xiàn)的深度優(yōu)化。

多自由度兼容設(shè)計(jì)：動(dòng)作頭支持混合動(dòng)作表示，可同時(shí)處理離散動(dòng)作（如按鍵）和連續(xù)動(dòng)作（如關(guān)節(jié)力矩）；引入動(dòng)作頭參數(shù)共享機(jī)制，即不同機(jī)械臂的動(dòng)作頭共享底層Transformer 參數(shù)，但通過(guò)任務(wù)特定的適配器（Adapter）實(shí)現(xiàn)自由度差異的動(dòng)態(tài)適配。

硬件無(wú)關(guān)的控制接口：通過(guò)統(tǒng)一動(dòng)作語(yǔ)義空間實(shí)現(xiàn)跨機(jī)械臂遷移。例如，抓取動(dòng)作在不同機(jī)械臂中被抽象為"閉合夾具" 的語(yǔ)義指令，動(dòng)作頭根據(jù)當(dāng)前機(jī)械臂的自由度自動(dòng)生成具體的關(guān)節(jié)角度序列。另外，引入動(dòng)作空間正則化技術(shù)：在訓(xùn)練階段，通過(guò)對(duì)抗訓(xùn)練使動(dòng)作頭輸出分布與機(jī)械臂物理約束對(duì)齊，避免生成超出關(guān)節(jié)極限的動(dòng)作。

b. 目標(biāo)條件策略：RoboCat 的目標(biāo)圖像輸入通道并非簡(jiǎn)單的輸入擴(kuò)展，而是構(gòu)建了端到端的視覺(jué) - 動(dòng)作閉環(huán)。

目標(biāo)圖像的多模態(tài)融合：目標(biāo)圖像通過(guò)預(yù)訓(xùn)練的VQ-GAN 編碼器轉(zhuǎn)化為 token 序列，并與當(dāng)前觀測(cè)圖像 token、動(dòng)作 token、任務(wù)描述 token 共同輸入 Transformer；引入目標(biāo)-觀測(cè)注意力機(jī)制：Transformer 在處理序列時(shí)，會(huì)動(dòng)態(tài)計(jì)算目標(biāo)圖像 token 與當(dāng)前觀測(cè) token 的相關(guān)性，優(yōu)先關(guān)注需要調(diào)整的區(qū)域。

閉環(huán)控制的實(shí)時(shí)性優(yōu)化：采用時(shí)序目標(biāo)對(duì)齊技術(shù)，將目標(biāo)圖像分解為時(shí)間序列token，并與當(dāng)前動(dòng)作序列token 進(jìn)行時(shí)序?qū)R訓(xùn)練；引入失敗補(bǔ)償機(jī)制 —— 當(dāng)動(dòng)作執(zhí)行未達(dá)到目標(biāo)時(shí)，模型會(huì)自動(dòng)生成補(bǔ)償動(dòng)作。

2) 自我改進(jìn)閉環(huán)學(xué)習(xí)機(jī)制

研究實(shí)驗(yàn)表明，RoboCat既能零樣本泛化到新任務(wù)與新形態(tài)機(jī)器人，也可僅通過(guò)100-1000個(gè)目標(biāo)任務(wù)樣本的微調(diào)，快速適配到不同的新任務(wù)，包括新機(jī)器人具身、未見(jiàn)過(guò)的行為、物體和感知變體（光照/視角等感知條件變化），以及從仿真模擬到真實(shí)的遷移。

此外，訓(xùn)練后的模型自身可生成數(shù)據(jù)用于后續(xù)訓(xùn)練迭代，從而構(gòu)建自我改進(jìn)閉環(huán)學(xué)習(xí)機(jī)制 —— 研究人員使用多樣化的訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練該通用智能體的初始版本，該版本可通過(guò)100-1000 次演示數(shù)據(jù)微調(diào)至適配新任務(wù)，隨后部署到真實(shí)機(jī)器人上，為這些任務(wù)生成更多數(shù)據(jù)。生成的新數(shù)據(jù)將被添加到訓(xùn)練數(shù)據(jù)集中，用于RoboCat的下一迭代版本訓(xùn)練，這種機(jī)制在一定程度上突破了傳統(tǒng)機(jī)器人依賴真機(jī)數(shù)據(jù)的局限，使模型能持續(xù)進(jìn)化變成可能。

如下圖所示，RoboCat通過(guò)自我改進(jìn)閉環(huán)流程持續(xù)提升智能體能力——增強(qiáng)其跨任務(wù)遷移性、通過(guò)微調(diào)擴(kuò)展適配任務(wù)范圍，并在現(xiàn)有任務(wù)中實(shí)現(xiàn)性能突破。

RoboCat自我改進(jìn)閉環(huán)流程機(jī)制

3）基礎(chǔ)模型訓(xùn)練數(shù)據(jù)

RoboCat 的訓(xùn)練數(shù)據(jù)集聚焦于視覺(jué)目標(biāo)條件下的機(jī)器人操作任務(wù)，且針對(duì)性覆蓋了多形態(tài)硬件和復(fù)雜場(chǎng)景，包含400 萬(wàn)次機(jī)器人操作片段，涵蓋物體分揀、工具使用、導(dǎo)航等多樣化場(chǎng)景。

多具身形態(tài)適配：數(shù)據(jù)來(lái)自4 種不同類型的真實(shí)機(jī)器人（如 Sawyer、Panda 機(jī)械臂）及模擬環(huán)境，包含不同自由度、觀察空間和動(dòng)作規(guī)范的操作序列。

任務(wù)多樣性覆蓋：訓(xùn)練數(shù)據(jù)覆蓋253 項(xiàng)基礎(chǔ)任務(wù)及 141 項(xiàng)變體，涉及精密裝配（如齒輪插入、積木堆疊等）、基礎(chǔ)操作類（如抓取指定物體、分揀水果等）等場(chǎng)景。

4）RoboCat的局限性

在具身智能領(lǐng)域，機(jī)器人面臨的最大挑戰(zhàn)是如何像人類一樣快速適應(yīng)新任務(wù)與環(huán)境。RoboCat首次在通用機(jī)器人領(lǐng)域?qū)崿F(xiàn)了“學(xué)習(xí)-實(shí)踐-進(jìn)化”的完整閉環(huán)，為破解這一難題提供了全新路徑。

這一突破性技術(shù)通過(guò)在模擬與真實(shí)環(huán)境中融合跨機(jī)器人經(jīng)驗(yàn)，結(jié)合生成式人工智能的自我數(shù)據(jù)增強(qiáng)能力，顯著降低了新技能學(xué)習(xí)所需的人類演示數(shù)據(jù)量。然而，在動(dòng)態(tài)環(huán)境適應(yīng)性、跨本體泛化效率等方面仍存在明顯局限。

1）動(dòng)態(tài)環(huán)境應(yīng)對(duì)不足：物理建模深度的不夠

RoboCat在靜態(tài)桌面操作（如抓取固定物體、堆疊積木）中表現(xiàn)出色，但面對(duì)動(dòng)態(tài)交互場(chǎng)景時(shí)性能急劇下降。例如在抓取滾動(dòng)球體任務(wù)中，其成功率不足30%，遠(yuǎn)低于工業(yè)場(chǎng)景要求的95%+的可靠性標(biāo)準(zhǔn)。這本質(zhì)上是世界模型缺失的體現(xiàn)。與人類基于物理直覺(jué)預(yù)判行為后果不同，RoboCat僅建立“圖像-動(dòng)作”的統(tǒng)計(jì)關(guān)聯(lián)，缺乏對(duì)“力-運(yùn)動(dòng)-形變”因果鏈的內(nèi)在表征。當(dāng)環(huán)境變量超出訓(xùn)練集分布時(shí)（如地面材質(zhì)由木質(zhì)變?yōu)榻饘伲�，模型無(wú)法通過(guò)物理推理調(diào)整策略，導(dǎo)致跨場(chǎng)景泛化崩潰。

2）硬件適配的柔性瓶頸：本體特化與通用性的兩難

雖然RoboCat支持跨機(jī)械臂遷移，但其適配效率仍受限于本體動(dòng)力學(xué)特性差異。當(dāng)新硬件與訓(xùn)練集機(jī)械臂存在顯著動(dòng)力學(xué)差異時(shí)，微調(diào)成本劇增。這些問(wèn)題暴露了跨本體適配的“表面泛化”特性：模型可適應(yīng)外形相似、自由度相近的機(jī)械臂，但對(duì)動(dòng)力學(xué)特性迥異的系統(tǒng)，仍需近乎重訓(xùn)級(jí)的深度調(diào)整。

3. 2023年7月：谷歌發(fā)布機(jī)器人VLA模型RT-2

2023年7月，谷歌DeepMind發(fā)布具身智能視覺(jué)-語(yǔ)言-動(dòng)作模型（VLA）RT-2（Robotics Transformer 2）。其核心設(shè)計(jì)是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機(jī)器人動(dòng)作軌跡數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的視覺(jué)-語(yǔ)言模型（VLM）進(jìn)行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識(shí)遷移到機(jī)器人控制中，實(shí)現(xiàn)端到端的語(yǔ)義推理與動(dòng)作生成。

1）模型架構(gòu)

RT-2以預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型為核心骨干，通過(guò)動(dòng)作 Token 化將機(jī)器人控制任務(wù)統(tǒng)一到自然語(yǔ)言生成框架中，形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對(duì)應(yīng)的實(shí)例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

RT-2模型架構(gòu)

2）聯(lián)合微調(diào)（Co-Fine-Tune）

將機(jī)器人動(dòng)作數(shù)據(jù)（來(lái)自RT-1）與網(wǎng)絡(luò)數(shù)據(jù)混合，共同輸入模型進(jìn)行聯(lián)合微調(diào)。其中，網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺(jué)問(wèn)答（VQA）、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機(jī)器人動(dòng)作數(shù)據(jù)為13臺(tái)機(jī)器人持續(xù)17個(gè)月采集的辦公環(huán)境中的廚房場(chǎng)景數(shù)據(jù)（與RT-1訓(xùn)練所使用的數(shù)據(jù)相同）。

在具體實(shí)現(xiàn)方案中，谷歌DeepMind通過(guò)提高機(jī)器人動(dòng)作數(shù)據(jù)集的采樣權(quán)重，以平衡每批次訓(xùn)練數(shù)據(jù)中機(jī)器人動(dòng)作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。

模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動(dòng)作空間之間的映射關(guān)系。為此，需要預(yù)先保留256 個(gè)標(biāo)記（tokens）作為專用的動(dòng)作標(biāo)記。具體選擇哪些標(biāo)記作為動(dòng)作標(biāo)記，取決于所使用的視覺(jué)語(yǔ)言模型（VLM）的分詞方案：

PaLI-X：由于其分詞方案為每個(gè)不超過(guò) 1000 的整數(shù)分配了唯一的標(biāo)記，因此可直接將 action bins 映射到對(duì)應(yīng)的整數(shù)標(biāo)記上。

PaLM-E：該模型的分詞方案不包含數(shù)字的直接表示，因此需要覆蓋詞匯表中 256個(gè)使用頻率最低的標(biāo)記，將它們重新定義為動(dòng)作詞匯表。

DeepMind通過(guò)實(shí)驗(yàn)證明 —— 提升機(jī)器人性能的關(guān)鍵訓(xùn)練技巧在于：將機(jī)器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聯(lián)合微調(diào)，而非僅對(duì)機(jī)器人數(shù)據(jù)實(shí)施簡(jiǎn)單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強(qiáng)的策略，因?yàn)樵诖诉^(guò)程中，策略同時(shí)接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺(jué)概念和微調(diào)過(guò)程中的低層級(jí)機(jī)器人動(dòng)作，而非僅局限于機(jī)器人動(dòng)作。

3）RT-2的局限性

本文闡述了如何通過(guò)結(jié)合視覺(jué)語(yǔ)言模型（VLM）預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練視覺(jué)語(yǔ)言動(dòng)作（VLA）模型。

谷歌DeepMind提出了基于PaLM-E和PaLI-X的兩種VLA實(shí)現(xiàn)方案，分別命名為RT-2-PaLM-E和RT-2-PaLI-X。這些模型通過(guò)機(jī)器人軌跡數(shù)據(jù)進(jìn)行聯(lián)合微調(diào)，以輸出表示為文本標(biāo)記的機(jī)器人動(dòng)作。

研究表明，該方法不僅能生成高性能的機(jī)器人策略，更重要的是其泛化能力顯著提升，并繼承了大規(guī)模網(wǎng)絡(luò)視覺(jué)- 語(yǔ)言預(yù)訓(xùn)練所賦予的涌現(xiàn)能力。

盡管RT-2展現(xiàn)出優(yōu)異的泛化性能，該方法仍存在多重局限。

1）局限一：可用的開(kāi)源VLM模型少

目前僅有少量可用于創(chuàng)建RT-2 的通用視覺(jué) - 語(yǔ)言模型（VLM），期待更多開(kāi)源模型及開(kāi)放專有模型的微調(diào)API——這是構(gòu)建VLA模型的必要條件。

2）局限二：動(dòng)作創(chuàng)新能力受限

VLM通過(guò)網(wǎng)絡(luò)規(guī)模預(yù)訓(xùn)練可提升語(yǔ)義與視覺(jué)概念的泛化能力，但機(jī)器人并未因包含這些額外經(jīng)驗(yàn)而獲得執(zhí)行新動(dòng)作的能力。

模型的物理技能仍局限于機(jī)器人數(shù)據(jù)中所見(jiàn)的技能分布，僅能創(chuàng)新性地組合已有技能。DeepMind認(rèn)為這源于數(shù)據(jù)集的技能多樣性不足所致。未來(lái)研究的關(guān)鍵方向是探索通過(guò)新數(shù)據(jù)收集范式（如人類操作視頻）獲取新技能。

3）局限三：實(shí)時(shí)推理瓶頸

盡管實(shí)現(xiàn)了大型VLA模型的實(shí)時(shí)運(yùn)行，但其計(jì)算成本仍高昂。若應(yīng)用于需高頻控制的場(chǎng)景，實(shí)時(shí)推理將成為主要瓶頸。未來(lái)研究需探索量化和蒸餾技術(shù)，以提升模型速率或適配低成本硬件。

4. 2023年10月：谷歌發(fā)布機(jī)器人VLA模型RT-X

2023年10月，谷歌DeepMind發(fā)布了通用具身智能模型RT-X（含RT-1-X和RT-2-X），并開(kāi)源其訓(xùn)練數(shù)據(jù)集Open X-Embodiment。

RT-X 模型并非指單一模型，而是一個(gè)項(xiàng)目/系列。在原有 RT-1 和 RT-2 的框架基礎(chǔ)上，使用大規(guī)�？鐧C(jī)器人數(shù)據(jù)集 Open X-Embodiment 進(jìn)行訓(xùn)練（微調(diào)），從而得到了兩個(gè)系列的模型：RT-1-X 系列和 RT-2-X系列。

截至目前，Open X-Embodiment已整合 60個(gè)機(jī)器人數(shù)據(jù)集，覆蓋 311 種場(chǎng)景與 22 類不同類型的機(jī)器人平臺(tái)（含單臂/雙臂/四足機(jī)器人等），提供超100萬(wàn)條真實(shí)機(jī)器人運(yùn)動(dòng)軌跡，涵蓋 527 項(xiàng)技能及 160,266 項(xiàng)任務(wù)。

Open X-Embodiment 開(kāi)源數(shù)據(jù)集

1）RT-X模型訓(xùn)練使用數(shù)據(jù)集

據(jù)了解，在當(dāng)時(shí)訓(xùn)練RT-1-X 和 RT-2-X 時(shí)，所使用的數(shù)據(jù)并非如今 Open X-Embodiment 數(shù)據(jù)集的全部?jī)?nèi)容。其數(shù)據(jù)僅涵蓋 22 個(gè)機(jī)械臂中的 9 個(gè)，以及 60 組子數(shù)據(jù)集中的 12 組，總計(jì) 1,131,788 條數(shù)據(jù)。由于該數(shù)據(jù)集處于持續(xù)增長(zhǎng)狀態(tài)，在開(kāi)展 RT-X 相關(guān)實(shí)驗(yàn)時(shí)，這 12 組數(shù)據(jù)便是當(dāng)時(shí)數(shù)據(jù)集的全部?jī)?nèi)容。

這12組數(shù)據(jù)集包括：RT-1、QT-Opt、Bridge、Task Agnostic Robot Play、Jaco Play、Cable Routing、RoboTurk、NYU VINN、Austin VIOLA、Berkeley Autolab UR5、TOTO和Language Table。

其中，RT-1-X僅使用上述機(jī)器人數(shù)據(jù)（9類機(jī)械臂的12組數(shù)據(jù)集）進(jìn)行訓(xùn)練；RT-2-X采用與原 RT-2類似的聯(lián)合微調(diào)策略，以約 1:1 比例混合經(jīng)任務(wù)篩選的VLM數(shù)據(jù)與機(jī)器人數(shù)據(jù)。

2）RT-X模型架構(gòu)

RT-1-X 和 RT-2-X 均以圖像和文本指令作為輸入，并輸出離散化的末端執(zhí)行器動(dòng)作。RT-1-X 是一個(gè)專為機(jī)器人設(shè)計(jì)的架構(gòu)，包含一個(gè) FiLM 條件化的 EfficientNet和一個(gè) Transformer。RT-2-X 構(gòu)建在一個(gè)視覺(jué)語(yǔ)言模型（VLM）主干之上，其方法是將動(dòng)作表征為另一種語(yǔ)言，并將動(dòng)作文本標(biāo)記與視覺(jué)語(yǔ)言數(shù)據(jù)一起進(jìn)行訓(xùn)練。

RT-X模型訓(xùn)練過(guò)程

2024年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2024年3月，谷歌推出具身智能模型RT-H

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer —— 將語(yǔ)言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測(cè)層，從而通過(guò)語(yǔ)言化動(dòng)作構(gòu)建動(dòng)作分層結(jié)構(gòu)。

在上圖中，當(dāng)給定“蓋上開(kāi)心果罐” 這類語(yǔ)言描述的任務(wù)以及場(chǎng)景圖像后，RT-H 會(huì)利用視覺(jué)語(yǔ)言模型（VLM）預(yù)測(cè) “向前移動(dòng)手臂”、“向右旋轉(zhuǎn)手臂” 等語(yǔ)言化動(dòng)作；然后，再根據(jù)這些語(yǔ)言化動(dòng)作，為機(jī)器人預(yù)測(cè)具體執(zhí)行動(dòng)作（Robot Action）。

這種動(dòng)作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語(yǔ)言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動(dòng)作的方式相比，這些語(yǔ)言化動(dòng)作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實(shí)現(xiàn)更好的數(shù)據(jù)共享。

此外，該分層結(jié)構(gòu)還允許人類選擇性地向機(jī)器人提供語(yǔ)言化動(dòng)作修正，以避免任務(wù)失敗，隨后利用這些新的語(yǔ)言化動(dòng)作預(yù)測(cè)更優(yōu)的動(dòng)作。當(dāng)人類完成干預(yù)后，RT-H 會(huì)像之前一樣繼續(xù)預(yù)測(cè)語(yǔ)言化動(dòng)作。

然而，當(dāng)任務(wù)在語(yǔ)義上變得更加多樣時(shí)（例如“拿起可樂(lè)罐” 和 “倒杯子里的東西”），任務(wù)間的數(shù)據(jù)共享就會(huì)變得更加困難，因此學(xué)習(xí)從高級(jí)任務(wù)到具體動(dòng)作指令的映射需要大量的演示數(shù)據(jù)。

為了彌合任務(wù)與動(dòng)作之間的這一鴻溝，DeepMind的解法是賦予機(jī)器人『動(dòng)作語(yǔ)義化』能力——使用原子級(jí)動(dòng)作短語(yǔ)（如“前移機(jī)械臂”或“閉合夾爪”）描述底層運(yùn)動(dòng)。將語(yǔ)言化動(dòng)作預(yù)測(cè)作為高層任務(wù)與底層執(zhí)行間的中間步驟，倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運(yùn)動(dòng)結(jié)構(gòu)。更重要的是，基于語(yǔ)言化動(dòng)作條件生成的策略，可在執(zhí)行過(guò)程中通過(guò)人類指定的語(yǔ)義指令實(shí)時(shí)修正。

1）RT-H：利用語(yǔ)言構(gòu)建動(dòng)作分層結(jié)構(gòu)

RT-H的推理流程包含兩個(gè)關(guān)鍵階段：

1）首先，RT-H 根據(jù)視覺(jué)觀察結(jié)果和高級(jí)任務(wù)描述，預(yù)測(cè)當(dāng)前的語(yǔ)言化動(dòng)作（語(yǔ)言化動(dòng)作指令請(qǐng)求），使模型能在細(xì)粒度層面推理任務(wù)執(zhí)行方式；

2）然后，RT-H聯(lián)合視覺(jué)觀察、任務(wù)描述及推斷出的語(yǔ)言化動(dòng)作預(yù)測(cè)當(dāng)前的具體執(zhí)行動(dòng)作（機(jī)器人動(dòng)作指令請(qǐng)求），其中語(yǔ)言化動(dòng)作為精確動(dòng)作預(yù)測(cè)提供了關(guān)鍵上下文補(bǔ)充。

RT-H是以視覺(jué)語(yǔ)言模型（VLM）作為主干網(wǎng)絡(luò)，并遵循 RT-2的訓(xùn)練流程來(lái)實(shí)現(xiàn)。與RT-2 類似，通過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練，模型可調(diào)用自然語(yǔ)言處理與圖像理解領(lǐng)域的海量先驗(yàn)知識(shí)。

為了將這些先驗(yàn)知識(shí)融入動(dòng)作層級(jí)結(jié)構(gòu)的各個(gè)層級(jí)，RT-H 使用單一的視覺(jué)語(yǔ)言模型（VLM）同時(shí)學(xué)習(xí)語(yǔ)言動(dòng)作指令請(qǐng)求（Language Motion Query）和機(jī)器人動(dòng)作指令請(qǐng)求(Action Query)。

RT-H的推理流程

圖左側(cè)：

RT-H利用語(yǔ)言構(gòu)建分層策略學(xué)習(xí)架構(gòu)：將動(dòng)作預(yù)測(cè)拆分為語(yǔ)言化動(dòng)作指令請(qǐng)求（π）與機(jī)器人動(dòng)作指令請(qǐng)求（π）。其中：

π：基于圖像令牌（ Image Tokens）和任務(wù)描述令牌（Task Tokens）預(yù)測(cè)細(xì)粒度語(yǔ)言化動(dòng)作（如“向前移動(dòng)手臂”）；

π：結(jié)合場(chǎng)景視覺(jué)上下文，將該語(yǔ)言化動(dòng)作解碼為具體的機(jī)器人動(dòng)作指令。

圖右側(cè)：

用戶可直接對(duì)機(jī)器人動(dòng)作指令請(qǐng)求進(jìn)行干預(yù)，為機(jī)器人行為提供語(yǔ)言化動(dòng)作修正，例如此處將“向前移動(dòng)手臂” 改為 “向左移動(dòng)手臂”。為了從修正中學(xué)習(xí)，只需用新標(biāo)注的語(yǔ)言化動(dòng)作修正更新語(yǔ)言動(dòng)作指令請(qǐng)求。隨后，將更新后的模型重新部署到動(dòng)作層級(jí)結(jié)構(gòu)中。

RT-H通過(guò)端到端的方式學(xué)習(xí)預(yù)測(cè)語(yǔ)言化動(dòng)作指令和機(jī)器人動(dòng)作指令，不僅能夠在語(yǔ)言化動(dòng)作空間中進(jìn)行修正，還能從這些修正中高效學(xué)習(xí)。

當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時(shí)，語(yǔ)言化動(dòng)作能再次發(fā)揮作用：它們?yōu)樵诰€人類修正提供了一個(gè)直觀的交互界面，且這種修正與特定場(chǎng)景相關(guān)聯(lián)。通過(guò)語(yǔ)言化動(dòng)作訓(xùn)練的策略，能夠自然地遵循人類的低級(jí)修正指令，并借助修正數(shù)據(jù)成功完成任務(wù)。此外，該策略甚至可以在語(yǔ)言修正數(shù)據(jù)上進(jìn)行訓(xùn)練，從而進(jìn)一步提升自身性能。

a. RT-H模型訓(xùn)練

RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺(jué)語(yǔ)言模型（VLM），學(xué)習(xí)高層任務(wù)策略π與底層機(jī)器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實(shí)例化視覺(jué)語(yǔ)言模型（VLM）。該模型通過(guò)ViT編碼器將圖像處理為圖像令牌（Image Tokens），再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語(yǔ)言指令令牌，輸出離散動(dòng)作令牌（Action Tokens）。

這些動(dòng)作令牌的生成方式沿襲RT-2的離散化機(jī)制：將每個(gè)動(dòng)作維度離散化為256個(gè)區(qū)間（bins），并將區(qū)間編碼為整數(shù)值。每個(gè)動(dòng)作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開(kāi)合動(dòng)作指令以及任務(wù)終止標(biāo)志。

隨后，RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，并從預(yù)訓(xùn)練檢查點(diǎn)開(kāi)始。在該聯(lián)合訓(xùn)練過(guò)程中，視覺(jué) Transformer（ViT）編碼器被凍結(jié)。RT-H 以相同的采樣率，用語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求替代了 RT-2 中的機(jī)器人動(dòng)作指令請(qǐng)求。使用單一模型簡(jiǎn)化了訓(xùn)練過(guò)程，并使語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊(yùn)含的廣泛先驗(yàn)知識(shí)中獲益。

b. 語(yǔ)言化動(dòng)作的提取

為了低成本地提取每個(gè)片段中的每個(gè)時(shí)間步的可靠語(yǔ)言化動(dòng)作，DeepMind開(kāi)發(fā)了一種依賴機(jī)器人本體感知信息的自動(dòng)標(biāo)注方案。

首先，將機(jī)器人末端執(zhí)行器位姿變化的每個(gè)維度與空間維度相關(guān)聯(lián)（例如，位置變化的z軸對(duì)應(yīng)上下方向）。針對(duì)所有 9 個(gè)動(dòng)作維度（3 個(gè)位置增量維度、3 個(gè)姿態(tài)增量維度、2 個(gè)基座移動(dòng)維度、1 個(gè)夾爪維度）執(zhí)行此操作后，就能確定機(jī)器人當(dāng)前的主要空間運(yùn)動(dòng)列表，例如 “手臂向上并向右移動(dòng)”“閉合夾爪”“手臂逆時(shí)針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動(dòng)”。之后，可以過(guò)濾掉低于選定 “小動(dòng)作” 閾值的維度，再按照動(dòng)作幅度的順序組合得到的動(dòng)作。

例如，如果機(jī)器人主要是向前移動(dòng)手臂，同時(shí)開(kāi)始閉合夾爪，研究人員會(huì)提取出“向前移動(dòng)手臂并閉合夾爪” 這一語(yǔ)言化動(dòng)作。通過(guò)這種方式，語(yǔ)言的組合性使得從一組簡(jiǎn)單的已知?jiǎng)幼髦心軌蛱崛〕龀^(guò) 2500 種語(yǔ)言化動(dòng)作。

此外，由于這些語(yǔ)言化動(dòng)作直接源于動(dòng)作本身，因此在RT-H 中運(yùn)行動(dòng)作指令請(qǐng)求時(shí)，它們對(duì)動(dòng)作本身具有很強(qiáng)的預(yù)測(cè)能力。

然而，語(yǔ)言化動(dòng)作在抽象層級(jí)的選擇上存在基本權(quán)衡的問(wèn)題：語(yǔ)言化動(dòng)作的顆粒度越細(xì)，語(yǔ)言化動(dòng)作指令請(qǐng)求的預(yù)測(cè)難度越高，但對(duì)機(jī)器人動(dòng)作指令請(qǐng)求的指導(dǎo)性越強(qiáng)；反之亦然。

2）RT-H：推理與修正

在測(cè)試階段，RT-H首先運(yùn)行語(yǔ)言化動(dòng)作指令請(qǐng)求（π）以推導(dǎo)語(yǔ)言化動(dòng)作序列，隨后將該序列輸入機(jī)器人動(dòng)作指令請(qǐng)求（π）生成具體的執(zhí)行動(dòng)作參數(shù)。

然而，由于兩個(gè)指令請(qǐng)求需在每一步時(shí)序中串行執(zhí)行，該過(guò)程使推理耗時(shí)翻倍。雖對(duì)小規(guī)模模型影響甚微，但對(duì)于RT-H中使用的55B參數(shù)的大型模型而言，必將引發(fā)不可避免的請(qǐng)求處理延遲問(wèn)題。

為應(yīng)對(duì)這一挑戰(zhàn)，谷歌DeepMind提出兩種語(yǔ)言化動(dòng)作推理模式：

a. 異步查詢：僅訓(xùn)練RT-H中的語(yǔ)言化動(dòng)作指令請(qǐng)求（π）預(yù)測(cè)未來(lái)一步動(dòng)作。測(cè)試時(shí)，利用上一時(shí)間步推導(dǎo)的語(yǔ)言化動(dòng)作執(zhí)行當(dāng)前機(jī)器人動(dòng)作指令請(qǐng)求，同時(shí)并行預(yù)測(cè)下一時(shí)間步的語(yǔ)言化動(dòng)作。此方案通過(guò)批處理查詢實(shí)現(xiàn)與RT-2近乎同等的請(qǐng)求延遲。

b. 固定頻率：每H步執(zhí)行一次語(yǔ)言化動(dòng)作指令請(qǐng)求，分?jǐn)傃舆t壓力。

在實(shí)驗(yàn)中，DeepMind選擇異步查詢方案，因語(yǔ)言化動(dòng)作常需在精確時(shí)間步變更，無(wú)法適配固定頻率帶來(lái)的約束。

2025年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2025年3月：谷歌發(fā)布具身智能大模型Gemini Robotics

2025年3月12日，谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型：Gemini Robotics（VLA）和Gemini Robotics-ER（VLM）。

1） Gemini Robotics-ER

Gemini Robotics - ER（VLM模型）,其中ER 代表 “embodied reasoning”（具身推理），將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界，具備增強(qiáng)的空間和時(shí)間理解能力，包括物體檢測(cè)、指向、軌跡預(yù)測(cè)和抓取預(yù)測(cè)等2D空間概念理解能力，以及多視角3D場(chǎng)景理解和3D邊界框檢測(cè)等3D空間推理能力。

多視角3D場(chǎng)景理解：通過(guò)關(guān)聯(lián)不同視角的2D點(diǎn)來(lái)理解3D場(chǎng)景

a. 支持零樣本和少樣本機(jī)器人控制

在實(shí)驗(yàn)中，研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型，分別采用兩種不同的機(jī)器人控制方法進(jìn)行實(shí)驗(yàn)。

零樣本（zero-shot）機(jī)器人控制——通過(guò)代碼生成控制機(jī)器人。

少樣本（few-shot）控制——通過(guò)上下文學(xué)習(xí)（in-context learning, ICL），基于少量示例適應(yīng)新行為。

兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對(duì)比

備注：這些任務(wù)涵蓋了不同難度和物體類型，從簡(jiǎn)單的抓取任務(wù)（如抬起香蕉）到長(zhǎng)時(shí)序、多步驟、多任務(wù)的操作（如將玩具放入盒子并關(guān)閉盒子）。

試驗(yàn)結(jié)果表明，Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)（in-context learning），僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)（如折疊衣物）的執(zhí)行能力，并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。

在零樣本機(jī)器人控制方面，Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。

在少樣本機(jī)器人控制方面，Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而，Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。

另外，實(shí)驗(yàn)還表明，模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制，包括：作為感知模塊（如物體檢測(cè)），規(guī)劃模塊（如軌跡生成）以及通過(guò)生成和執(zhí)行代碼來(lái)協(xié)調(diào)機(jī)器人運(yùn)動(dòng)。

不過(guò)，Gemini Robotics-ER作為VLM模型，也存在局限性，尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因?yàn)樾枰~外的中間步驟來(lái)將模型的具身推理能力與機(jī)器人執(zhí)行動(dòng)作關(guān)聯(lián)起來(lái)。

2）Gemini Robotics

Gemini Robotics是一種端到端的VLA（視覺(jué)-語(yǔ)言-行動(dòng)）模型，將強(qiáng)大的具身推理先驗(yàn)與現(xiàn)實(shí)世界機(jī)器人的靈巧低級(jí)控制相結(jié)合，能夠在不同環(huán)境下解決靈巧任務(wù)，并支持不同的機(jī)器人形態(tài)。

Gemini Robotics是Gemini Robotics-ER的一個(gè)衍生版本，采用了雙組件架構(gòu)：

Gemini Robotics 主干網(wǎng)絡(luò)：托管在云端，負(fù)責(zé)視覺(jué)-語(yǔ)言推理。

Gemini Robotics 解碼器：運(yùn)行在機(jī)器人控制器上，負(fù)責(zé)動(dòng)作執(zhí)行。

Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個(gè)蒸餾版本（distilled version）組成，其查詢-響應(yīng)延遲已優(yōu)化至小于160ms（相比原始模型減少了數(shù)秒）。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲，Gemini Robotics解碼器在本地執(zhí)行低級(jí)控制。

Gemini Robotics模型架構(gòu)概覽

3）Gemini Robotics 的優(yōu)勢(shì)

Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于：

強(qiáng)大的視覺(jué)語(yǔ)言模型，具備增強(qiáng)的具身推理能力；

針對(duì)機(jī)器人任務(wù)，采用大規(guī)模機(jī)器人動(dòng)作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案；

專為低延遲機(jī)器人控制設(shè)計(jì)的獨(dú)特架構(gòu)。

Gemini Robotics模型的關(guān)鍵優(yōu)勢(shì)在于：成功繼承Gemini Robotics-ER的具身推理特性，能高效遵循開(kāi)放詞匯指令，并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過(guò)微調(diào)實(shí)現(xiàn)專項(xiàng)適應(yīng)，該模型在新任務(wù)/新實(shí)體形態(tài)中達(dá)成較高操作精度，并在挑戰(zhàn)性場(chǎng)景中保持泛化能力。

2. 2025年6月：谷歌發(fā)布設(shè)備端具身智能模型Gemini Robotics On-Device

2025年6月，谷歌DeepMind正式發(fā)布機(jī)器人模型Gemini Robotics On-Device。它是視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型 Gemini Robotics 的輕量化版本。該模型重點(diǎn)解決在設(shè)備端部署的問(wèn)題。

據(jù)悉，Gemini Robotics On-Device是首個(gè)支持本地微調(diào)的具身智能VLA模型。模型經(jīng)過(guò)計(jì)算資源壓縮，可在 Franka FR3 機(jī)械臂、Apollo 人形機(jī)器人等邊緣設(shè)備上實(shí)現(xiàn)低延遲推理（<100ms），并支持全鏈路離線運(yùn)行。

在任務(wù)泛化能力方面，在Visual Gen（視覺(jué)泛化）、Semantic Gen（語(yǔ)義泛化）、Action Gen（動(dòng)作泛化）三項(xiàng)核心測(cè)試中，該模型得分均接近旗艦版模型Gemini Robotics，且超越此前最佳設(shè)備端模型，尤其在處理未見(jiàn)過(guò)的物體（如異形拉鏈袋）和復(fù)雜多步驟指令（如 “拉開(kāi)袋子→取出物品→折疊衣物”）時(shí)表現(xiàn)突出。

模型的任務(wù)泛化能力比較

同時(shí)，谷歌還推出Gemini Robotics SDK，提供MuJoCo 物理模擬器集成、示范數(shù)據(jù)標(biāo)注工具及模型微調(diào)接口，幫助開(kāi)發(fā)者評(píng)估Gemini Robotics 在設(shè)備上的性能。開(kāi)發(fā)者可通過(guò) 50-100 次真實(shí)操作演示完成模型適配。這一數(shù)據(jù)量顯著低于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法（通常需數(shù)千次迭代），體現(xiàn)了該模型的高效遷移學(xué)習(xí)能力。

Gemini Robotics On-Device的推出，是對(duì)機(jī)器人開(kāi)發(fā)范式的革新。

Gemini Robotics On-Device 實(shí)現(xiàn)了端到端本地化運(yùn)行，解決網(wǎng)絡(luò)中斷場(chǎng)景的可靠性問(wèn)題，對(duì)工業(yè)巡檢、應(yīng)急救援等關(guān)鍵領(lǐng)域具有戰(zhàn)略意義。

該模型通過(guò)高效的微調(diào)能力，顯著降低跨平臺(tái)適配成本，可擴(kuò)展至Apollo人形機(jī)器人與Franka FR3機(jī)械臂等不同形態(tài)。

結(jié)語(yǔ)

具身智能的核心是讓AI 從 “數(shù)字世界” 走向 “物理世界”，而物理推理能力是其關(guān)鍵瓶頸 —— 即模型能否讓機(jī)器人像人類一樣理解物體的物理屬性（重量、硬度、彈性）、空間關(guān)系（距離、遮擋、方位）、因果邏輯（推、拉、碰撞的后果）等。

“物理推理能力” 的核心主體是具身智能大模型，機(jī)器人是這一能力的 “物理執(zhí)行者”。谷歌在具身智能基礎(chǔ)模型領(lǐng)域布局的本質(zhì)是通過(guò)大模型突破物理推理的技術(shù)壁壘，再借助跨平臺(tái)動(dòng)作泛化框架與端云協(xié)同部署，實(shí)現(xiàn)機(jī)器人在現(xiàn)實(shí)應(yīng)用場(chǎng)景中的可靠落地。

當(dāng)前，谷歌在正以「通用智能模型賦能者 + 跨場(chǎng)景生態(tài)協(xié)同者」的定位重塑行業(yè)技術(shù)范式。其通過(guò) RT 系列與 Gemini Robotics 大模型構(gòu)建核心智能引擎，結(jié)合 Open X-Embodiment 開(kāi)源數(shù)據(jù)集與 Gemini Robotics SDK 開(kāi)發(fā)工具，形成從模型研發(fā)到應(yīng)用落地的全鏈條支撐體系，通過(guò)技術(shù)迭代與生態(tài)聯(lián)動(dòng)構(gòu)建具身智能護(hù)城河。

未來(lái)，隨著具身智能基礎(chǔ)模型物理推理能力的持續(xù)提升，谷歌有望成為具身智能時(shí)代“物理世界語(yǔ)言” 的標(biāo)準(zhǔn)制定者。

原文標(biāo)題 : 2022~2025：2萬(wàn)字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局