訂閱
糾錯
加入自媒體

2022~2025:2萬字講清谷歌在具身智能基礎模型領域的關鍵布局

谷歌在具身智能領域的布局以具身智能大模型為技術基座,通過端云協(xié)同推理、開源工具鏈下沉、跨形態(tài)硬件泛化適配及漸進式場景驗證,構建從感知到執(zhí)行的協(xié)同框架,探索具身智能機器人從單一任務工具向通用具身智能體的演進路徑。

谷歌具身智能基礎模型領域關鍵布局(機器覺醒時代制表)

2022年:谷歌具身智能基礎模型關鍵布局

1. 2022年4月,谷歌推出具身智能模型 SayCan

盡管大型語言模型(LLMs)能從海量文本中習得豐富知識,但它們缺乏對物理世界的具象認知,也無法觀測自身生成內容對物理過程的實際影響,難以支持在特定具身化實體中進行決策。

這使得其在將高級指令拆解為機器人可執(zhí)行的低級指令時,不僅可能產生人類眼中荒謬甚至滑稽的錯誤,更可能在特定物理場景中生成邏輯混亂或存在安全風險的指令解析。

如下圖所示:當具備"抓取海綿"、"移動到餐桌"等技能的廚房機器人收到"飲料灑了,能否幫忙清理?"的請求時,語言模型可能給出看似合理卻無法執(zhí)行的方案——例如建議"使用吸塵器清理",但該方案在場景中無吸塵器,或具身智能體不具備操作吸塵器的能力時,會完全失效,因為具身智能體的本體能力范圍通常是固定且有限的。

SayCan模型通過預訓練技能的價值函數實現(xiàn)語言模型現(xiàn)實落地

1)具身智能模型—— SayCan

通過提示詞工程,大型語言模型或許能夠將高級指令分解為子任務,但如果脫離機器人自身能力以及機器人與環(huán)境當前狀態(tài)的語境,它就無法完成這種任務的分解。

因此,需要明確將高級指令分解為一系列可用的低級技能。其中,一種方法是精心設計提示詞,這是一種引導語言模型產生特定響應結構的技術。提示詞工程會在模型的上下文文本(即“提示詞”)中提供示例,明確指定任務以及模型需要模仿的響應結構。

然而,這并不足以將輸出完全限制在具身智能體可執(zhí)行的基本技能范圍內,實際上,它有時會生成不可執(zhí)行的動作,或生成的語言格式難以解析為獨立步驟。

基于此,2022年4月,谷歌提出SayCan模型,旨在從大型語言模型(LLMs)中提取知識并將其應用到實際物理任務的落地執(zhí)行中。其中,大型語言模型(Say)提供任務層面的落地能力,用于確定有助于實現(xiàn)高級目標的有效動作;而習得的可供性函數(Can)提供世界層面的落地能力,用于判斷計劃中哪些動作(或計劃)是可執(zhí)行的。

具體來說,采用強化學習來為各個技能學習價值函數,該函數通過可供性表征物理世界的可行操作空間;隨后,再將這些技能的文本標簽作為潛在響應,由語言模型對其進行評分。

因此,技能和語言模型相結合進而形成了一種共生關系:技能及其價值函數可充當語言模型的“手和眼”,而語言模型則提供關于如何完成任務的高層級語義知識。

通過預訓練技能實現(xiàn)現(xiàn)實世界具身化 —— 這些技能將約束模型僅生成既可行又符合場景的文本動作指令,從而讓機器人等具身智能體能夠遵循高級文本指令 —— 大語言模型負責提供執(zhí)行復雜時序擴展指令的流程知識,而技能關聯(lián)的價值函數則構建起連接知識與物理環(huán)境的關鍵具身化橋梁。

除了讓大型語言模型單純解讀指令外,還可以借助它對“單個技能在推進高級指令完成過程中所起作用的可能性” 進行評分 —— 若每個技能都有一個可供性函數(如習得的價值函數),用于量化其從當前狀態(tài)成功執(zhí)行的可能性,那么該函數的數值便可用于對技能的可能性進行加權。

通過這種方式,大型語言模型會給出“每個技能對完成指令的貢獻概率”,而可供性函數會給出 “每個技能成功執(zhí)行的概率”—— 將兩者結合,就能得到 “每個技能成功完成指令的概率”。

另外,SayCan 還具有可解釋性特點:模型不僅輸出生成式響應,還會給出多種可能響應的概率分布。下圖展示了其核心機制:任務集(定義機器人低級策略可執(zhí)行的技能)與提示詞工程(提供計劃示例及人機對話格式約束)共同作用,將大型語言模型(LLM)的輸出約束為可執(zhí)行的技能序列。

SayCan模型執(zhí)行過程示意圖

2)在機器人系統(tǒng)中執(zhí)行SayCan

a. 語言條件型機器人控制策略

為實例化SayCan框架,需提供一組技能組件,每個組件包含策略模塊、價值函數及簡短語言描述(例如"拾取易拉罐")。

在谷歌的實施方案中,各獨立技能的訓練采用兩種方法:遵循BC-Z方法的圖像行為克隆,或采用MT-Opt的強化學習。

無論技能策略如何獲取,均使用基于時序差分備份(TD backups)訓練的價值函數作為該技能的功能可供性模型。雖然當前數據收集階段顯示行為克隆策略成功率更高,但強化學習策略提供的價值函數作為關鍵抽象層,能將控制能力轉化為場景語義理解。

為降低多技能訓練成本,谷歌分別采用多任務行為克隆與多任務強化學習方案:通過以語言描述為輸入條件的多任務策略模型,替代為每個技能單獨訓練策略和價值函數的傳統(tǒng)模式。

為了讓策略以語言為條件,谷歌采用了一個預訓練的大型句子編碼器語言模型。在訓練過程中,凍結該語言模型的參數,并使用通過輸入每個技能的文本描述生成的嵌入向量。這些文本嵌入向量被用作策略和價值函數的輸入,用于指定應執(zhí)行的技能。

由于用于生成文本嵌入向量的語言模型與用于規(guī)劃的語言模型不一定相同,因此SayCan 能夠靈活運用不同的語言模型 —— 這些模型分別適用于不同的抽象層級,比如有的擅長理解涉及多個技能的規(guī)劃,有的則更適合細致地表達特定技能。

b. 訓練低級技能 

谷歌分別采用行為克。˙C)和強化學習(RL)的策略訓練流程,以獲得受語言條件約束的策略和價值函數。

行為克。˙C)策略:谷歌以BC-Z為基礎,采用了類似的策略網絡架構。該架構的訓練中,連續(xù)動作組件采用均方誤差(MSE)損失函數,離散動作組件采用交叉熵損失函數,且每個動作組件的權重相同。訓練過程中使用了標準的圖像增強手段(隨機調整亮度和對比度)以及隨機裁剪。

BC策略中的網絡架構

強化學習(RL)策略:谷歌在日常機器人模擬器中使用MT-Opt ,并結合 RetinaGAN 的模擬到現(xiàn)實遷移技術。通過利用模擬演示提供初始成功案例來提升模擬策略的性能,然后通過在線數據收集,持續(xù)改進強化學習效果。

RL策略中的網絡架構

備注:

1)采用稀疏獎勵函數:若語言指令在一個回合結束時被成功執(zhí)行,獎勵值為1.0;否則為0。語言指令的執(zhí)行成功與否由人工評定 —— 評定者會觀看機器人執(zhí)行技能的視頻以及給定的指令。如果三名評定者中有兩名認為技能已成功完成,則該回合被標記為正向獎勵。

2)策略動作空間包括:末端執(zhí)行器姿態(tài)的六個自由度、夾爪的開合指令、機器人移動基座的x-y 位置和偏航角增量,以及終止動作。

3) SayCan的局限性

盡管SayCan 方法為語言模型與智能體行動能力的結合提供了可行路徑,但它仍存在諸多局限性。

首先,該方法繼承了大型語言模型(LLMs)的固有局限,尤其體現(xiàn)在對訓練數據分布的強依賴上 —— 若訓練數據中缺乏特定場景、指令或技能的樣本,語言模型可能無法生成合理的技能規(guī)劃,甚至會輸出與實際需求脫節(jié)的決策建議。

其次,盡管SayCan 支持用戶通過自然語言指令與智能體交互,但其性能的核心瓶頸在于底層技能庫的覆蓋范圍與執(zhí)行精度:若技能庫未包含完成任務所需的關鍵動作(如特定場景下的抓取姿勢、精細操作步驟),即便語言模型規(guī)劃邏輯嚴密,智能體也無法將規(guī)劃轉化為有效行動。

此外,當前系統(tǒng)缺乏對技能執(zhí)行過程的實時反饋與動態(tài)調整機制:當個別技能在語言模型評估為“高價值” 的情況下實際執(zhí)行失效時(如預期抓取物體卻未成功),系統(tǒng)難以快速修正執(zhí)行路徑。盡管通過優(yōu)化語言模型的提示策略可能在一定程度上緩解這一問題,但復雜場景下的魯棒性仍待提升。

同時,SayCan在復雜任務的長時序規(guī)劃上存在短板。對于需要多步驟協(xié)同的任務(如 “整理桌面并將文件放入抽屜”),語言模型可能難以將自然語言指令分解為連貫的技能序列,容易出現(xiàn)步驟遺漏或邏輯沖突(如先關閉抽屜再試圖放入文件),導致任務執(zhí)行中斷。

另外,系統(tǒng)對環(huán)境動態(tài)變化的適應性較弱。若任務執(zhí)行過程中環(huán)境發(fā)生未預期的改變(如物體位置移動、突發(fā)障礙物出現(xiàn)),預先規(guī)劃的技能序列可能不再適用,而語言模型難以基于實時環(huán)境反饋快速更新規(guī)劃,導致智能體陷入“規(guī)劃 - 執(zhí)行” 脫節(jié)的困境。

最后,安全性校驗機制的缺失也是重要局限。語言模型可能推薦存在潛在風險的技能(如抓取易碎品時采用不當力度),但系統(tǒng)缺乏對技能安全性的前置評估,可能引發(fā)物體損壞或環(huán)境干擾等問題。

2. 2022年5月:谷歌發(fā)布通用具身智能體Gato

2022年5月,DeepMind發(fā)布通用具身智能體 Gato。它是一個集多模態(tài)、多任務、多具身特性于一體的通用智能體,其核心架構采用了包含 11.8 億參數的Transformer序列模型。

核心設計:

繼承LLM的Transformer序列建模范式,通過將跨模態(tài)數據序列化(圖像分塊、動作離散化)擴展至物理交互領域;基于廣泛的多模態(tài)數據訓練(涵蓋圖像、文本、本體狀態(tài)感知、關節(jié)扭矩、按鈕操作等),賦予模型對離散/連續(xù)觀測與動作的泛化處理能力。

通過使用一組具有相同權重的單一神經網絡,可處理不同具身形態(tài)(如機械臂、仿生機器人)的多源傳感數據,實現(xiàn)跨場景感知與動作生成。

圖片

通用智能體Gato可適配不同具身形態(tài)

1)基礎模型訓練數據

a. 控制任務數據(占比 85.3%):包含游戲交互(如Atari游戲按鍵序列)、機器人操作(真實機械臂關節(jié)力矩、本體狀態(tài)感知數據)以及導航與規(guī)劃任務(如Meta-World中的機械臂操控、BabyAI中的3D導航)。這些數據主要來自模擬環(huán)境(如MuJoCo、DM Control Suite)和真實機器人平臺(如Sawyer機械臂)的軌跡記錄,總計覆蓋596項任務,占訓練數據總量的85.3%。

b. 視覺與語言數據(占比 14.7%):整合了純文本語料(對話、網頁文本)、圖像數據(如ImageNet)及圖文配對信息(圖像描述任務)。此類數據用于支持圖像字幕生成、文本對話等能力,但其占比顯著低于控制任務。

圖片

Gato模型訓練所使用數據集

2)模型的訓練與部署

a. 訓練階段

來自不同任務和模態(tài)的數據被序列化為一個扁平的 Token 序列,分批處理后由 Transformer 神經網絡處理。通過掩碼機制,損失函數僅應用于目標輸出(即文本和各種動作)。

圖片Gato訓練階段示意圖

b. 部署階段

采樣的 Tokens 會根據上下文組合成對話回復、圖像字幕、按鈕操作或其他動作。Gato 使用自回歸生成控制策略,預測 t+1 的編碼并反解碼為動作,與環(huán)境交互。

圖片

將Gato部署為策略的過程示意圖

3)Gato —— 邁向AGI的關鍵一步

Gato 首次提出 “通才智能體(Generalist Agent)”概念,將 AI研究從“任務特定優(yōu)化”轉向“跨多任務統(tǒng)一建模”。

a. 方法論革新:擴展LLM的“預訓練+微調”范式至物理交互場景,通過數據序列化(圖像分塊、動作離散化等)實現(xiàn)多模態(tài)統(tǒng)一處理,首次驗證Transformer在低維連續(xù)控制任務(如機械臂操作)中的潛力,但未突破其短期記憶瓶頸。例如,Gato在物理任務中依賴專家演示數據,且未解決長期記憶問題(上下文窗口僅1024 tokens)。

b. AGI路徑探索:通過參數縮放實驗(79M→364M→1.18B)驗證模型規(guī)模、數據多樣性與多任務泛化能力的正相關性,為通用模型研發(fā)提供實證依據;但后續(xù)研究表明,單純擴大規(guī)模難以提升專業(yè)化能力,需結合“通專融合”架構解決任務可持續(xù)性問題。

Gato驗證并實現(xiàn)了跨模態(tài)統(tǒng)一建模,將計算機視覺(CV)、自然語言處理(NLP)和機器人控制等不同模態(tài)數據(如圖像、文本、傳感器信號、關節(jié)力矩)通過統(tǒng)一的Transformer 序列模型進行處理。

數據序列化:所有模態(tài)數據被轉化為Token序列(如文本通過SentencePiece編碼,圖像分割為 16x16 圖塊,連續(xù)狀態(tài)和動作通過標量離散化),形成統(tǒng)一輸入空間;

模型參數共享:同一套11.8 億參數的模型可同時處理視覺識別、語言對話、機器人操作等任務,避免了傳統(tǒng)方法為每個任務單獨設計模型的冗余;

動態(tài)決策:模型基于輸入序列的上下文自回歸地預測下一個Token,該Token可以自動對應到不同的輸出模態(tài)(如生成文本回復、游戲按鍵或機械臂控制指令),實現(xiàn)跨模態(tài)無縫交互。

總而言之,Gato在跨模態(tài)整合、任務通用性上的突破,被學界視為邁向通用人工智能的關鍵一步。

4)Gato的局限性

有業(yè)內相關專家指出,Gato模型的最大價值之一是將強化學習、計算機視覺與自然語言處理三大領域深度融合。盡管技術路徑上借鑒了既有框架,但能將圖像、文本與機器控制等不同模態(tài)數據映射至同一表征空間,并用同一套模型參數實現(xiàn)統(tǒng)一表達,已實屬難得。

但是,Gato總體上依然是數據驅動的方式,且并沒有在訓練分布外的任務上獲得較好效果。同時,訓練數據總體上偏向游戲和機器人控制任務,采用有監(jiān)督的離線訓練方式,依賴專家數據,未充分利用強化學習的核心機制——獎勵信號和在線交互。例如,其機器人控制任務的成功依賴預訓練的專家軌跡,而非通過實時獎勵優(yōu)化策略。

這一局限性在后續(xù)模型RoboCat中通過自我改進循環(huán)(Self-Improvement Loop)得到部分解決。

3. 2022年10月:谷歌發(fā)布機器人Transformer模型RT-1

2022 年 10 月,谷歌 DeepMind 發(fā)布 RT-1 模型,其訓練數據源自 13 臺機器人持續(xù) 17 個月采集的超 13 萬條任務片段。該研究開創(chuàng)性地將Transformer的應用向前推進 —— 將語言和視覺觀測到機器人動作的映射視為一個序列建模問題,并利用Transformer學習這一映射。

能否借助多樣化的機器人任務數據,訓練出統(tǒng)一且強大的多任務骨干模型,使其具備對新任務、操作環(huán)境及物體的零樣本泛化能力?這一目標面臨兩大核心挑戰(zhàn):數據集構建與模型設計。谷歌RT-1模型正是針對該命題的突破性探索。在RT-1模型的研究探索中,谷歌DeepMind 研究人員發(fā)現(xiàn):

數據模型要實現(xiàn)優(yōu)質泛化,必須構建兼具規(guī)模與廣度的數據集,覆蓋多樣化任務與場景。同時,數據集中的任務需具備強關聯(lián)性以支撐泛化,使模型能夠發(fā)現(xiàn)結構相似任務間的內在規(guī)律,并通過創(chuàng)新性組合完成新任務。

模型架構設計的挑戰(zhàn)在于—— 高效的多任務機器人學習需要的高容量模型。

1)RT-1模型工作原理

RT-1執(zhí)行閉環(huán)控制,并以3Hz的頻率持續(xù)輸出動作指令,直至觸發(fā)"終止"動作或達到預設時間步上限。

首先通過ImageNet預訓練的卷積網絡EfficientNet處理圖像,該網絡通過FiLM模塊與指令的預訓練嵌入向量進行條件調節(jié);隨后采用令牌學習器(tokenLearner)生成緊湊令牌集( set of tokens);最終由Transformer對這些令牌執(zhí)行注意力計算,輸出離散化動作令牌(action token)。

圖片

RT-1工作流程圖

RT-1架構包含以下核心內容:

圖片

RT-1架構圖

a. EfficientNet網絡

RT-1通過將6 幅圖像的歷史記錄輸入一個基于ImageNet 預訓練的 EfficientNet-B3模型來對其進行令牌化。

該模型接收分辨率為 300×300 的6幅圖像作為輸入,并從最終的卷積層輸出一個形狀為 9×9×512 的空間特征圖。

為了包含語言指令,研究人員使用預訓練的語言嵌入形式,讓圖像令牌化器以自然語言指令為條件,從而能夠在早期提取任務相關的圖像特征,并提升 RT-1 的性能。

EfficientNet是一種卷積神經網絡(CNN),是高效的 “圖像特征提取器”。它好比是提取畫面特征的“圖像翻譯官”,專門用來從圖像中提取特征,用于識別物體、分析場景等。

類似人類看照片時自動識別 “物體輪廓”,該卷積網絡提前在 ImageNet(大規(guī)模圖像數據集)上學過識別貓、車、杯子等物體,能從攝像頭畫面中快速提取所要識別物體的關鍵特征。

b. FiLM 模塊

指令首先通過通用句子編碼器(USE)進行嵌入。然后,將該嵌入用作輸入,輸入到恒等初始化的 FiLM層,這些 FiLM 層被添加到預訓練的 EfficientNet 中,以調節(jié)圖像編碼器。

FiLM 模塊好比是指令與圖像的 “融合濾鏡”。指令(比如 “把杯子拿到桌子上”)會先被轉換成機器能懂的 “數字密碼”(預訓練嵌入向量)。FiLM 模塊就像一個調節(jié)旋鈕,用這個 “密碼” 去調整圖像特征:如果指令是 “拿杯子”,F(xiàn)iLM 會讓卷積網絡提取的特征更關注 “杯子的位置和把手”,忽略背景中的沙發(fā)。

c. TokenLearner(令牌學習器)

加入 TokenLearner后,將從預訓練的 FiLM-EfficientNet層輸出的 81個視覺令牌二次采樣到僅剩8個最終令牌,然后這些令牌被傳遞到Transformer 層。

TokenLearner可類比成是特征的 “智能摘要工具”。卷積網絡處理后的圖像特征可能包含數萬維數據(比如一張圖拆成 1000 個小區(qū)域的特征),直接處理像 “讀一本厚書”,效率很低。令牌學習器會自動挑選最重要的特征,把海量數據 “壓縮” 成幾十個關鍵 “令牌”(Token),類似從書中提取 “杯子、桌子、位置” 等關鍵詞,扔掉無關細節(jié)(比如杯子上的花紋)。這樣一來,數據量大幅減少,后續(xù)模型處理速度就像 “從讀整本書變成看目錄”,效率飆升。

d. Transformer

每幅圖像產生的這8個令牌隨后會與歷史記錄中的其他圖像令牌拼接,形成總共 48 個令牌(并添加了位置編碼),輸入到 RT-1 的 Transformer 骨干網絡中。該Transformer 是一個19M參數的,且僅包含解碼器的序列模型,具有8個自注意力層,其輸出是動作令牌。

Transformer可以看成是基于“關鍵詞”的注意力決策者。Transformer 就像一個經驗豐富的 “規(guī)劃師”,它會分析壓縮后的令牌(圖像關鍵詞)和指令密碼,并最終輸出機器人的動作執(zhí)行指令。

e. 其它

動作令牌化(Action Tokenization)—— 為了對動作進行令牌化,RT-1中的每個動作維度都被離散化為256個bins。

動作維度包括:機械臂運動的七個變量(x, y, z, roll, pitch, yaw, 夾爪開合度)、底盤運動的三個變量(x, y, yaw)以及一個用于在三種模式(控制機械臂、控制底盤和終止任務片段)間切換的離散變量。

對于每個變量,研究人員將目標值映射到這256個bins中的一個,這些bins在每個變量的取值范圍內均勻分布。

損失函數 —— 研究人員使用了標準的分類交叉熵目標函數和因果掩碼。

推理速度—— 一個需要在真實機器人上實時運行的模型的獨特要求之一是快速且穩(wěn)定的推理速度。研究人員采用了兩種技術來加速推理:

通過使用TokenLearner,減少由預訓練 EfficientNet 模型生成的令牌數量;

僅計算這些令牌一次,并在后續(xù)存在重疊的推理窗口中復用它們。

這兩項技術將模型推理速度分別提升了2.4倍和1.7倍。

2) RT-1局限性

盡管RT-1 在多項關鍵指標上表現(xiàn)突出:以 97% 成功率執(zhí)行超 700 條指令,在新任務、物體與環(huán)境的泛化能力上超越已發(fā)布基線模型;能有效融合模擬環(huán)境與異構機器人形態(tài)的數據,且在不削弱原任務性能的前提下增強新場景適應性;還可在SayCan框架中完成長達50步的長時程任務 —— 但該模型仍存在一定局限性。

RT-1 的訓練數據雖覆蓋大規(guī)模操作任務,但主要針對靈巧度要求不高的操作場景;

RT-1是一種模仿學習方法,繼承了該類方法固有的挑戰(zhàn),例如,可能無法超越演示者的性能水平。

RT-1對新指令的泛化僅限于先前見過的概念組合,尚無法泛化到前所未見的全新動作。

2023年:谷歌具身智能基礎模型關鍵布局

1. 2023年3月:谷歌發(fā)布具身多模態(tài)視覺語言大模型PaLM-E

2023年3月,谷歌和柏林工業(yè)大學的團隊正式推出PaLM-E。該模型之所以命名為 PaLM-E,是因為它采用 PaLM作為預訓練語言模型,并使其具備了具身能力(Embodied)。

PaLM-E是一個單一的、大型的通用型多模態(tài)語言模型,能夠將視覺-語言領域的知識遷移到具身推理領域,適用于具身推理任務、視覺-語言任務和語言任務,包括序列化機器人操作規(guī)劃、視覺問答和圖像描述生成等。

該模型可直接整合來自具身智能體傳感器模態(tài)的連續(xù)輸入,從而使語言模型本身能夠做出更貼近現(xiàn)實的推理,以支持現(xiàn)實世界中的序列化決策。

圖像和狀態(tài)估計等輸入會被嵌入到與語言令牌(Language Tokens)相同的潛在嵌入空間中,并由基于 Transformer 的大型語言模型(LLM)的自注意力層以與處理文本相同的方式進行處理。

PaLM-E系統(tǒng)架構

1)PaLM-E模型整體架構

PaLM-E模型的架構由三部分構成:多模態(tài)編碼器、投影器和僅含解碼器的大型語言模型(LLM)。它能在給定前綴或提示的情況下,以自回歸方式生成文本補全內容。

其主要架構思路是將連續(xù)的具身觀察信息(如圖像、狀態(tài)估計或其他傳感器模態(tài))注入預訓練語言模型的語言嵌入空間。其具體實現(xiàn)方式: 將連續(xù)觀察信息編碼為一系列向量,這些向量的維度與語言標記的嵌入空間維度相同。因此,連續(xù)信息以類似于語言令牌的方式被注入語言模型中。

PaLM-E 的輸入: 包括文本和(多個)連續(xù)觀察數據。與這些觀察數據對應的多模態(tài)令牌與文本交錯排列,形成多模態(tài)句子。例如:What happened between and ?  where represents an embedding of an image. 其中,代表圖像的嵌入向量。

PaLM-E 的輸出: 是模型通過自回歸方式生成的文本,既可以是問題的答案,也可以是PaLM-E 以文本形式生成的、由機器人執(zhí)行的一系列決策。

為實現(xiàn)模型輸出與具身智能體的連接,該研究將其區(qū)分為兩種具體情況:

a. 如果任務僅通過輸出文本即可完成(例如,在具身問答或場景描述任務中),那么模型的輸出就直接被視為該任務的解決方案。

b. 如果是解決具身規(guī)劃或控制任務,它會生成文本以調控低級指令。

具體而言,假設有一些策略能夠執(zhí)行來自某個(小型)詞匯表的低級技能,而PaLM-E 生成的有效規(guī)劃必須由一系列此類技能構成。

但是,PaLM-E 必須根據訓練數據和提示信息自行判斷可用的技能,且沒有其他機制用于約束或過濾其輸出。盡管這些策略是受語言調控的,但它們無法解決長時程任務或處理復雜指令。

因此,PaLM-E 被整合到控制環(huán)路中,其預測的決策由機器人通過低級策略執(zhí)行,進而產生新的觀察結果 —— 基于這些結果,PaLM-E 可在必要時重新規(guī)劃。從這個意義上來說,PaLM-E可以被理解為一種高級策略,用于對低級策略進行排序和控制。

2) 不同傳感器模態(tài)的輸入與場景表征

針對不同傳感器模態(tài)(如狀態(tài)估計向量、二維圖像等),需采用專用編碼器進行處理。為此,谷歌提出差異化的編碼器架構選擇:通過映射函數將對應模態(tài)數據對齊至語言嵌入空間。具體研究涵蓋以下模態(tài)處理方案:

狀態(tài)估計向量:采用多層感知器(MLP)。狀態(tài)向量(例如來自機器人的向量或對象的狀態(tài)估計向量)包含這些對象的位姿、大小、顏色等信息。多層感知器(MLP)會將狀態(tài)向量映射到語言嵌入空間中。

二維圖像特征:采用視覺 Transformer(ViT)。ViT是一種Transformer架構,能將圖像映射為多個標記嵌入向量。研究人員考慮了多種變體,包括 40 億參數模型的ViT-4B),以及220 億參數模型 ViT-22B,這兩種模型均在圖像分類任務上進行過預訓練。

三維場景表征:采用對象場景表征Transformer(OSRT)。它不依賴于對象的外部知識,而是通過架構中的歸納偏置以無監(jiān)督方式發(fā)現(xiàn)對象; SRT,OSRT 通過新穎的視圖合成任務,在領域內數據上學習以三維為中心的神經場景表征。

3)PaLM-E模型訓練方法

PaLM-E 以預訓練的PaLM 模型(分別為80億、620億和5400億參數的僅含解碼器版本)為基礎,通過輸入編碼器向其中注入連續(xù)觀察數據。

PaLM-E-12B:80 億參數LLM與 40 億參數ViT相結合;

PaLM-E-84B:620億參數LLM與220億參數ViT相結合; 

PaLM-E-562B:5400億參數LLM與 220 億參數ViT相結合。

備注:PaLM-E-562B ——盡管它僅在單圖像樣本上進行過訓練,但卻具備多種能力,包括零樣本多模態(tài)思維鏈(CoT)推理、少樣本提示、無需光學字符識別(OCR)的數學推理以及多圖像推理。

a. 訓練方法1:更新所有組件的參數。然而,若能提供合適的提示,大型語言模型會展現(xiàn)出令人印象深刻的推理能力。

b. 訓練方法2:凍結大型語言模型,僅訓練輸入編碼器;在這種情況下,編碼器必須生成嵌入向量,使凍結的大型語言模型能基于觀察數據,并將具身實體的能力信息傳遞給大型語言模型。訓練此類編碼可理解為一種輸入條件化的軟提示,與常規(guī)軟提示相關。

c. 訓練方法3:跨任務協(xié)同訓練: 在多種不同數據上對模型進行協(xié)同訓練。其中,“完整混合數據集”主要包含大規(guī)模互聯(lián)網級別的視覺 - 語言數據,涵蓋多種任務。其采樣頻率設置為:完整混合數據集中僅有 8.9% 是具身數據,且每個具身場景下包含多個任務。

實驗結果顯示,相較于僅在不同任務上單獨訓練,在“完整混合數據集” 上進行協(xié)同訓練的模型,性能提升了一倍以上。

4)研究發(fā)現(xiàn)

a. 盡管當前最先進的通用視覺- 語言模型在零樣本情況下無法很好地解決具身推理問題,但通過訓練,在多模態(tài)大型語言模型的訓練中融入具身數據,可以訓練出一個具備通用性、遷移學習能力且適用于多具身形式的決策智能體 ——  一個既能勝任通用視覺 - 語言任務,又能高效進行具身推理的模型。

b. 相較于單任務訓練范式,多任務聯(lián)合訓練顯著提升模型綜合性能。其核心價值在于跨任務知識遷移能力——該機制大幅提高機器人任務的數據利用效率(例如僅需10%的示范數據即可達到同等成功率),并賦予模型對新物體組合的強泛化能力(單樣本泛化成功率提升37%)及開放世界物體的零樣本操作能力。

c. 在多模態(tài)模型聯(lián)合訓練過程中,研究揭示兩種保持PaLM-E語言能力的有效途徑:

參數凍結策略:鎖定大型語言模型(LLM)參數,僅訓練輸入編碼器——此方案顯著降低訓練成本,成為構建具身語言模型的高效方法。

規(guī);说蕉擞柧殻寒斶M行全模型端到端訓練時,模型參數量與語言能力保留度呈正相關(例如562B的PaLM-E模型保留540B的PaLM模型96%的語言性能),可有效抑制具身化過程中的災難性遺忘現(xiàn)象。

基于語言任務的實驗結果

備注:通用語言任務實驗結果表明——隨著模型規(guī)模擴大,PaLM-E模型相較于其基礎PaLM模型的災難性遺忘程度顯著降低。

2. 2023年6月:谷歌發(fā)布通用智能體RoboCat

2023年6月,谷歌DeepMind推出多具身形態(tài)、多任務通用智能體RoboCat——一種基于視覺目標條件的決策Transformer,可處理動作標注的視覺經驗數據,能夠通過自身生成的數據進行訓練迭代實現(xiàn)自我改進。

1)對Gato的繼承和創(chuàng)新RoboCat

直接沿用Gato的多模態(tài)Transformer架構作為基礎,將視覺、語言、動作數據統(tǒng)一處理為離散token序列。這一設計被認為是DeepMind在通用智能體Gato的技術路線上的延續(xù)。

另外,在Gato基礎上,RoboCat針對機器人任務強化了以下能力:

a. 動作輸出適配:RoboCat 針對機器人任務的動作頭擴展并非簡單的維度調整,而是通過動態(tài)動作空間映射實現(xiàn)的深度優(yōu)化。

多自由度兼容設計:動作頭支持混合動作表示,可同時處理離散動作(如按鍵)和連續(xù)動作(如關節(jié)力矩);引入動作頭參數共享機制,即不同機械臂的動作頭共享底層Transformer 參數,但通過任務特定的適配器(Adapter)實現(xiàn)自由度差異的動態(tài)適配。

硬件無關的控制接口:通過統(tǒng)一動作語義空間實現(xiàn)跨機械臂遷移。例如,抓取動作在不同機械臂中被抽象為"閉合夾具" 的語義指令,動作頭根據當前機械臂的自由度自動生成具體的關節(jié)角度序列。另外,引入動作空間正則化技術:在訓練階段,通過對抗訓練使動作頭輸出分布與機械臂物理約束對齊,避免生成超出關節(jié)極限的動作。

b. 目標條件策略:RoboCat 的目標圖像輸入通道并非簡單的輸入擴展,而是構建了端到端的視覺 - 動作閉環(huán)。

目標圖像的多模態(tài)融合:目標圖像通過預訓練的VQ-GAN 編碼器轉化為 token 序列,并與當前觀測圖像 token、動作 token、任務描述 token 共同輸入 Transformer;引入目標-觀測注意力機制:Transformer 在處理序列時,會動態(tài)計算目標圖像 token 與當前觀測 token 的相關性,優(yōu)先關注需要調整的區(qū)域。

閉環(huán)控制的實時性優(yōu)化:采用時序目標對齊技術,將目標圖像分解為時間序列token,并與當前動作序列token 進行時序對齊訓練;引入失敗補償機制 —— 當動作執(zhí)行未達到目標時,模型會自動生成補償動作。

2) 自我改進閉環(huán)學習機制

研究實驗表明,RoboCat既能零樣本泛化到新任務與新形態(tài)機器人,也可僅通過100-1000個目標任務樣本的微調,快速適配到不同的新任務,包括新機器人具身、未見過的行為、物體和感知變體(光照/視角等感知條件變化),以及從仿真模擬到真實的遷移。

此外,訓練后的模型自身可生成數據用于后續(xù)訓練迭代,從而構建自我改進閉環(huán)學習機制 —— 研究人員使用多樣化的訓練數據集來訓練該通用智能體的初始版本,該版本可通過100-1000 次演示數據微調至適配新任務,隨后部署到真實機器人上,為這些任務生成更多數據。生成的新數據將被添加到訓練數據集中,用于RoboCat的下一迭代版本訓練,這種機制在一定程度上突破了傳統(tǒng)機器人依賴真機數據的局限,使模型能持續(xù)進化變成可能。

如下圖所示,RoboCat通過自我改進閉環(huán)流程持續(xù)提升智能體能力——增強其跨任務遷移性、通過微調擴展適配任務范圍,并在現(xiàn)有任務中實現(xiàn)性能突破。

RoboCat自我改進閉環(huán)流程機制

3)基礎模型訓練數據

RoboCat 的訓練數據集聚焦于視覺目標條件下的機器人操作任務,且針對性覆蓋了多形態(tài)硬件和復雜場景,包含400 萬次機器人操作片段,涵蓋物體分揀、工具使用、導航等多樣化場景。

多具身形態(tài)適配:數據來自4 種不同類型的真實機器人(如 Sawyer、Panda 機械臂)及模擬環(huán)境,包含不同自由度、觀察空間和動作規(guī)范的操作序列。

任務多樣性覆蓋:訓練數據覆蓋253 項基礎任務及 141 項變體,涉及精密裝配(如齒輪插入、積木堆疊等)、基礎操作類(如抓取指定物體、分揀水果等)等場景。

4)RoboCat的局限性

在具身智能領域,機器人面臨的最大挑戰(zhàn)是如何像人類一樣快速適應新任務與環(huán)境。RoboCat首次在通用機器人領域實現(xiàn)了“學習-實踐-進化”的完整閉環(huán),為破解這一難題提供了全新路徑。

這一突破性技術通過在模擬與真實環(huán)境中融合跨機器人經驗,結合生成式人工智能的自我數據增強能力,顯著降低了新技能學習所需的人類演示數據量。然而,在動態(tài)環(huán)境適應性、跨本體泛化效率等方面仍存在明顯局限。

1)動態(tài)環(huán)境應對不足:物理建模深度的不夠

RoboCat在靜態(tài)桌面操作(如抓取固定物體、堆疊積木)中表現(xiàn)出色,但面對動態(tài)交互場景時性能急劇下降。例如在抓取滾動球體任務中,其成功率不足30%,遠低于工業(yè)場景要求的95%+的可靠性標準。這本質上是世界模型缺失的體現(xiàn)。與人類基于物理直覺預判行為后果不同,RoboCat僅建立“圖像-動作”的統(tǒng)計關聯(lián),缺乏對“力-運動-形變”因果鏈的內在表征。當環(huán)境變量超出訓練集分布時(如地面材質由木質變?yōu)榻饘伲,模型無法通過物理推理調整策略,導致跨場景泛化崩潰。

2)硬件適配的柔性瓶頸:本體特化與通用性的兩難

雖然RoboCat支持跨機械臂遷移,但其適配效率仍受限于本體動力學特性差異。當新硬件與訓練集機械臂存在顯著動力學差異時,微調成本劇增。這些問題暴露了跨本體適配的“表面泛化”特性:模型可適應外形相似、自由度相近的機械臂,但對動力學特性迥異的系統(tǒng),仍需近乎重訓級的深度調整。

3. 2023年7月:谷歌發(fā)布機器人VLA模型RT-2

2023年7月,谷歌DeepMind發(fā)布具身智能視覺-語言-動作模型(VLA)RT-2(Robotics Transformer 2)。其核心設計是使用互聯(lián)網規(guī)模的網絡數據和機器人動作軌跡數據對預訓練好的視覺-語言模型(VLM)進行聯(lián)合微調生成VLA模型。核心目標是將VLM模型的知識遷移到機器人控制中,實現(xiàn)端到端的語義推理與動作生成。

1)模型架構

RT-2以預訓練的視覺-語言模型為核心骨干,通過動作 Token 化將機器人控制任務統(tǒng)一到自然語言生成框架中,形成端到端單一模型架構。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構構建了對應的實例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

RT-2模型架構

2)聯(lián)合微調(Co-Fine-Tune)

將機器人動作數據(來自RT-1)與網絡數據混合,共同輸入模型進行聯(lián)合微調。其中,網絡數據內容包括視覺問答(VQA)、圖像描述、非結構化圖文交織樣本等。機器人動作數據為13臺機器人持續(xù)17個月采集的辦公環(huán)境中的廚房場景數據(與RT-1訓練所使用的數據相同)。

在具體實現(xiàn)方案中,谷歌DeepMind通過提高機器人動作數據集的采樣權重,以平衡每批次訓練數據中機器人動作數據與網絡數據的比例。

模型聯(lián)合微調的關鍵步驟在于建立模型現(xiàn)有詞匯表與離散動作空間之間的映射關系。為此,需要預先保留256 個標記(tokens)作為專用的動作標記。具體選擇哪些標記作為動作標記,取決于所使用的視覺語言模型(VLM)的分詞方案:

PaLI-X:由于其分詞方案為每個不超過 1000 的整數分配了唯一的標記,因此可直接將 action bins 映射到對應的整數標記上。

PaLM-E:該模型的分詞方案不包含數字的直接表示,因此需要覆蓋詞匯表中 256個使用頻率最低的標記,將它們重新定義為動作詞匯表。

DeepMind通過實驗證明 —— 提升機器人性能的關鍵訓練技巧在于:將機器人數據與原始網絡數據進行聯(lián)合微調,而非僅對機器人數據實施簡單微調。聯(lián)合微調能生成泛化能力更強的策略,因為在此過程中,策略同時接觸網絡規(guī)模數據的抽象視覺概念和微調過程中的低層級機器人動作,而非僅局限于機器人動作。

3)RT-2的局限性

本文闡述了如何通過結合視覺語言模型(VLM)預訓練與機器人數據來訓練視覺語言動作(VLA)模型。

谷歌DeepMind提出了基于PaLM-E和PaLI-X的兩種VLA實現(xiàn)方案,分別命名為RT-2-PaLM-E和RT-2-PaLI-X。這些模型通過機器人軌跡數據進行聯(lián)合微調,以輸出表示為文本標記的機器人動作。

研究表明,該方法不僅能生成高性能的機器人策略,更重要的是其泛化能力顯著提升,并繼承了大規(guī)模網絡視覺- 語言預訓練所賦予的涌現(xiàn)能力。

盡管RT-2展現(xiàn)出優(yōu)異的泛化性能,該方法仍存在多重局限。

1)局限一:可用的開源VLM模型少

目前僅有少量可用于創(chuàng)建RT-2 的通用視覺 - 語言模型(VLM),期待更多開源模型及開放專有模型的微調API——這是構建VLA模型的必要條件。

2)局限二:動作創(chuàng)新能力受限

VLM通過網絡規(guī)模預訓練可提升語義與視覺概念的泛化能力,但機器人并未因包含這些額外經驗而獲得執(zhí)行新動作的能力。

模型的物理技能仍局限于機器人數據中所見的技能分布,僅能創(chuàng)新性地組合已有技能。DeepMind認為這源于數據集的技能多樣性不足所致。未來研究的關鍵方向是探索通過新數據收集范式(如人類操作視頻)獲取新技能。

3)局限三:實時推理瓶頸

盡管實現(xiàn)了大型VLA模型的實時運行,但其計算成本仍高昂。若應用于需高頻控制的場景,實時推理將成為主要瓶頸。未來研究需探索量化和蒸餾技術,以提升模型速率或適配低成本硬件。

4. 2023年10月:谷歌發(fā)布機器人VLA模型RT-X 

2023年10月,谷歌DeepMind發(fā)布了通用具身智能模型RT-X(含RT-1-X和RT-2-X),并開源其訓練數據集Open X-Embodiment。

RT-X 模型并非指單一模型,而是一個項目/系列。在原有 RT-1 和 RT-2 的框架基礎上,使用大規(guī)?鐧C器人數據集 Open X-Embodiment 進行訓練(微調),從而得到了兩個系列的模型:RT-1-X 系列和 RT-2-X系列。

截至目前,Open X-Embodiment已整合 60個機器人數據集,覆蓋 311 種場景與 22 類不同類型的機器人平臺(含單臂/雙臂/四足機器人等),提供超100萬條真實機器人運動軌跡,涵蓋 527 項技能及 160,266 項任務。

Open X-Embodiment 開源數據集

1)RT-X模型訓練使用數據集

據了解,在當時訓練RT-1-X 和 RT-2-X 時,所使用的數據并非如今 Open X-Embodiment 數據集的全部內容。其數據僅涵蓋 22 個機械臂中的 9 個,以及 60 組子數據集中的 12 組,總計 1,131,788 條數據。由于該數據集處于持續(xù)增長狀態(tài),在開展 RT-X 相關實驗時,這 12 組數據便是當時數據集的全部內容。

這12組數據集包括:RT-1、QT-Opt、Bridge、Task Agnostic Robot Play、Jaco Play、Cable Routing、RoboTurk、NYU VINN、Austin VIOLA、Berkeley Autolab UR5、TOTO和Language Table。

其中,RT-1-X僅使用上述機器人數據(9類機械臂的12組數據集)進行訓練;RT-2-X采用與原 RT-2類似的聯(lián)合微調策略,以約 1:1 比例混合經任務篩選的VLM數據與機器人數據。

2)RT-X模型架構

RT-1-X 和 RT-2-X 均以圖像和文本指令作為輸入,并輸出離散化的末端執(zhí)行器動作。RT-1-X 是一個專為機器人設計的架構,包含一個 FiLM 條件化的 EfficientNet和一個 Transformer。RT-2-X 構建在一個視覺語言模型(VLM)主干之上,其方法是將動作表征為另一種語言,并將動作文本標記與視覺語言數據一起進行訓練。

RT-X模型訓練過程

2024年:谷歌具身智能基礎模型關鍵布局

1. 2024年3月,谷歌推出具身智能模型RT-H

2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一個帶動作分層結構的機器人Transformer —— 將語言化動作作為高級任務描述與低級動作之間的中間預測層,從而通過語言化動作構建動作分層結構。

圖片

在上圖中,當給定“蓋上開心果罐” 這類語言描述的任務以及場景圖像后,RT-H 會利用視覺語言模型(VLM)預測 “向前移動手臂”、“向右旋轉手臂” 等語言化動作;然后,再根據這些語言化動作,為機器人預測具體執(zhí)行動作(Robot Action)。

這種動作分層結構能讓模型學習到那些語言描述差異顯著但存在共享結構的任務。與RT-2哪些直接從任務映射到動作的方式相比,這些語言化動作有助于在多樣化的多任務數據集之間實現(xiàn)更好的數據共享。

此外,該分層結構還允許人類選擇性地向機器人提供語言化動作修正,以避免任務失敗,隨后利用這些新的語言化動作預測更優(yōu)的動作。當人類完成干預后,RT-H 會像之前一樣繼續(xù)預測語言化動作。

然而,當任務在語義上變得更加多樣時(例如“拿起可樂罐” 和 “倒杯子里的東西”),任務間的數據共享就會變得更加困難,因此學習從高級任務到具體動作指令的映射需要大量的演示數據。

為了彌合任務與動作之間的這一鴻溝,DeepMind的解法是賦予機器人『動作語義化』能力——使用原子級動作短語(如“前移機械臂”或“閉合夾爪”)描述底層運動。將語言化動作預測作為高層任務與底層執(zhí)行間的中間步驟,倒逼策略模型學習表面異構任務間共享的底層運動結構。更重要的是,基于語言化動作條件生成的策略,可在執(zhí)行過程中通過人類指定的語義指令實時修正。

1)RT-H:利用語言構建動作分層結構

RT-H的推理流程包含兩個關鍵階段:

1)首先,RT-H 根據視覺觀察結果和高級任務描述,預測當前的語言化動作(語言化動作指令請求),使模型能在細粒度層面推理任務執(zhí)行方式;

2)然后,RT-H聯(lián)合視覺觀察、任務描述及推斷出的語言化動作預測當前的具體執(zhí)行動作(機器人動作指令請求),其中語言化動作為精確動作預測提供了關鍵上下文補充。

RT-H是以視覺語言模型(VLM)作為主干網絡,并遵循 RT-2的訓練流程來實現(xiàn)。與RT-2 類似,通過互聯(lián)網規(guī)模數據的訓練,模型可調用自然語言處理與圖像理解領域的海量先驗知識。

為了將這些先驗知識融入動作層級結構的各個層級,RT-H 使用單一的視覺語言模型(VLM)同時學習語言動作指令請求(Language Motion Query)和機器人動作指令請求(Action Query)。

圖片

RT-H的推理流程

圖左側:

RT-H利用語言構建分層策略學習架構:將動作預測拆分為語言化動作指令請求(π)與機器人動作指令請求(π)。其中:

π:基于圖像令牌( Image Tokens)和任務描述令牌(Task Tokens)預測細粒度語言化動作(如“向前移動手臂”);

π:結合場景視覺上下文,將該語言化動作解碼為具體的機器人動作指令。

圖右側:

用戶可直接對機器人動作指令請求進行干預,為機器人行為提供語言化動作修正,例如此處將“向前移動手臂” 改為 “向左移動手臂”。為了從修正中學習,只需用新標注的語言化動作修正更新語言動作指令請求。隨后,將更新后的模型重新部署到動作層級結構中。

RT-H通過端到端的方式學習預測語言化動作指令和機器人動作指令,不僅能夠在語言化動作空間中進行修正,還能從這些修正中高效學習。

當所學策略難以順利執(zhí)行任務時,語言化動作能再次發(fā)揮作用:它們?yōu)樵诰人類修正提供了一個直觀的交互界面,且這種修正與特定場景相關聯(lián)。通過語言化動作訓練的策略,能夠自然地遵循人類的低級修正指令,并借助修正數據成功完成任務。此外,該策略甚至可以在語言修正數據上進行訓練,從而進一步提升自身性能。

a. RT-H模型訓練

RT-H采用基于互聯(lián)網多模態(tài)數據聯(lián)合預訓練的單一視覺語言模型(VLM),學習高層任務策略π與底層機器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構實例化視覺語言模型(VLM)。該模型通過ViT編碼器將圖像處理為圖像令牌(Image Tokens),再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語言指令令牌,輸出離散動作令牌(Action Tokens)。

這些動作令牌的生成方式沿襲RT-2的離散化機制:將每個動作維度離散化為256個區(qū)間(bins),并將區(qū)間編碼為整數值。每個動作包含末端執(zhí)行器的位置/軸角旋轉變化量、夾爪開合動作指令以及任務終止標志。

隨后,RT-H 使用與 RT-2 相同的 PaLI-X 訓練混合數據進行聯(lián)合訓練,并從預訓練檢查點開始。在該聯(lián)合訓練過程中,視覺 Transformer(ViT)編碼器被凍結。RT-H 以相同的采樣率,用語言化動作指令請求和機器人動作指令請求替代了 RT-2 中的機器人動作指令請求。使用單一模型簡化了訓練過程,并使語言化動作指令請求和機器人動作指令請求都能從 PaLI-X 訓練混合數據中蘊含的廣泛先驗知識中獲益。

b. 語言化動作的提取

為了低成本地提取每個片段中的每個時間步的可靠語言化動作,DeepMind開發(fā)了一種依賴機器人本體感知信息的自動標注方案。

首先,將機器人末端執(zhí)行器位姿變化的每個維度與空間維度相關聯(lián)(例如,位置變化的z軸對應上下方向)。針對所有 9 個動作維度(3 個位置增量維度、3 個姿態(tài)增量維度、2 個基座移動維度、1 個夾爪維度)執(zhí)行此操作后,就能確定機器人當前的主要空間運動列表,例如 “手臂向上并向右移動”“閉合夾爪”“手臂逆時針旋轉” 或 “基座向左轉動”。之后,可以過濾掉低于選定 “小動作” 閾值的維度,再按照動作幅度的順序組合得到的動作。

例如,如果機器人主要是向前移動手臂,同時開始閉合夾爪,研究人員會提取出“向前移動手臂并閉合夾爪” 這一語言化動作。通過這種方式,語言的組合性使得從一組簡單的已知動作中能夠提取出超過 2500 種語言化動作。

此外,由于這些語言化動作直接源于動作本身,因此在RT-H 中運行動作指令請求時,它們對動作本身具有很強的預測能力。

然而,語言化動作在抽象層級的選擇上存在基本權衡的問題:語言化動作的顆粒度越細,語言化動作指令請求的預測難度越高,但對機器人動作指令請求的指導性越強;反之亦然。

2)RT-H:推理與修正

在測試階段,RT-H首先運行語言化動作指令請求(π)以推導語言化動作序列,隨后將該序列輸入機器人動作指令請求(π)生成具體的執(zhí)行動作參數。

然而,由于兩個指令請求需在每一步時序中串行執(zhí)行,該過程使推理耗時翻倍。雖對小規(guī)模模型影響甚微,但對于RT-H中使用的55B參數的大型模型而言,必將引發(fā)不可避免的請求處理延遲問題。

為應對這一挑戰(zhàn),谷歌DeepMind提出兩種語言化動作推理模式:

a. 異步查詢:僅訓練RT-H中的語言化動作指令請求(π)預測未來一步動作。測試時,利用上一時間步推導的語言化動作執(zhí)行當前機器人動作指令請求,同時并行預測下一時間步的語言化動作。此方案通過批處理查詢實現(xiàn)與RT-2近乎同等的請求延遲。

b.  固定頻率:每H步執(zhí)行一次語言化動作指令請求,分攤延遲壓力。

在實驗中,DeepMind選擇異步查詢方案,因語言化動作常需在精確時間步變更,無法適配固定頻率帶來的約束。

2025年:谷歌具身智能基礎模型關鍵布局

1. 2025年3月:谷歌發(fā)布具身智能大模型Gemini Robotics

2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構建的兩類大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。

1) Gemini Robotics-ER

Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴展至物理世界,具備增強的空間和時間理解能力,包括物體檢測、指向、軌跡預測和抓取預測等2D空間概念理解能力,以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。

圖片

多視角3D場景理解: 通過關聯(lián)不同視角的2D點來理解3D場景

a. 支持零樣本和少樣本機器人控制

在實驗中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型,分別采用兩種不同的機器人控制方法進行實驗。

零樣本(zero-shot)機器人控制——通過代碼生成控制機器人。

少樣本(few-shot)控制——通過上下文學習(in-context learning, ICL),基于少量示例適應新行為。

圖片

兩類模型在模擬環(huán)境中執(zhí)行一組操作任務的結果對比

備注:這些任務涵蓋了不同難度和物體類型,從簡單的抓取任務(如抬起香蕉)到長時序、多步驟、多任務的操作(如將玩具放入盒子并關閉盒子)。

試驗結果表明,Gemini Robotics-ER 在兩種控制方式下的任務完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學習(in-context learning),僅憑少量示例就能提高更復雜的靈巧雙臂任務(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務。

在零樣本機器人控制方面,Gemini Robotics-ER任務完成率相比Gemini 2.0 提高了近2倍。

在少樣本機器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達到 65%。

另外,實驗還表明,模型的具身推理能力與下游機器人控制的性能之間存在強相關性。Gemini Robotics-ER 可以直接用于機器人控制,包括:作為感知模塊(如物體檢測),規(guī)劃模塊(如軌跡生成)以及通過生成和執(zhí)行代碼來協(xié)調機器人運動。

不過,Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復雜的靈巧操作任務上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機器人執(zhí)行動作關聯(lián)起來。

2)Gemini Robotics

Gemini Robotics是一種端到端的VLA(視覺-語言-行動)模型,將強大的具身推理先驗與現(xiàn)實世界機器人的靈巧低級控制相結合,能夠在不同環(huán)境下解決靈巧任務,并支持不同的機器人形態(tài)。

Gemini Robotics是Gemini Robotics-ER的一個衍生版本,采用了雙組件架構:

Gemini Robotics 主干網絡:托管在云端,負責視覺-語言推理。

Gemini Robotics 解碼器:運行在機器人控制器上,負責動作執(zhí)行。

Gemini Robotics 主干網絡由Gemini Robotics-ER的一個蒸餾版本(distilled version)組成,其查詢-響應延遲已優(yōu)化至小于160ms(相比原始模型減少了數秒)。為了補償主干網絡的延遲,Gemini Robotics解碼器在本地執(zhí)行低級控制。

圖片

Gemini Robotics模型架構概覽

3)Gemini Robotics 的優(yōu)勢

Gemini Robotics模型在精細的柔性布料操作、鉸接物體精準操控等多樣化任務中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結于:

強大的視覺語言模型,具備增強的具身推理能力;

針對機器人任務,采用大規(guī)模機器人動作數據與多樣化的非機器人數據的特定訓練方案;

專為低延遲機器人控制設計的獨特架構。

Gemini Robotics模型的關鍵優(yōu)勢在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開放詞匯指令,并展現(xiàn)強大的零樣本泛化能力。通過微調實現(xiàn)專項適應,該模型在新任務/新實體形態(tài)中達成較高操作精度,并在挑戰(zhàn)性場景中保持泛化能力。

2. 2025年6月:谷歌發(fā)布設備端具身智能模型Gemini Robotics On-Device

2025年6月,谷歌DeepMind正式發(fā)布機器人模型Gemini Robotics On-Device。它是視覺-語言-動作(VLA)模型 Gemini Robotics 的輕量化版本。該模型重點解決在設備端部署的問題。

據悉,Gemini Robotics On-Device是首個支持本地微調的具身智能VLA模型。模型經過計算資源壓縮,可在 Franka FR3 機械臂、Apollo 人形機器人等邊緣設備上實現(xiàn)低延遲推理(<100ms),并支持全鏈路離線運行。

在任務泛化能力方面,在Visual Gen(視覺泛化)、Semantic Gen(語義泛化)、Action Gen(動作泛化) 三項核心測試中,該模型得分均接近旗艦版模型Gemini Robotics,且超越此前最佳設備端模型,尤其在處理未見過的物體(如異形拉鏈袋)和復雜多步驟指令(如 “拉開袋子→取出物品→折疊衣物”)時表現(xiàn)突出。

模型的任務泛化能力比較

同時,谷歌還推出Gemini Robotics SDK,提供MuJoCo 物理模擬器集成、示范數據標注工具及模型微調接口,幫助開發(fā)者評估Gemini Robotics 在設備上的性能。開發(fā)者可通過 50-100 次真實操作演示完成模型適配。這一數據量顯著低于傳統(tǒng)強化學習方法(通常需數千次迭代),體現(xiàn)了該模型的高效遷移學習能力。

Gemini Robotics On-Device的推出,是對機器人開發(fā)范式的革新。

Gemini Robotics On-Device 實現(xiàn)了端到端本地化運行,解決網絡中斷場景的可靠性問題,對工業(yè)巡檢、應急救援等關鍵領域具有戰(zhàn)略意義。

該模型通過高效的微調能力,顯著降低跨平臺適配成本,可擴展至Apollo人形機器人與Franka FR3機械臂等不同形態(tài)。

結語

具身智能的核心是讓AI 從 “數字世界” 走向 “物理世界”,而物理推理能力是其關鍵瓶頸 —— 即模型能否讓機器人像人類一樣理解物體的物理屬性(重量、硬度、彈性)、空間關系(距離、遮擋、方位)、因果邏輯(推、拉、碰撞的后果)等。

“物理推理能力” 的核心主體是具身智能大模型,機器人是這一能力的 “物理執(zhí)行者”。谷歌在具身智能基礎模型領域布局的本質是通過大模型突破物理推理的技術壁壘,再借助跨平臺動作泛化框架與端云協(xié)同部署,實現(xiàn)機器人在現(xiàn)實應用場景中的可靠落地。

當前,谷歌在正以「通用智能模型賦能者 + 跨場景生態(tài)協(xié)同者」的定位重塑行業(yè)技術范式。其通過 RT 系列與 Gemini Robotics 大模型構建核心智能引擎,結合 Open X-Embodiment 開源數據集與 Gemini Robotics SDK 開發(fā)工具,形成從模型研發(fā)到應用落地的全鏈條支撐體系,通過技術迭代與生態(tài)聯(lián)動構建具身智能護城河。

未來,隨著具身智能基礎模型物理推理能力的持續(xù)提升,谷歌有望成為具身智能時代“物理世界語言” 的標準制定者。

       原文標題 : 2022~2025:2萬字講清谷歌在具身智能基礎模型領域的關鍵布局

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號