訂閱
糾錯(cuò)
加入自媒體

產(chǎn)業(yè)丨谷歌發(fā)布本地VLA模型,具身智能正在進(jìn)入“端側(cè)時(shí)代”

前言:如果過(guò)去十年機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了[可見(jiàn)]的視覺(jué)感知、[可理解]的語(yǔ)言理解,那么在VLA模型出現(xiàn)之后,機(jī)器人開(kāi)始進(jìn)入[動(dòng)作精準(zhǔn)]的第三階段。目前,VLA模型已逐漸成為具身智能行業(yè)的共識(shí),被視為連接感知、語(yǔ)言和行為的通用架構(gòu)。VLA模型是通往通用智能的關(guān)鍵基礎(chǔ),它使機(jī)器人能夠從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí),并將這些學(xué)習(xí)轉(zhuǎn)化為具體行動(dòng)。

作者 | 方文三

圖片來(lái)源 |  網(wǎng) 絡(luò) 

本地VLA模型 Gemini Robotics On-Device發(fā)布

近日,谷歌發(fā)布了Gemini Robotics On-Device,這一具身智能離線模型,實(shí)現(xiàn)了視覺(jué)-語(yǔ)言-動(dòng)作(VLA)多模態(tài)大模型在具身機(jī)器人上的本地離線運(yùn)行。

能夠同步處理視覺(jué)輸入、自然語(yǔ)言指令以及動(dòng)作輸出。即便在無(wú)網(wǎng)絡(luò)環(huán)境下,該模型也能保持穩(wěn)定運(yùn)行。

這一系列復(fù)雜的處理過(guò)程,如今均能在機(jī)器人的內(nèi)部計(jì)算單元中實(shí)現(xiàn)。

特別值得注意的是該模型的適應(yīng)性和通用性。

谷歌指出,Gemini Robotics On-Device是首個(gè)向開(kāi)發(fā)者開(kāi)放微調(diào)功能的機(jī)器人VLA模型,開(kāi)發(fā)者能夠根據(jù)自己的特定需求和應(yīng)用場(chǎng)景,對(duì)模型進(jìn)行個(gè)性化訓(xùn)練。

研究顯示,僅需50至100個(gè)新的任務(wù)演示(通常通過(guò)遠(yuǎn)程操作機(jī)器人完成),模型便能迅速學(xué)習(xí)并掌握新技能,展現(xiàn)出卓越的[快速任務(wù)適應(yīng)]能力。 

此外,谷歌還公開(kāi)了相應(yīng)的軟件開(kāi)發(fā)工具包(SDK),標(biāo)志著具身智能技術(shù)向?qū)嵱没~出了新的一步。

Gemini Robotics是谷歌于三月份推出的VLA系列模型之一,其核心在于將多模態(tài)大模型的能力引入現(xiàn)實(shí)世界。

而Gemini Robotics On-Device,顧名思義,是專(zhuān)為機(jī)器人設(shè)備本地運(yùn)行而優(yōu)化的模型。旨在以最低限度的計(jì)算資源實(shí)現(xiàn)機(jī)器人的智能化。

本地模型的優(yōu)勢(shì)在于,即便在網(wǎng)絡(luò)連接不穩(wěn)定或完全無(wú)連接的情況下,也能確保具身機(jī)器人的性能穩(wěn)定。

在多種測(cè)試場(chǎng)景中,Gemini Robotics On-Device展現(xiàn)了強(qiáng)大的視覺(jué)、語(yǔ)義和行為泛化能力,能夠理解自然語(yǔ)言指令,并完成如解開(kāi)袋子或折疊衣物等高度靈巧的任務(wù)。

由于該模型獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行,它特別適合對(duì)延遲敏感的應(yīng)用,并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。

評(píng)測(cè)數(shù)據(jù)顯示,On-Device版本在泛化性能測(cè)試中表現(xiàn)突出。

盡管在視覺(jué)泛化、語(yǔ)義理解和行為泛化等多個(gè)維度上,與云端版本的Gemini Robotics相比略有差距,但已大幅超越了先前最佳的本地模型。

在處理分布外任務(wù)和復(fù)雜多步驟指令時(shí),Gemini Robotics On-Device相較于先前的本地模型也展現(xiàn)出了顯著的優(yōu)勢(shì)。

Gemini Robotics On-Device的推出,象征著具身智能從依賴(lài)云端計(jì)算能力向本地自主運(yùn)行的關(guān)鍵轉(zhuǎn)變。

具身智能的部署一直面臨挑戰(zhàn)

在此之前,包括谷歌在內(nèi)的許多機(jī)器人系統(tǒng),通常采用一種混合架構(gòu):在機(jī)器人上部署一個(gè)較小的模型以處理快速響應(yīng),同時(shí)將需要復(fù)雜推理和規(guī)劃的任務(wù)交由云端強(qiáng)大的服務(wù)器處理。

盡管這種方法可行,但其對(duì)網(wǎng)絡(luò)連接的穩(wěn)定性和速度提出了極高的要求。

任何網(wǎng)絡(luò)延遲或中斷都可能導(dǎo)致機(jī)器人反應(yīng)遲緩甚至停擺;

同時(shí),將傳感器數(shù)據(jù)(尤其是來(lái)自家庭或醫(yī)療等隱私敏感環(huán)境的視覺(jué)數(shù)據(jù))上傳至云端,也引發(fā)了持續(xù)的隱私和安全顧慮。

①對(duì)云計(jì)算資源的重度依賴(lài),這限制了機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無(wú)網(wǎng)絡(luò)環(huán)境下的獨(dú)立作業(yè)能力;

②模型體積龐大,難以在機(jī)器人有限的計(jì)算資源上高效運(yùn)行。

目前大多數(shù)機(jī)器人需要經(jīng)過(guò)成千上萬(wàn)次的訓(xùn)練,才能完成一個(gè)任務(wù)。

谷歌希望為機(jī)器人領(lǐng)域提供一個(gè)開(kāi)放、通用且易于開(kāi)發(fā)的平臺(tái),正如安卓系統(tǒng)對(duì)智能手機(jī)行業(yè)所做的那樣。

過(guò)去受限于帶寬和計(jì)算能力,許多機(jī)器人AI僅能進(jìn)行示范。

具身智能技術(shù)的發(fā)展長(zhǎng)期受到對(duì)云計(jì)算資源高度依賴(lài)的制約,這導(dǎo)致機(jī)器人在缺乏網(wǎng)絡(luò)連接或網(wǎng)絡(luò)不穩(wěn)定的情況下難以獨(dú)立完成任務(wù)。

此外,由于模型體積龐大,它們?cè)跈C(jī)器人有限的計(jì)算資源上難以實(shí)現(xiàn)高效運(yùn)行。

為機(jī)器人產(chǎn)業(yè)的實(shí)際應(yīng)用開(kāi)辟了新的道路,為機(jī)器人在更廣泛場(chǎng)景中的應(yīng)用提供了可能性。

例如,機(jī)器人在無(wú)網(wǎng)絡(luò)連接的工廠中進(jìn)行精確的零件裝配、在災(zāi)區(qū)廢墟中進(jìn)行自主救援等應(yīng)用場(chǎng)景,都依賴(lài)于機(jī)器人端側(cè)模型的部署。

目前,由于各類(lèi)機(jī)器人在本體結(jié)構(gòu)、自由度以及傳感器配置上的差異,實(shí)現(xiàn)統(tǒng)一的軟件架構(gòu)頗具挑戰(zhàn)。

一旦硬件標(biāo)準(zhǔn)實(shí)現(xiàn)統(tǒng)一,類(lèi)似于智能手機(jī)生態(tài)系統(tǒng)中USB接口、鍵盤(pán)、屏幕等通用組件所形成的規(guī)范,將顯著促進(jìn)算法標(biāo)準(zhǔn)化和本地部署的實(shí)現(xiàn)。

具身智能正在進(jìn)入端側(cè)時(shí)代

本地VLA模型將使機(jī)器人更適合家庭、醫(yī)療、教育等敏感場(chǎng)景,解決數(shù)據(jù)隱私、實(shí)時(shí)反應(yīng)、安全穩(wěn)定性等核心挑戰(zhàn)。

在過(guò)去的幾年中,大型語(yǔ)言模型的[端側(cè)部署]已成為一個(gè)重要趨勢(shì)。

從最初依賴(lài)大規(guī)模云端計(jì)算資源,到如今能夠在手機(jī)、平板等邊緣設(shè)備本地運(yùn)行,模型的壓縮優(yōu)化、推理加速與硬件協(xié)同不斷取得進(jìn)展。

同樣的演進(jìn)路徑,正在具身智能領(lǐng)域逐步展開(kāi)。

VLA模型(視覺(jué)-語(yǔ)言-動(dòng)作模型)作為具身智能的核心架構(gòu),本質(zhì)上是賦予機(jī)器人從多模態(tài)信息中理解任務(wù)并作出相應(yīng)行動(dòng)的能力。

此次大模型版本的發(fā)布,也可能在業(yè)界引發(fā)連鎖反應(yīng)。隨著AI算力和模型架構(gòu)的持續(xù)演進(jìn),[邊緣智能]正從傳統(tǒng)的物聯(lián)網(wǎng)走向以具身智能為代表的更高級(jí)階段。

本地化VLA的引領(lǐng),預(yù)示著具身智能發(fā)展的新階段。

這一突破性技術(shù)標(biāo)志著機(jī)器人AI從依賴(lài)云端計(jì)算向自主邊緣智能的轉(zhuǎn)變,為工業(yè)制造、醫(yī)療護(hù)理、家庭服務(wù)等領(lǐng)域帶來(lái)了前所未有的可能性。

徹底擺脫對(duì)云端的依賴(lài),機(jī)器人AI實(shí)現(xiàn)了[獨(dú)立思考]。

傳統(tǒng)機(jī)器人AI系統(tǒng)普遍依賴(lài)于云端計(jì)算資源,通過(guò)網(wǎng)絡(luò)將傳感器數(shù)據(jù)上傳至遠(yuǎn)程服務(wù)器進(jìn)行處理后再傳回指令。

盡管這種架構(gòu)的計(jì)算能力強(qiáng)大,但其固有的缺陷包括網(wǎng)絡(luò)延遲、連接不穩(wěn)定和隱私安全問(wèn)題。

今年,諸如谷歌、微軟、Figure AI等國(guó)際企業(yè)紛紛推出了各自的VLA模型,與此同時(shí),國(guó)內(nèi)的銀河通用、智元機(jī)器人、自變量機(jī)器人等公司也已在這一領(lǐng)域展開(kāi)了相應(yīng)的戰(zhàn)略部署。

今年6月1日,銀河通用正式推出了自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型TrackVLA。

該模型具備純視覺(jué)環(huán)境感知、語(yǔ)言指令驅(qū)動(dòng)、自主推理能力以及零樣本泛化能力的具身大模型。

而在一周后的2025北京智源大會(huì)上,銀河通用又發(fā)布了全球首個(gè)面向零售場(chǎng)景的端到端VLA大模型GroceryVLA。

結(jié)尾:

從全球具身智能的發(fā)展趨勢(shì)來(lái)看,Gemini Robotics On-Device的推出,代表了大模型技術(shù)在機(jī)器人領(lǐng)域的一次重大范式轉(zhuǎn)變。

過(guò)去十年,機(jī)器人智能主要依賴(lài)于云端大模型的支持,而未來(lái)將轉(zhuǎn)向邊緣本地部署、大模型小型化以及高頻自適應(yīng)更新的新階段。

這一趨勢(shì)對(duì)谷歌、特斯拉等具身智能?chē)?guó)際巨頭至關(guān)重要,同時(shí)也對(duì)我國(guó)具身智能產(chǎn)業(yè)鏈提出了更高的要求。

部分資料參考:新智元:《谷歌讓機(jī)器人[長(zhǎng)腦子]了!首發(fā)離線具身VLA模型,斷網(wǎng)精準(zhǔn)操控》,量子位:《谷歌發(fā)布本地具身智能模型!全程無(wú)聯(lián)網(wǎng)執(zhí)行精細(xì)操作,從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋》,DeepTech深科技:《谷歌發(fā)布Gemini Robotics On-Device,首次實(shí)現(xiàn)機(jī)器人AI模型完全本地化運(yùn)行》,藍(lán)鯨TMT:《谷歌發(fā)布本地VLA模型,機(jī)器人界的[安卓系統(tǒng)]要來(lái)了?》,頭部科技:《機(jī)器人[本地最強(qiáng)大腦]誕生,谷歌DeepMind推出新一代VLA模型,國(guó)內(nèi)研究多維進(jìn)擊》,智維洞察:《谷歌發(fā)布Gemini本地模型,具身智能再提速》,機(jī)器覺(jué)醒時(shí)代: 《谷歌RT-1模型—— 具身智能VLA模型在早期的重要探索》

       原文標(biāo)題 : AI芯天下丨產(chǎn)業(yè)丨谷歌發(fā)布本地VLA模型,具身智能正在進(jìn)入“端側(cè)時(shí)代”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)