訂閱
糾錯
加入自媒體

具身智能無共識,就是最好的共識

圖片

在技術(shù)早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè),具身智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。

作者:彭堃方

編輯:呂鑫燚

出品:具身研習(xí)社

意料之內(nèi)的是具身智能在2025年末依然保持高昂姿態(tài)前行。

更在意料之內(nèi)的是,具身智能依然沒有共識。

2025智源具身OpenDay圓桌論壇上,國內(nèi)最頂尖的具身從業(yè)者來了一場“各執(zhí)一詞的真心話”,無論是模型架構(gòu)的選擇,還是數(shù)據(jù)的使用都未能在圓桌對話上找到統(tǒng)一的發(fā)展方向。一時間不少人對于具身智能仍無共識這事兒,抱有遺憾。

但具身研習(xí)社認為,“無共識”的另一層意思是具身智能仍值得期待,技術(shù)還會在不經(jīng)意間“偷襲”。畢竟,有明確風(fēng)向了反倒是略顯無聊。當我們不再訴諸“確定性”,其實能夠看出一些趨勢;蛟S“無共識”本身就是一種共識。

圖片來源:智源研究院

從產(chǎn)業(yè)視角來看,共識的缺失有三重利好意義:

其一,無共識本質(zhì)上打破了單一技術(shù)路線的壟斷性話語權(quán),避免行業(yè)陷入“路徑依賴”的創(chuàng)新陷阱。在具身智能領(lǐng)域,從“分層架構(gòu) vs 端到端”的技術(shù)路線分歧,到“通用人形機器人vs場景化具身智能”的落地選擇,無共識狀態(tài)讓不同技術(shù)理念、學(xué)科背景的團隊獲得平等試錯空間;

其二,成熟行業(yè)的共識往往伴隨著高準入壁壘,而具身智能的“無共識”狀態(tài),為中小企業(yè)、初創(chuàng)團隊乃至跨界玩家提供了彎道超車的機會。無需遵循既有的技術(shù)標準或商業(yè)規(guī)則,新入局者可憑借差異化優(yōu)勢切入賽道。

其三,具身智能作為交叉學(xué)科賽道,其技術(shù)基礎(chǔ)仍在快速迭代,過早形成共識反而可能固化技術(shù)路徑,限制行業(yè)向更高維度突破。無共識狀態(tài)的核心價值,在于為技術(shù)迭代預(yù)留了“彈性空間”。

在智源具身OpenDay圓桌論壇上,講述了太多“無共識”,也折射出更多可能性。具身研習(xí)社基于在場嘉賓的回答,洞察出具身智能五大信號,未來發(fā)展的方向或許就藏在信號中。

 

圖片

模型還不夠好

有人要另起爐灶

信號1:世界模型暫時扛不起大梁

在具身智能的模型討論中,“當紅炸子雞”世界模型是繞不開的話題。

它的核心價值在于“預(yù)測”。讓機器人像人類一樣,根據(jù)當前時空狀態(tài)預(yù)判下一步變化,進而規(guī)劃動作,這一點得到了圓桌嘉賓的普遍認可。北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴以機器人運控為例,指出無論是人形機器人的足式行走、跳舞,還是靈巧手的精細操作,其底層控制邏輯都需要對物理交互的預(yù)測能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務(wù)于機器人,它的訓(xùn)練數(shù)據(jù)中必須包含更多機器人本身的數(shù)據(jù)。

但世界模型的短板同樣突出,難以單獨成為具身智能的“萬能方案”。王鶴強調(diào),當前很多世界模型依賴人類行為視頻訓(xùn)練,可機器人的身體結(jié)構(gòu)(如輪式底盤、多自由度機械臂)與人類差異巨大,這些數(shù)據(jù)對機器人實際操作的幫助有限。加速進化創(chuàng)始人兼CEO程昊也提到,在做飯、復(fù)雜裝配等真實場景中,世界模型的預(yù)測精度仍不足,只能先通過分層模型解決簡單任務(wù),再逐步迭代升級。

信號2:模型要“另起爐灶”

既然現(xiàn)有模型難以滿足需求,“打造具身專屬模型”成為不少企業(yè)的共識。

清華大學(xué)交叉信息學(xué)院助理教授、星海圖CTO 趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進化是“先有動作、再有視覺、最后有語言”,機器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯——比如開車時,人類靠視覺觀察路況、靠動作操控方向盤,語言并未參與核心操作,具身模型也應(yīng)優(yōu)先打通“視覺-動作”的閉環(huán)。

自變量創(chuàng)始人兼CEO王潛的觀點更為具體,他認為具身智能需要一套“物理世界基礎(chǔ)模型”,既能控制機器人動作,又能作為世界模型預(yù)測物理規(guī)律。虛擬世界的多模態(tài)模型靠文字、圖片訓(xùn)練,但物理世界的摩擦、碰撞、力反饋等精細過程,卻是無法用語言準確描述的。當一個機器人抓取雞蛋時,它需要感知蛋殼的脆弱度、調(diào)整握力,這種對物理屬性的理解,必須依賴專門針對物理世界訓(xùn)練的模型。

信號3:從底層架構(gòu)開始革新

過去幾年,Transformer架構(gòu)憑借跨模態(tài)處理能力,撐起了ChatGPT等大語言模型的爆發(fā),但在具身智能領(lǐng)域,它的適用性正受到質(zhì)疑。招商局集團AI首席科學(xué)家張家興是這一觀點的代表,他直言“具身智能不能走LLM到VLM的老路”。

在他看來,Transformer架構(gòu)是以語言為核心,將視覺、動作等模態(tài)向語言映射,這與物理世界的操作邏輯相悖——人類做動作時,視覺感知直接指導(dǎo)肌肉運動,無需經(jīng)過語言“翻譯”。他透露,硅谷頭部團隊已在探索“Vision First”或“Vision Action First”的新架構(gòu),讓視覺和動作直接交互,減少語言中介的損耗。

王鶴也補充道,Transformer作為一個跨模態(tài)的Attention機制,是很通用的。比如你發(fā)現(xiàn)它吞吐文模態(tài)、視頻模態(tài)、聲音模態(tài)都是可以的。但“今天具身的問題是,我們?nèi)擞醒、耳、口、鼻、舌,這么多‘覺’,雖然從Attention的角度,把這些‘覺’Token化以后都能放到Transformer里,但是它在輸出上好像不是那么的理想,根本挑戰(zhàn)是數(shù)據(jù)問題以及與之對應(yīng)的學(xué)習(xí)范式”。

王鶴提出,短期來看,仿真模擬與合成數(shù)據(jù)是突破探索速度的核心手段;長期來看,現(xiàn)實世界中人形機器人的規(guī)模必須持續(xù)快速擴張,只有足夠大的“機器人人口”與能力提升相互推動,才能催生真正強大的具身大模型。

這種底層架構(gòu)的不匹配,讓行業(yè)意識到:要實現(xiàn)具身智能的突破,或許需要從架構(gòu)根源上革新,而非在現(xiàn)有框架內(nèi)修修補補。

 

圖片

數(shù)據(jù)依舊是卡點

且胃口越來越大

信號4:沒有完美數(shù)據(jù),只有適配選擇

“數(shù)據(jù)是具身智能的燃料”,這是圓桌論壇的共識,但“用什么數(shù)據(jù)”卻沒有統(tǒng)一答案。由于不同數(shù)據(jù)類型各有優(yōu)劣,企業(yè)普遍采取“多源融合、按需選擇”的策略,根據(jù)任務(wù)場景匹配最合適的數(shù)據(jù)來源。真機數(shù)據(jù)是最“保真”的選擇,能直接反映真實物理世界的交互規(guī)律,因此成為精細操作場景的首選。趙行所在的星海圖團隊,就堅持深入真實場景采集數(shù)據(jù),他們把真實性、質(zhì)量看作真實機器人的數(shù)采起點。智元機器人合伙人、首席科學(xué)家羅劍嵐也強調(diào),智元機器人也堅持真實數(shù)據(jù),并且在數(shù)據(jù)采集中堅持真實場景而非單靠數(shù)采工廠,摸索一條通過機器人自主地去產(chǎn)生數(shù)據(jù),構(gòu)建起數(shù)據(jù)飛輪的道路。而仿真數(shù)據(jù)則憑借“低成本、可規(guī);”的優(yōu)勢,成為底層控制訓(xùn)練的主力。王鶴認為,在強化學(xué)習(xí)中,很多極端場景(如機器人摔倒、機械臂過載)難以在真機上反復(fù)測試,而仿真器可以快速生成大量類似數(shù)據(jù),幫助模型學(xué)習(xí)應(yīng)對策略。在他看來,模擬器并不是對真實世界的否定,而是以模擬器為始,它能夠給具身企業(yè)一個很好的Base Controller,讓我們能在真實世界里能把數(shù)據(jù)飛輪轉(zhuǎn)起來。

程昊的加速進化團隊也采取類似策略,先用仿真數(shù)據(jù)讓機器人掌握基本運控能力,再用真機數(shù)據(jù)微調(diào)適配真實場景。“我們用仿真數(shù)據(jù)訓(xùn)練的一個目標,是讓機器人接下來能獲得更多真實數(shù)據(jù),有了真實數(shù)據(jù),整體能力才能再提升。”在程昊看來這很可能是一個螺旋上升的過程。

視頻數(shù)據(jù)則成為基座模型訓(xùn)練的重要補充。智源研究院院長王仲遠認為“視頻數(shù)據(jù)訓(xùn)練基座模型”這一套邏輯其實跟現(xiàn)在小朋友刷手機來認識世界是一個原理——先通過視頻學(xué)習(xí)到這個世界,再通過真實的交互體驗來提升他們的技能。這些視頻數(shù)據(jù)包含時空、因果、意圖等多維度信息,且能大規(guī)模獲取,是當前缺乏海量真機數(shù)據(jù)時的“折中最優(yōu)解”。但在具身研習(xí)社追問“從視頻中學(xué)習(xí)如何解決觸覺跟力控精細化數(shù)據(jù)?”時王仲遠也承認,視頻中確實缺乏力反饋、觸覺等信息,但這并不影響其價值,F(xiàn)在智源研究院具身智能實驗室里也備有帶力反饋數(shù)據(jù)的采集設(shè)備。視頻數(shù)據(jù)更多用于“打基礎(chǔ)”,還需結(jié)合其他數(shù)據(jù)做針對性優(yōu)化、微調(diào)。

信號5:“數(shù)量”“質(zhì)量”“種類”,具身企業(yè)全方位要數(shù)據(jù)

隨著具身智能向復(fù)雜場景滲透,行業(yè)對數(shù)據(jù)的需求正不斷升級,不僅“量”要大,“質(zhì)”要高,“種類”也要更豐富,形成了越來越大的“數(shù)據(jù)胃口”。

首先是“量”的渴求,“互聯(lián)網(wǎng)級別”數(shù)據(jù)成為行業(yè)共同的期待。如趙行認為,數(shù)據(jù)的規(guī);軌蚍聪虻尿(qū)動模型的進化和智能的實現(xiàn)。王仲遠也表示“更好的具身大模型,可能要等大量機器人在真實場景中解決具體問題、累積出‘具身智能互聯(lián)網(wǎng)’級別的數(shù)據(jù)之后,才會出現(xiàn)”。換句話說,沒有足夠的數(shù)據(jù),模型就像沒吃飽的孩子,跑不快也長不壯。

當業(yè)內(nèi)在為Generalist構(gòu)建的27萬小時真機數(shù)據(jù)集,疑似觸碰到所謂規(guī);▌t而歡呼時,王仲遠對具身研習(xí)社坦言,“幾十萬小時的數(shù)據(jù)依然不能叫海量數(shù)據(jù),還遠沒到ChatGPT時刻”。

 

圖片

圖片來源:智源研究院

在“量”之外,是“質(zhì)”的追求,“高質(zhì)量數(shù)據(jù)比海量低質(zhì)數(shù)據(jù)更有價值”的觀點逐漸成為主流。王潛認為,數(shù)據(jù)雖然很重要,但不是簡單的“越多越好”。

事實上,語言模型已經(jīng)驗證過,單純堆數(shù)據(jù)規(guī)模未必帶來最好效果,高質(zhì)量、高效率的數(shù)據(jù)才是決定性因素。他認為在具身場景里,數(shù)據(jù)質(zhì)量比數(shù)據(jù)總量更能拉開一個量級上的差距。在這里,站在金字塔頂尖的真機數(shù)據(jù)或許可以少,但很可能是打地基的那一層或者說是針對仿真、視頻數(shù)據(jù)之外,扶大廈之將傾的存在。

最后是“種類”的豐富,多模態(tài)數(shù)據(jù)的需求日益迫切。隨著機器人應(yīng)用場景擴展,單一類型的數(shù)據(jù)已無法滿足需求。比如在家庭服務(wù)場景中,機器人需要同時處理視覺(識別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動作力度)等多維度信息。當前業(yè)內(nèi)所說的多模態(tài)更能力,多是承襲基座大模型的視覺、語言能力,在真正物理交互中的觸覺、力反饋等模態(tài)少之又少。

這種對數(shù)據(jù)種類的豐富需求,也讓行業(yè)意識到:未來的數(shù)據(jù)采集,不僅要記錄“機器人做了什么”,還要記錄“環(huán)境發(fā)生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。在技術(shù)的早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè):真正的智能不是從一條路徑長出來,而是從無數(shù)次試錯、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。

       原文標題 : 具身智能無共識,就是最好的共識

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號