“絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進(jìn)階
芝能科技出品
在WAIC 2025上,商湯絕影推出了升級(jí)版的“絕影開悟”世界模型,并展示了其在自動(dòng)駕駛數(shù)據(jù)生成、仿真訓(xùn)練及具身智能交互方面的多項(xiàng)能力。
雖然整體展示內(nèi)容覆蓋面廣,系統(tǒng)集成度較高,但在表象之下,我們更應(yīng)關(guān)注其核心建模能力是否經(jīng)得起推敲,以及其產(chǎn)品平臺(tái)在高階交互和實(shí)際落地過程中的適用性與邊界,我們更關(guān)心的是從技術(shù)角度分析“絕影開悟”在輔助駕駛和具身智能領(lǐng)域的核心機(jī)制與潛力。
01 輔助駕駛方法革新:效率與控制力的雙重權(quán)衡
“絕影開悟”最大的技術(shù)亮點(diǎn)在于它提供了一種相對(duì)高效、可控的合成數(shù)據(jù)生成方式,用于緩解當(dāng)前輔助駕駛領(lǐng)域?qū)φ鎸?shí)采集數(shù)據(jù)的重依賴。
通過將大模型能力引入數(shù)據(jù)生成流程,它試圖解決傳統(tǒng)仿真工具中長期存在的幾個(gè)問題:缺乏多樣性、場景難以定制、生成效率低。從物理建模角度看,“絕影開悟”展示出對(duì)真實(shí)駕駛環(huán)境的良好抽象能力。
系統(tǒng)不僅能在視覺維度上逼近真實(shí)采集畫面,還通過多模態(tài)控制對(duì)場景邏輯關(guān)系做出可接受的建模(如動(dòng)態(tài)交通行為、光照與視角變化的響應(yīng))。
以當(dāng)前的A100 GPU生成速度估算,其效率確實(shí)優(yōu)于多數(shù)手動(dòng)采集方式,尤其在高頻次需求的訓(xùn)練周期中具有現(xiàn)實(shí)價(jià)值。
數(shù)據(jù)“真實(shí)度”依舊受限于訓(xùn)練模型的語義深度和物理因果邏輯建構(gòu)能力。在復(fù)雜邊緣場景中,如交通事故、非標(biāo)道路結(jié)構(gòu)、夜間突發(fā)事件等,是否具備足夠泛化能力仍需通過大規(guī)模實(shí)測驗(yàn)證。
平臺(tái)支持提示詞生成與圖像點(diǎn)擊生成的功能雖便于產(chǎn)品化,但也可能造成使用者對(duì)“真實(shí)可用性”的認(rèn)知誤差。簡化交互和增強(qiáng)定制性的同時(shí),可能弱化開發(fā)者對(duì)底層模擬邏輯準(zhǔn)確性的關(guān)注。
因此,“絕影開悟”的適用邊界更適合作為算法早期訓(xùn)練和策略預(yù)驗(yàn)證工具,而非作為替代實(shí)車驗(yàn)證的終極手段。
商湯基于該模型開發(fā)的數(shù)據(jù)集“WorldSim-Drive”,在數(shù)據(jù)量級(jí)與標(biāo)簽種類上的覆蓋相對(duì)完備,達(dá)到了百萬級(jí)片段的規(guī)模,并標(biāo)明了多視角、光照、交通標(biāo)識(shí)等變量標(biāo)簽,有助于訓(xùn)練階段算法的魯棒性提升。
以目前情況來看,它更像是一個(gè)適用于快速模型預(yù)熱和泛化能力打底的“數(shù)據(jù)引擎”。
“絕影開悟”在輔助駕駛場景中的價(jià)值不在于徹底替代真實(shí)測試,而在于構(gòu)建一套低成本、可控、高覆蓋率的訓(xùn)練數(shù)據(jù)系統(tǒng),補(bǔ)足現(xiàn)有測試體系中的“長尾場景”缺口。真正的挑戰(zhàn)仍在于模型在未見過的真實(shí)復(fù)雜交通行為中的泛化能力。
02 邁向具身智能的構(gòu)型實(shí)驗(yàn):從環(huán)境建模走向交互邏輯生成
如果說輔助駕駛的數(shù)據(jù)生成屬于靜態(tài)空間與單維交互建模,那么具身智能對(duì)世界模型的要求則更加復(fù)雜,涉及高頻率的實(shí)時(shí)交互、因果鏈構(gòu)建、多視角對(duì)齊與物理反饋仿真。
“絕影開悟”試圖從三維空間走向四維時(shí)空構(gòu)建,打造一個(gè)具備實(shí)時(shí)響應(yīng)能力的4D訓(xùn)練環(huán)境。其最具技術(shù)含量的部分,是將3DGS(即三維高保真重建)與語義建模融合,形成一個(gè)支持1km²級(jí)別的實(shí)時(shí)仿真環(huán)境,并且允許策略模型與模擬環(huán)境實(shí)時(shí)交互。
這種1:1閉環(huán)測試機(jī)制,對(duì)于強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法來說非常關(guān)鍵,它意味著可以在虛擬空間中完成大量策略驗(yàn)證和安全性評(píng)估,減少對(duì)真實(shí)物理實(shí)驗(yàn)的依賴。
系統(tǒng)可以生成具備第一視角(即感知視角)與第三視角(觀察者視角)的同步數(shù)據(jù),并保持它們的時(shí)空一致性。
過去在機(jī)器人訓(xùn)練中,往往只能獲得單一視角數(shù)據(jù),使得訓(xùn)練模型難以兼顧空間規(guī)劃與動(dòng)作細(xì)節(jié)。
雙視角數(shù)據(jù)不僅提升了訓(xùn)練反饋的豐富度,也在一定程度上提供了具身智能體“自我評(píng)估”的能力。具身智能的復(fù)雜性遠(yuǎn)非高精度建模與視角對(duì)齊即可解決。
在實(shí)際工程部署中,問題往往出現(xiàn)在動(dòng)作決策鏈條的尾部——即如何讓模擬動(dòng)作在現(xiàn)實(shí)硬件上落地。即使世界模型在仿真中生成了可行的策略路徑,也很難保證機(jī)器人在真實(shí)環(huán)境中執(zhí)行時(shí)具備同等的魯棒性與安全性。Sim2Real的問題仍然存在,只是部分被緩解。
商湯提出了構(gòu)建具身3D資產(chǎn)庫的路徑,涵蓋多種空間、對(duì)象與任務(wù)(如廚房、辦公桌、機(jī)械臂作業(yè)等),為世界模型提供素材支撐。這種資產(chǎn)級(jí)的系統(tǒng)組織形式,在構(gòu)建任務(wù)圖譜與動(dòng)作路徑預(yù)測中具有較大優(yōu)勢。
結(jié)合高保真數(shù)據(jù)生成與動(dòng)作軌跡抽象,能構(gòu)建更通用的交互行為基礎(chǔ)。
當(dāng)前展示內(nèi)容仍偏向任務(wù)“可生成”與“可預(yù)演”,在“策略推理”“動(dòng)作冗余壓縮”“任務(wù)錯(cuò)誤容忍”等實(shí)際工程場景中,尚未顯示足夠系統(tǒng)化的能力。
因此,更合理的看法是,“絕影開悟”為具身智能提供了訓(xùn)練前期的環(huán)境層支撐,但要構(gòu)建完整的交互模型體系,還需補(bǔ)足認(rèn)知層建模與反饋處理的中層橋梁。
“絕影開悟”在具身智能中的應(yīng)用展示了從空間建模走向交互反饋的技術(shù)意圖,4D空間構(gòu)建與多視角數(shù)據(jù)生成的能力較具前瞻性,但其作為具身訓(xùn)練的“全流程解決方案”仍不完整。
未來的發(fā)展關(guān)鍵在于構(gòu)建具備可遷移性與實(shí)際推理能力的策略模型層,而不只是環(huán)境層的構(gòu)建。
小結(jié)
在Physical AI的技術(shù)熱潮中,“世界模型”這個(gè)概念正被不斷擴(kuò)大與泛化,從工程角度看,其價(jià)值仍應(yīng)回歸到一個(gè)根本問題:是否真正幫助智能體“理解”了所處的世界,并能夠以可驗(yàn)證的方式做出反應(yīng)。
從認(rèn)知世界,到在世界中行動(dòng),AI真正的挑戰(zhàn)不是生成一個(gè)世界,而是理解世界背后的規(guī)則與變量,并在不確定中作出正確決策。這需要的不只是生成力,更是推理力與適應(yīng)力。
原文標(biāo)題 : “絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進(jìn)階

發(fā)表評(píng)論
請輸入評(píng)論內(nèi)容...
請輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025 具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
8月14日立即報(bào)名>> 【在線研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 8 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 9 借仿生手實(shí)現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進(jìn)化