訂閱
糾錯(cuò)
加入自媒體

商湯在下一盤具身智能的大棋

面對(duì)產(chǎn)業(yè)轉(zhuǎn)折點(diǎn),商湯將發(fā)布具身智能“大腦”計(jì)劃。

文|趙艷秋 周路平

編|牛慧

2025世界人工智能大會(huì)(WAIC2025)將在本周末火爆開場(chǎng)。近日,商湯科技提前釋放出重要消息:將在大會(huì)上揭曉一款全新的具身智能“大腦”。

據(jù)商湯官方公眾號(hào)預(yù)告,7月27日的WAIC2025大模型論壇中,商湯將揭曉這款集成了感知能力、視覺導(dǎo)航、多模態(tài)交互的智能“大腦”系統(tǒng),為機(jī)器人、智能設(shè)備等智能終端提供賦能。

實(shí)際上,商湯入局具身智能“大腦”賽場(chǎng),業(yè)界并未感到意外。具身智能的研究與產(chǎn)業(yè)落地,主要由兩路人馬推進(jìn):一路是計(jì)算機(jī)視覺領(lǐng)域的研究和從業(yè)者,如李飛飛;另一路是機(jī)器人領(lǐng)域的從業(yè)者。而商湯起家于計(jì)算機(jī)視覺,如今加碼具身智能,不僅在情理之中,甚至可以說(shuō),這是它必然要落子的一步。

01

布局具身智能“大腦”

具身智能“大腦”已成為全球人工智能的核心競(jìng)爭(zhēng)點(diǎn)。OpenAI與機(jī)器人公司Figure AI聯(lián)手打造通用機(jī)器人,谷歌推出具身智能RT-2模型,英偉達(dá)聚焦世界模型和仿真。國(guó)內(nèi)如華為也在今年6月剛發(fā)布包含“大腦”的CloudRobo具身智能平臺(tái)。商湯則是最早一批入局者,在不斷演化其技術(shù)路徑。

為何全球科技企業(yè)對(duì)這一賽道高度重視?實(shí)際上,本輪具身智能熱潮,本質(zhì)上就是大模型與機(jī)器人技術(shù)的深度融合帶來(lái)的。在“前大模型時(shí)代”,機(jī)器人是“只會(huì)一種技能的工人”——送餐的不會(huì)打螺絲,打螺絲的不會(huì)倒咖啡。本體泛化、任務(wù)泛化和場(chǎng)景泛化,成為具身智能三大瓶頸。

轉(zhuǎn)折發(fā)生在2022年。隨著ChatGPT等大模型的崛起,人工智能具備了自然語(yǔ)言理解、內(nèi)容生成和深度推理能力,業(yè)界開始設(shè)想,能否讓機(jī)器人擁有一個(gè)“更聰明的大腦”?這樣,它就能打破本體限制,完成更復(fù)雜、更靈活的任務(wù)。

這便是具身智能“大腦”的重要意義。不過(guò),目前該領(lǐng)域仍處在探索階段,技術(shù)路線還未“收斂”。一些業(yè)內(nèi)人士提出,當(dāng)前主要有三種:

VLA 模型(Vision-Language-Action):輸入語(yǔ)言+圖像,輸出動(dòng)作。優(yōu)勢(shì)是結(jié)構(gòu)簡(jiǎn)潔,但在物理屬性識(shí)別、利用物理規(guī)律與足夠的控制軌跡上存在不足。

“大小腦”架構(gòu):將“規(guī)劃”與“執(zhí)行”分工,提高系統(tǒng)的模塊化和解釋性,但仍面臨泛化挑戰(zhàn)。

世界模型:對(duì)比前兩者,雄心則更大,對(duì)環(huán)境狀態(tài)、物理規(guī)律、時(shí)序邏輯等進(jìn)行建模,強(qiáng)調(diào)多模態(tài)信息融合和推理能力,目標(biāo)是讓智能體理解世界、預(yù)測(cè)變化、規(guī)劃行為。

從商湯目前披露的信息看,雖然未明確押注某一技術(shù)路線,但其分階段演進(jìn)的方式,指向了對(duì)“世界模型”能力的持續(xù)積累。

在過(guò)去幾年,商湯在具身智能“大腦”上的探索和布局似乎可分為四個(gè)階段:

第一步:從“看”到“動(dòng)”,構(gòu)建視覺-感知-決策閉環(huán)。

2022年8月,商湯推出家用機(jī)器人“元蘿卜”,首次將視覺算法與機(jī)械手深度結(jié)合,完成棋子識(shí)別與遮擋環(huán)境下的精準(zhǔn)抓取。這標(biāo)志著商湯初步建立了“視覺-感知-決策”的閉環(huán),機(jī)器人開始具備與物理世界互動(dòng)的基礎(chǔ)框架。

傳統(tǒng)人工智能是“開環(huán)”的,坐在云端“思考”、“看見”世界。但一旦涉及操作,就要形成一個(gè)復(fù)雜的閉環(huán)——感知必須轉(zhuǎn)化為“理解”,并進(jìn)一步驅(qū)動(dòng)動(dòng)作執(zhí)行。這是具身智能的出發(fā)點(diǎn)。

第二步:“日日新V5.5 - V6”發(fā)布,多模態(tài)融合與推理能力邁向認(rèn)知中樞。

2025年4月,商湯推出“日日新V6”多模態(tài)大模型,核心突破在于模態(tài)融合,支持長(zhǎng)思維鏈、多模態(tài)推理與規(guī)劃能力,嘗試解決長(zhǎng)期困擾具身智能的難題——稍微復(fù)雜、步驟多、時(shí)間跨度長(zhǎng),傳統(tǒng)系統(tǒng)就“斷鏈”。就像是機(jī)器人的“大腦皮層”,從“接收信號(hào)”躍升到“理解意圖”。

極為重要的是,它已被傅利葉、歸墟等機(jī)器人公司接入合作,意味著商湯具備了平臺(tái)級(jí)技術(shù)輸出能力,從研發(fā)走向產(chǎn)業(yè)賦能,進(jìn)入戰(zhàn)略躍遷階段。

這一系列能力的進(jìn)化并非一蹴而就。早在2024年7月商湯發(fā)布的“日日新V5.5”,是這一融合路線的重要中繼站:基于6000億參數(shù)模型性能升級(jí),廣泛引入合成高階思維鏈數(shù)據(jù),在數(shù)理邏輯、指令跟隨等方面表現(xiàn)突出,并首次推出原生流式多模態(tài)交互體驗(yàn)?zāi)P?ldquo;日日新5o”,推動(dòng)AI從“響應(yīng)輸入”走向“理解場(chǎng)景”。

此外,“日日新5.5 Lite”等端側(cè)模型也大幅提升效率與普及能力,拉近大模型與用戶之間的距離。

2024年底,商湯更是率先推出“日日新融合大模型”,領(lǐng)先實(shí)現(xiàn)原生融合模態(tài)訓(xùn)練,成功打破語(yǔ)言模型與多模態(tài)模型各自為政的局限。該模型在SuperCLUE和OpenCompass兩大權(quán)威榜單中同時(shí)奪冠,成為“雙冠王”,意味著商湯首次在深度推理與多模態(tài)融合領(lǐng)域?qū)崿F(xiàn)“模型一統(tǒng)”的實(shí)質(zhì)性突破,這一系列創(chuàng)新,為V6的能力躍升創(chuàng)造了條件。

第三步:“大腦”平臺(tái)化,走向世界模型。

接下來(lái),商湯即將發(fā)布具身智能“大腦平臺(tái)”,標(biāo)志著其從單點(diǎn)能力向系統(tǒng)能力的整合與躍升。

而且,商湯在智駕領(lǐng)域布局積累很早。世界模型是其重點(diǎn)突破方向。商湯智駕品牌“絕影”構(gòu)建的“開悟”,已經(jīng)能理解物理規(guī)律、學(xué)習(xí)交通規(guī)則,在實(shí)際場(chǎng)景中落地。

而車和機(jī)器人,本質(zhì)上都是具身智能體。具備感知、導(dǎo)航、交互等能力,是它們的共同訴求。商湯或?qū)⒆詣?dòng)駕駛中構(gòu)建的“世界模型”經(jīng)驗(yàn)遷移到機(jī)器人領(lǐng)域,推動(dòng)具身智能大腦的的進(jìn)一步演進(jìn)。

這次產(chǎn)品發(fā)布,標(biāo)志著商湯具身智能戰(zhàn)略,進(jìn)入“平臺(tái)化”的新階段,并走向產(chǎn)業(yè)輸出。背后是商湯長(zhǎng)期的技術(shù)預(yù)埋與戰(zhàn)略耐心。

02

商湯的準(zhǔn)備

除了具身智能的大腦,商湯通過(guò)WAIC 2025釋放了另外一個(gè)明確信號(hào):具身智能是“算力密度×數(shù)據(jù)密度×生態(tài)密度”的競(jìng)爭(zhēng)

這幾年,算力需求井噴,算力的密度很大程度上決定了模型演進(jìn)和應(yīng)用落地的速度,尤其是具身智能需要實(shí)現(xiàn)對(duì)物理世界的感知和理解,涉及多種模態(tài),對(duì)算力的消耗有增無(wú)減。

有數(shù)據(jù)統(tǒng)計(jì),具身智能場(chǎng)景的算力消耗占比已從2023年的12%躍升至28%。而英偉達(dá)的芯片在今年一季度的銷售額,有30%流向具身智能設(shè)備。

過(guò)去多年,商湯在算力上的投資巨大。早在2018年,商湯就打造了國(guó)內(nèi)首個(gè)AI千卡集群原型機(jī)。兩年后,又建立了國(guó)內(nèi)首個(gè)智算中心。到2024年底,商湯大裝置的算力規(guī)模達(dá)到23000PetaFlops,超過(guò)了一些主要大城市的公共智能算力。今年4月,商湯又發(fā)布了商湯大裝置SenseCore 2.0,朝著“最懂大模型的AI基礎(chǔ)設(shè)施”發(fā)力。

商湯做大裝置,其初心是提高AI模型的生產(chǎn)效率和降低使用成本。但大裝置+大模型的結(jié)合,讓商湯在算力層面的能力得到了大幅提升。比如商湯對(duì)模型推理過(guò)程,做預(yù)填充和解碼的分離,提升GPU硬件利用率并降低推理延遲。

商湯大裝置已幫商湯拿下了不少智算和大模型訂單。比如南方電網(wǎng)基于商湯大裝置,實(shí)現(xiàn)從模型、平臺(tái)算法到底層算力的100%國(guó)產(chǎn)化,構(gòu)建了全棧國(guó)產(chǎn)電力AI基礎(chǔ)設(shè)施。而一家基建行業(yè)頭部設(shè)計(jì)院依托商湯大裝置的國(guó)產(chǎn)芯片及底座平臺(tái),開發(fā)了工程勘察設(shè)計(jì)領(lǐng)域大語(yǔ)言模型、多模態(tài)大模型,解決了知識(shí)傳承困難、融合性差和應(yīng)用程度低等難題。

IDC的報(bào)告顯示,商湯大裝置在2024年下半年穩(wěn)居國(guó)內(nèi)AI大模型解決方案市場(chǎng)第二位。

如今,商湯已經(jīng)成長(zhǎng)為“大裝置-大模型-應(yīng)用”三位一體的AI廠商。

除了算力,高質(zhì)量數(shù)據(jù)是具身智能發(fā)展的一大卡點(diǎn)。盡管大腦架構(gòu)和技術(shù)路線正在快速演化,但所有路線最終都繞不開一個(gè)共識(shí):數(shù)據(jù),是具身智能最難啃的那塊骨頭。

而且有業(yè)內(nèi)人士提出,具身智能和大模型一樣,同樣存在Scaling Law。在他們的試驗(yàn)中,每多采10倍數(shù)據(jù),機(jī)器人錯(cuò)誤率就會(huì)降低大約10倍。如果想從99%的成功率提高到99.9%,意味著要多采10倍數(shù)據(jù),但成本也呈指數(shù)級(jí)上升。

目前,具身智能的高質(zhì)量數(shù)據(jù)來(lái)自于線下采集的真實(shí)數(shù)據(jù)、仿真合成數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù)。但兩者各有優(yōu)劣。比如特斯拉和Google都選擇用搖操獲取數(shù)據(jù),但背后的成本投入巨大。據(jù)悉,Google 做十幾萬(wàn)條數(shù)據(jù),用時(shí)十多個(gè)月,花了上千萬(wàn)美元。

在業(yè)內(nèi)看來(lái),更加現(xiàn)實(shí)的做法是,利用互聯(lián)網(wǎng)視頻數(shù)據(jù)、合成數(shù)據(jù),直接做到幾個(gè)9,再用真實(shí)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)。

人類80%以上的信息獲取來(lái)自視覺,商湯是以機(jī)器視覺起家,在視覺信息的處理上,有著一系列經(jīng)驗(yàn)技術(shù)。

同時(shí),商湯也在推動(dòng)融合模態(tài)的數(shù)據(jù)合成與融合任務(wù)的增強(qiáng)訓(xùn)練。比如在預(yù)訓(xùn)練階段,商湯不僅采用了天然存在的海量圖文交錯(cuò)數(shù)據(jù),還通過(guò)逆渲染、基于混合語(yǔ)義的圖像生成等方法合成了大量融合模態(tài)數(shù)據(jù)。在后訓(xùn)練階段,商湯構(gòu)建了大量的跨模態(tài)任務(wù),包括視頻交互、多模態(tài)文檔分析、城市場(chǎng)景理解、車載場(chǎng)景理解等。

另外,除了算力、數(shù)據(jù)、模型等底層能力的積累,商湯在生態(tài)方面也在持續(xù)投入,通過(guò)旗下私募基金國(guó)香資本投資了一批具身智能企業(yè),包括銀河通用機(jī)器人、眾擎機(jī)器人、鈦虎機(jī)器人、鹿明機(jī)器人等十幾家企業(yè)。這些企業(yè)覆蓋了具身智能全產(chǎn)業(yè)鏈,比如眾擎機(jī)器人主攻本體和運(yùn)控,鈦虎機(jī)器人主攻關(guān)節(jié)模組。

這種生態(tài)密度,讓商湯比其他大模型廠商更貼近產(chǎn)業(yè)需求,了解產(chǎn)業(yè)動(dòng)向。同時(shí)這些被投企業(yè)又給商湯提供了豐富的落地場(chǎng)景和真實(shí)數(shù)據(jù),加速產(chǎn)業(yè)落地。

不難發(fā)現(xiàn),從算力基礎(chǔ)設(shè)施,再到數(shù)據(jù)和生態(tài),商湯在具身智能所需的各環(huán)節(jié),也都在悄然押注和投入。

商湯即將推出具身智能“大腦”,恰逢2025年該產(chǎn)業(yè)由概念驗(yàn)證走向初步產(chǎn)品化、平臺(tái)化的關(guān)鍵拐點(diǎn)大模型與機(jī)器人融合,正加速?gòu)膶?shí)驗(yàn)室走向現(xiàn)實(shí)世界。頭部科技公司和研究機(jī)構(gòu)的布局提速,已經(jīng)掀起了具身智能的競(jìng)爭(zhēng)熱潮。

與此同時(shí),政策與資本的雙重推力也不容小覷:2025年政府工作報(bào)告中,具身智能作為新興產(chǎn)業(yè)首次被寫入其中。具身智能正在制造、無(wú)人零售、接待、健康醫(yī)療等產(chǎn)業(yè)滲透。僅在今年上半年,具身智能相關(guān)領(lǐng)域融資金額已經(jīng)超過(guò)了200億元,融資事件達(dá)130件,遠(yuǎn)超2024年全年。具身智能的 “黃金時(shí)代” 已悄然拉開序幕。

從商湯在具身智能“大腦”的技術(shù)布局以及其在算力、數(shù)據(jù)、生態(tài)等關(guān)鍵環(huán)節(jié)形成閉環(huán)能力來(lái)看,其在具身智能領(lǐng)域絕非偶然的戰(zhàn)略試探,而是其基于技術(shù)基因的必然延伸,更有望成為撬動(dòng)其第二增長(zhǎng)曲線的最佳支點(diǎn)。

從一系列信息的分析看,商湯在具身智能領(lǐng)域的動(dòng)作,既是對(duì)自身能力邊界的重構(gòu),更是對(duì)下一代智能形態(tài)的提前卡位。當(dāng)機(jī)器人與智能設(shè)備真正成為 “有大腦的具身智能體”之后,具身智能,或?qū)⒊蔀樯虦兆∵B接未來(lái)的關(guān)鍵鑰匙。

       原文標(biāo)題 : 商湯在下一盤具身智能的大棋

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)