智元機(jī)器人發(fā)布GO-1,「稚暉君」摸著DeepSeek過(guò)河?
機(jī)器人行業(yè)的DeepSeek-R1,被智元機(jī)器人開(kāi)發(fā)出來(lái)了?
華為天才少年計(jì)劃的經(jīng)歷,帶給了「稚暉君」彭志輝極高人氣,也讓他創(chuàng)辦的智元機(jī)器人獲得了行業(yè)頂級(jí)流量。但若技術(shù)實(shí)力與流量不匹配,最終這些流量難免化為輿論攻擊——就像日前涉嫌營(yíng)銷(xiāo)用力過(guò)猛的Manus一樣。
好在,智元機(jī)器人一次又一次展現(xiàn)出了自己的實(shí)力,日前其推出全球首個(gè)通用具身智能基座大模型智元啟元大模型(Genie Operator-1,以下簡(jiǎn)稱:GO-1),并計(jì)劃第一季度末對(duì)核心用戶開(kāi)源,允許用戶將其部署到自家機(jī)器人上。
(圖源:智元機(jī)器人)
在DeepSeek-R1面世之后,全球多個(gè)AI公司將旗下的大模型開(kāi)源,并承認(rèn)開(kāi)源方能加速推動(dòng)AI行業(yè)進(jìn)步。GO-1模型現(xiàn)階段開(kāi)源程度不如采用MIT開(kāi)源協(xié)議的DeepSeek-R1,但此前智元機(jī)器人已將用于訓(xùn)練GO-1模型的AgiBot World數(shù)據(jù)集、工具鏈、預(yù)訓(xùn)練模型統(tǒng)統(tǒng)開(kāi)源,未來(lái)很可能將GO-1核心代碼和模型開(kāi)源。
VLM+MoE,智元帶領(lǐng)機(jī)器人奔向AI時(shí)代
模型開(kāi)源智元機(jī)器人方能有機(jī)會(huì)成為機(jī)器人行業(yè)的DeepSeek,但開(kāi)源卻不代表一定能夠獲得媲美DeepSeek的地位,一切終究要實(shí)力說(shuō)話。
智元機(jī)器人開(kāi)發(fā)的GO-1模型基于Vision-Language-Latent-Action(ViLLA)架構(gòu),由多模態(tài)大模型(VLM)和混合專(zhuān)家(MoE)組合而成。VLM為具身基座大模型的主干網(wǎng)絡(luò),繼承了上海人工智能實(shí)驗(yàn)室開(kāi)發(fā)的開(kāi)源大模型InternVL-2B的權(quán)重,可實(shí)現(xiàn)場(chǎng)景感知和語(yǔ)言理解,并利用互聯(lián)網(wǎng)上的視頻和圖片數(shù)據(jù)訓(xùn)練自身。該模型還能融合多視角視覺(jué)、力覺(jué)信號(hào),賦予自身通用場(chǎng)景理解能力,從而實(shí)現(xiàn)更多復(fù)雜的操作。
MoE則分為隱式規(guī)劃器和動(dòng)作專(zhuān)家兩部分,隱式規(guī)劃器可利用互聯(lián)網(wǎng)上的人類(lèi)或跨本體視頻,基于VLM的中間層輸出潛在動(dòng)作令牌(Latent Action Tokens),形成規(guī)劃鏈(Chain of Planning),實(shí)現(xiàn)通用的動(dòng)作理解和規(guī)劃。動(dòng)作專(zhuān)家可借助仿真或真機(jī)數(shù)據(jù),優(yōu)化潛在動(dòng)作令牌的生成和輸出效率,并獲得高精度動(dòng)作的執(zhí)行能力。
(圖源:智元機(jī)器人)
其具備的動(dòng)態(tài)調(diào)節(jié)機(jī)制,還能實(shí)現(xiàn)圖像描述、OCR 解析等任務(wù)效率的提升,降低數(shù)據(jù)標(biāo)注成本和優(yōu)化資源分配。
基于ViLLA架構(gòu),GO-1模型構(gòu)建了數(shù)字金字塔,最基礎(chǔ)的互聯(lián)網(wǎng)純文本、圖文數(shù)據(jù),可幫助機(jī)器人理解通用知識(shí)和場(chǎng)景;第二層的大規(guī)模人類(lèi)或跨本體視頻,可幫助機(jī)器人學(xué)習(xí)人類(lèi)或其他本體的動(dòng)作操作模式;更高一層的仿真數(shù)據(jù)則能夠增強(qiáng)機(jī)器人的泛用性;最后由真機(jī)示教數(shù)據(jù)幫助機(jī)器人訓(xùn)練精準(zhǔn)動(dòng)作執(zhí)行能力。
在模型架構(gòu)之外,用于訓(xùn)練模型的數(shù)據(jù)同樣重要。最新版的AgiBot World包含1001552 條軌跡,覆蓋了家庭、零售、工業(yè)、餐廳、辦公五大關(guān)鍵場(chǎng)景,是目前全球最大的機(jī)器人真機(jī)示教數(shù)據(jù)集。
不同于普通軌跡不超過(guò)5秒的時(shí)間,AgiBot World中的軌跡跨度可達(dá)30秒左右,部分軌跡甚至長(zhǎng)達(dá)2分鐘。智元機(jī)器人官方數(shù)據(jù)顯示,AgiBot World所采用的預(yù)訓(xùn)練模式,相較谷歌Open X-Embodiment訓(xùn)練策略平均性能提升30%,相較現(xiàn)有機(jī)器人大模型完成復(fù)雜操作的平均成功率提高了32%。
(圖源:智元機(jī)器人)
與傳統(tǒng)機(jī)器人模型相比,GO-1模型在架構(gòu)、數(shù)據(jù)、預(yù)訓(xùn)練模式等方面均有所改進(jìn),提升了資源利用效率和模型的能力,能夠大幅降低機(jī)器人訓(xùn)練和執(zhí)行操作所需的成本,作用與DeepSeek-R模型較為相似。二者相比,GO-1模型差的可能只有開(kāi)源模式。
NVIDIA CEO黃仁勛曾預(yù)言,兩三年內(nèi)機(jī)器人行業(yè)將迎來(lái)重大突破,未來(lái)會(huì)像汽車(chē)一樣普及。在機(jī)器人技術(shù)從生澀走向成熟的今天,智元機(jī)器人也在不斷推動(dòng)產(chǎn)品量產(chǎn),日前1000臺(tái)機(jī)器人量產(chǎn)下線,已面向全球開(kāi)源的靈犀X1也完成了首批交付,靈犀X2于3月11日在上海發(fā)布,功能更加強(qiáng)大。在未來(lái)機(jī)器人行業(yè)的競(jìng)爭(zhēng)中,GO-1模型或?qū)⒊蔀橹窃獧C(jī)器人的核心競(jìng)爭(zhēng)力之一。
降低門(mén)檻,GO-1要做下一個(gè)DeepSeek-R1?
阿加犀智能科技有限公司CEO孫曉剛表示,按照目前機(jī)器人行業(yè)的發(fā)展進(jìn)程,三五年內(nèi)機(jī)器人的價(jià)格降到5萬(wàn)元以內(nèi)沒(méi)有問(wèn)題。
5萬(wàn)元以內(nèi)的機(jī)器人,已處于普通消費(fèi)者可以接受的范圍,但購(gòu)買(mǎi)的前提是其功能足夠強(qiáng)大,可以幫助我們處理一些生活瑣事。決定機(jī)器人能力的關(guān)鍵,在于硬件和智能兩方面,GO-1模型要做的就是提高機(jī)器人的智能程度。
ViLLA架構(gòu)賦予了GO-1模型通過(guò)人類(lèi)視頻學(xué)習(xí)的能力,互聯(lián)網(wǎng)上龐大的視頻資源,都將成為機(jī)器人進(jìn)化的「養(yǎng)料」,讓機(jī)器人能夠更高效地完成復(fù)雜操作。
其次,小樣本快速泛化特性令GO-1模型可以在數(shù)據(jù)量極少,甚至零樣本的情況下,泛化到新場(chǎng)景,無(wú)需龐大的數(shù)據(jù),從而大幅減少訓(xùn)練成本,降低機(jī)器人行業(yè)的門(mén)檻。
最關(guān)鍵的是,GO-1屬于「一腦多形」通用機(jī)器人模型,能夠在兩足、輪足等不同類(lèi)型機(jī)器人之間遷移和快速適配。不同類(lèi)型的機(jī)器人可能需要完全不同的AI大模型,用于適配機(jī)器人硬件的工作模式,是開(kāi)發(fā)機(jī)器人企業(yè)的難點(diǎn)之一。GO-1模型打破常規(guī),可以輕松適配各種機(jī)器人,無(wú)疑能夠進(jìn)一步降低機(jī)器人模型的開(kāi)發(fā)、適配成本。
(圖源:智元機(jī)器人)
另外,GO-1模型還具備持續(xù)進(jìn)化能力,日常工作中遇到的問(wèn)題,數(shù)據(jù)都會(huì)回流至系統(tǒng),用于機(jī)器人的訓(xùn)練和功能升級(jí)。
盡管GO-1模型僅在本月底面向核心用戶開(kāi)源,但從功能特性不難看出,GO-1已經(jīng)把「我會(huì)開(kāi)源」寫(xiě)在了臉上,整個(gè)大模型幾乎完全面向提升能力、降低成本兩方面。小樣本快速泛化和一腦多形能力,令實(shí)力底蘊(yùn)不足的機(jī)器人企業(yè),也能借助GO-1模型快速開(kāi)發(fā)出適合機(jī)器人產(chǎn)品的AI系統(tǒng),并借助國(guó)內(nèi)日漸成熟的機(jī)器人供應(yīng)鏈實(shí)現(xiàn)產(chǎn)品量產(chǎn)。
與新能源汽車(chē)行業(yè)類(lèi)似,機(jī)器人時(shí)代的到來(lái)是一次機(jī)遇,比亞迪、小鵬、賽力斯等車(chē)企已紛紛入場(chǎng),還有許多知名度不高的小企業(yè)加入,究竟哪些企業(yè)能夠成長(zhǎng)為頭部品牌,暫時(shí)無(wú)法確定。赫赫有名的宇樹(shù)科技有望成為機(jī)器人行業(yè)的比亞迪,開(kāi)發(fā)GO-1模型的智元機(jī)器人則擁有成為「蔚小理」的機(jī)會(huì)。
同樣的,機(jī)器人行業(yè)的發(fā)展之路,也會(huì)有許多企業(yè)掉隊(duì)。不同的是,新能源汽車(chē)行業(yè)工業(yè)實(shí)力的重要性大于AI能力,而機(jī)器人領(lǐng)域AI能力的重要性至少持平工業(yè)實(shí)力,甚至更勝一籌。而且在機(jī)器人行業(yè)發(fā)展過(guò)程中,供應(yīng)鏈將不斷整合,硬件會(huì)收斂,機(jī)器人最終比拼的是智能化。
(圖源:智元機(jī)器人)
正如智元新創(chuàng)技術(shù)有限公司研究院執(zhí)行院長(zhǎng)、具身業(yè)務(wù)部總裁姚卯青所言,對(duì)機(jī)器人公司,你如果不做大模型,那是屬于沒(méi)有未來(lái)的機(jī)器人,沒(méi)有智能化,沒(méi)有作業(yè)能力只是一個(gè)硬件。
智元機(jī)器人推出的遠(yuǎn)征、靈犀、絕塵等多品類(lèi)機(jī)器人,無(wú)法發(fā)揮GO-1模型的全部?jī)r(jià)值,將其開(kāi)源并允許其他企業(yè)修改、部署、商用,方能最大限度挖掘GO-1模型的價(jià)值,并起到推動(dòng)機(jī)器人行業(yè)發(fā)展的作用。
向核心用戶開(kāi)源模型只是開(kāi)始,未來(lái)GO-1模型很可能面向全行業(yè)開(kāi)源,增強(qiáng)其他機(jī)器人企業(yè)的實(shí)力。開(kāi)源后的GO-1模型,才能獲得DeepSeek-R1的地位,成為行業(yè)發(fā)展的推動(dòng)者。智元機(jī)器人自身也是硬件產(chǎn)品開(kāi)發(fā)公司,借助GO-1的聲望,或?qū)⑦M(jìn)一步打響知名度,并提高產(chǎn)品銷(xiāo)量,而非如現(xiàn)在一般,提到智元機(jī)器人和彭志輝,大家首先想到的是華為天才少年計(jì)劃出身的身份。
原文標(biāo)題 : 智元機(jī)器人發(fā)布GO-1,「稚暉君」摸著DeepSeek過(guò)河?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市