人形機器人,缺一個殺手級共識
作者|毛心如
蓄力助跑,僅憑一次嘗試,星動紀元 L7 就以 95.641cm 的成績,創(chuàng)下人形機器人跳高世界紀錄。
171cm 的身高,65kg 的體重,即便是普通人也未必能蹦出來這么高、這么標準的超級瑪麗跳。
盡管本屆世界人形機器人運動會上不乏各類「翻車」名場面,吸引了不少眼球,不可忽視的是,無論是跑步、跳高還是跳遠,這些項目都深度考驗了機器人「算法+硬件」高度耦合的能力。
與此同時,在本屆運動會中奪冠次數(shù)最多的宇樹科技,其創(chuàng)始人王興興在世界機器人大會論壇上的發(fā)言,卻因?qū)Ξ?dāng)前熱門的 VLA 路線提出質(zhì)疑,而被不少人稱為「炸裂發(fā)言」甚至「暴論」。
同樣作為冠軍團隊的星動紀元,其創(chuàng)始人陳建宇卻對 VLA 表達出與王興興不同的態(tài)度。
觀點分野的背后,實則是兩家公司對「如何讓機器人變得更強大」這一目標,所采取的不同實踐路徑——一條是「硬件先行」,另一條是「軟硬一體、垂直整合」。
垂直整合和硬件先行的觀念分野
兩位創(chuàng)始人的背景差異,在一定程度上預(yù)示了兩家公司的不同發(fā)展方向。
王興興是典型的工程師思維,宇樹科技也因此走上了「硬件先行」的道路;而陳建宇作為清華交叉信息研究院的教授,更具科學(xué)家視角,因此星動紀元選擇了「軟硬一體」的垂直整合路線。
雙方最顯著的觀點差異在對「VLA 是否可行」的判斷上。
陳建宇把 VLA 當(dāng)作一個廣義范式來理解,只要模型能把視覺、語言、行為整合并在物理世界執(zhí)行就屬于 VLA。
他認為,隨著生成式世界模型與強化學(xué)習(xí)的加入,端到端方法的能力正在被逐步證明。
因此星動紀元持續(xù)投入于軟硬一體、端到端 VLA、強化學(xué)習(xí)與世界模型的融合研發(fā),并在去年發(fā)布了端到端原生機器人大模型 ERA-42。
王興興對當(dāng)前機器人大火的 VLA 路線持懷疑態(tài)度,傾向于將更多資源投向「世界模型/視頻驅(qū)動」路線。
他認為如果模型只是表面地把視覺、語言和行動拼接起來,卻沒有穩(wěn)定的世界表示與預(yù)測能力,這樣的系統(tǒng)在真實世界交互時會暴露出短板,例如對數(shù)據(jù)質(zhì)量和多樣性的過度依賴、對長期規(guī)劃和因果推理能力不足等。
其次,在「模型-數(shù)據(jù)-硬件」的權(quán)重判斷上,兩家公司也有鮮明差異。
陳建宇堅持模型架構(gòu)是第一位,但數(shù)據(jù)的多樣性與質(zhì)量、硬件設(shè)計同等關(guān)鍵,三者共同決定機器人的性能上限,因此星動紀元走的是軟硬一體、同步推進的路線。
同時他也把如何用更少真機數(shù)據(jù)達到訓(xùn)練目標作為重要工程問題,并設(shè)計了數(shù)據(jù)金字塔與「預(yù)訓(xùn)練 + 真機微調(diào)」兩階段訓(xùn)練的策略。
王興興更強調(diào)模型決定數(shù)據(jù),即要先把模型范式搞清楚,避免將過多資源浪費在無效的數(shù)據(jù)收集或硬件上。他覺得現(xiàn)階段模型設(shè)計仍是瓶頸,模型能力不足會導(dǎo)致對數(shù)據(jù)量或數(shù)據(jù)種類的盲目追求。
同樣,對于「開源和生態(tài)」,陳建宇和王興興的關(guān)注點也有些差異。
陳建宇重視開源生態(tài)能帶來的協(xié)同作用,星動紀元有了仿人機器人強化學(xué)習(xí)框架 Humanoid Gym 及生成式大模型 VPP 等開源成果,認為開源能帶動生態(tài)繁榮并受益于社區(qū)迭代。
王興興關(guān)注更多的是構(gòu)建可復(fù)用的數(shù)據(jù)與模型資源,以及大規(guī)模分布式算力的工程實現(xiàn),即更在意「如何讓模型在多臺機器人、多場景下可復(fù)制」。
最后是在商業(yè)化節(jié)奏上,兩人對于短期落地的判斷也有所不同。
陳建宇傾向于 B 端場景先行,逐步過渡到家庭場景的路徑。他透露星動紀元已經(jīng)在部分真實的工業(yè)場景進行部署,目前已經(jīng)達到了 70% 多的人的效率,預(yù)計明年能達到 90% 左右。
這種選擇背后是對技術(shù)成熟度和市場接受度的務(wù)實考量,同時也符合軟硬一體技術(shù)的迭代需求。
王興興則采取了更加多元化的商業(yè)化策略。他毫不避諱地表示,宇樹科技的機器人目前主要還是干表演、參加格斗比賽,因為眼下干實際工作的本事,確實還不到家。
這種選擇是基于對技術(shù)發(fā)展階段的清醒認知,既然機器人暫時還無法勝任復(fù)雜的實際工作,不如先在娛樂展示場景中積累技術(shù)、資金和市場關(guān)注,等待技術(shù)拐點的到來。
值得一提的是,兩家在商業(yè)發(fā)展上也處在不同節(jié)點。
宇樹離 IPO 只有臨門一腳,需要一些「小步快跑」的策略維持經(jīng)濟性支撐,例如最近宇樹發(fā)布了新品人形機器人 R1、四足機器狗 A2,同時也預(yù)告了一款全尺寸的人形機器人。
星動紀元則是在今年完整搭建起「人形機器人-服務(wù)機器人-靈巧手-機器人大模型」這樣的全棧式體系。
區(qū)別于「宇樹模式」的端到端閉環(huán)架構(gòu)
區(qū)別于宇樹的「硬件先行」路徑,星動紀元走的是「軟硬一體、端到端 VLA + 強化學(xué)習(xí) + 世界模型融合」的路線。
宇樹模式強調(diào)硬件自研的核心地位,通過提升關(guān)節(jié)電機扭矩、優(yōu)化機械結(jié)構(gòu)等方式為機器人身體奠定高性能基礎(chǔ)。
而星動紀元則更傾向于將硬件與軟件視作一個整體系統(tǒng),認為唯有雙向深度耦合,才能釋放人形機器人在復(fù)雜環(huán)境中的最大潛能。
事實上,人形機器人的作業(yè)本質(zhì)已經(jīng)決定了軟硬件耦合發(fā)展的需求。
人形機器人要在復(fù)雜、動態(tài)的現(xiàn)實環(huán)境中完成抓取、搬運、行走等任務(wù),這些任務(wù)既依賴復(fù)雜的感知,也依賴高帶寬的運動執(zhí)行。
如果只專注「腦」或「身體」,都難以形成可落地的閉環(huán),只有將「感知-決策-執(zhí)行」的工程鏈路閉環(huán)并持續(xù)迭代,才能在復(fù)雜的真實世界中保持穩(wěn)定表現(xiàn)。
其次,端到端的即時反饋與高頻控制也具備顯著優(yōu)勢。傳統(tǒng)分階段的「感知—規(guī)劃—控制」架構(gòu)存在階段延遲與信息丟失情況,難以實現(xiàn)人類式的「看到馬上做、實時修正」反饋回路。
端到端策略可以把「視覺-語言-動作」耦合在一個學(xué)習(xí)體中,使機器人在遇到突發(fā)干擾時能快速適配,尤其在需要高頻、細粒度動作的任務(wù)中優(yōu)勢明顯。
從商業(yè)化角度看,完全押注「先做大腦」的公司將面臨漫長的交付周期;而采用軟硬一體、并行推進的策略,則能通過客戶與落地場景獲取寶貴的數(shù)據(jù)與工程反饋,反哺模型迭代。
星動紀元目前已在國內(nèi) B 端市場實現(xiàn)落地,通過真實場景數(shù)據(jù)驗證產(chǎn)品,形成技術(shù)閉環(huán),從而兼顧研究進展與商業(yè)需求。
在將抽象理論轉(zhuǎn)化為工程實踐的過程中,星動紀元構(gòu)建了自下而上共五個層級的技術(shù)系統(tǒng):
硬件層包括自研關(guān)節(jié)模組、直驅(qū)電機、減速器、靈巧手等。以跳高冠軍 L7 為例,其關(guān)節(jié)峰值扭矩、轉(zhuǎn)速與自由度等參數(shù)均體現(xiàn)出高動態(tài)動作的設(shè)計取向。硬件自研不僅為實現(xiàn)高性能,也為獲取更高質(zhì)量、可重復(fù)的真機訓(xùn)練數(shù)據(jù)。
實時控制層包含了低延遲驅(qū)動、關(guān)節(jié)級高頻控制器與動力學(xué)的在線求解模塊。
星動紀元在這一層既使用傳統(tǒng)控制理論的穩(wěn)定性保障手段,也集成了強化學(xué)習(xí),用于學(xué)習(xí)高維度運動策略。這種混合策略能在保證機器人在安全與穩(wěn)定的運動前提下,擴展可學(xué)動作的上限。
感知與世界模型層融合了多模態(tài)感知例如視覺、觸覺、深度等,并運行生成式的世界模型。目前星動紀元已經(jīng)在嘗試將生成式模型與世界模型結(jié)合,用于未來預(yù)測、認知與行為生成,即用模型去想象未來并據(jù)此產(chǎn)生動作。
協(xié)同端到端 VLA 大模型 ERA-42 與高層決策層則把視覺、語言和動作整合為端到端策略,覆蓋從場景理解、任務(wù)解析到動作輸出的閉環(huán)。
高層策略可借助預(yù)訓(xùn)練的視覺語言模型與生成式模塊,再在真機上通過強化學(xué)習(xí)微調(diào)以實現(xiàn)任務(wù)特化。
數(shù)據(jù)工程與訓(xùn)練平臺層包含仿真環(huán)境、數(shù)據(jù)標注及分布式訓(xùn)練集群。這些層級連成鏈條,形成了從硬件到模型、從仿真到真機、從開源到商業(yè)場景的「閉環(huán)加速器」。
而在這一體系的支持下,星動紀元已收獲了階段性工程成果:
L7 跳高奪冠,是其在「動力學(xué)設(shè)計、關(guān)節(jié)控制、算法整合」工程能力的實證。
靈巧手已進入穩(wěn)定量產(chǎn)階段,成本與穩(wěn)定性顯著優(yōu)化,與 VLA 控制整合實現(xiàn)手指高頻細粒度控制,從實驗室樣機邁向了工業(yè)級產(chǎn)品。
發(fā)表運控強化學(xué)習(xí)、世界模型融合與生成式 VLA 相關(guān)論文,開源 Humanoid Gym 與 VPP 等項目,推動行業(yè)協(xié)作。
在倉儲搬運、巡檢、文娛演示等工業(yè)場景完成商業(yè)化驗證,今年已累計交付超 300 臺產(chǎn)品,另有上百訂單在量產(chǎn)中,全球市值前十的科技公司中有 9 家為其客戶。
星動紀元的閉環(huán)體系及其成果,展示了技術(shù)落地的一種可能。而這也恰恰是當(dāng)前行業(yè)「百家爭鳴」的一個縮影。
而將視野從一家公司的實踐拉升至整個行業(yè),不難發(fā)現(xiàn),在陳建宇與王興興看似迥異的選擇背后,映射出的正是整個行業(yè)對于人形機器人未來的共同信仰。
分歧背后更多的是對行業(yè)的共同信仰
盡管陳建宇與王興興在技術(shù)路徑和商業(yè)策略上存在明顯差異,但在一些根本性問題上,二人有著高度共識。
他們都相信人形機器人是 AI 技術(shù)的終極載體之一,能夠影響人類社會生產(chǎn)和生活方式。
王興興預(yù)測,人形機器人的「ChatGPT 時刻」正在臨近,快則一兩年,慢則三五年,屆時機器人將能夠在一個完全陌生的環(huán)境中,聽懂各種復(fù)雜指令并順利執(zhí)行。
陳建宇也認同從機器工人到家庭伙伴的漸進式發(fā)展路徑,認為「最終殺手級的應(yīng)用,一定是在家庭里面」。
他們對技術(shù)本質(zhì)的理解也有異曲同工之處,即具身智能的本質(zhì)是「感知-決策-執(zhí)行」的閉環(huán),而非簡單的軟件或硬件突破。
王興興認為機器人最重要的還是 AI,而不是機器人的本體,但這并不意味著硬件不重要,而是指智能水平已成為當(dāng)前的主要瓶頸。
陳建宇則通過軟硬一體的實踐,證明了硬件性能邊界對智能能力的關(guān)鍵制約,只有足夠靈活的手才能執(zhí)行復(fù)雜的操作任務(wù),只有足夠強大的運動能力才能支持廣泛的工作范圍。
在軟硬協(xié)同的重要性上,兩人更是不謀而合。陳建宇雖然強調(diào)軟件的主導(dǎo)性,但始終承認硬件性能決定了模型的發(fā)揮上限;王興興雖堅守硬件先行,卻也在積極引入大模型提升機器人的自主決策能力。
這些共識背后,是行業(yè)對「機器人是系統(tǒng)工程」的共同認知,沒有強大的模型,硬件只是一堆精密的機械;沒有可靠的硬件,模型只能是實驗室里的算法。
從當(dāng)前的技術(shù)現(xiàn)狀到理想的通用具身智能,人形機器人行業(yè)仍需跨越多個發(fā)展階坎。通過陳建宇和王興興的觀點,或許可以勾勒出行業(yè)未來發(fā)展的可能路徑:
短期(1-3 年):端到端 VLA、世界模型、視頻生成等不同技術(shù)路徑將并行迭代、相互借鑒融合;領(lǐng)先企業(yè)將在特定工業(yè)場景實現(xiàn)小批量落地,驗證商業(yè)化可行性
中期(3-5 年):可能迎來「ChatGPT 時刻」,技術(shù)突破提升通用能力,行業(yè)逐漸形成統(tǒng)一技術(shù)標準,應(yīng)用場景從工業(yè)擴展到物流、醫(yī)療、零售等多個商業(yè)領(lǐng)域
長期(5-10 年):有望進入家庭成為「家庭伙伴」,但需解決安全性、可靠性、交互自然性等問題,技術(shù)也需持續(xù)突破迭代
事實上,陳建宇已經(jīng)將世界模型視為 VLA 范式下的一個重要演進方向,而王興興也并不完全否定端到端方法的價值。
未來,多元技術(shù)路徑也可能在行業(yè)發(fā)展過程中逐漸融合。端到端 VLA 模型可會吸收世界模型的預(yù)測和推理能力,提高在陌生環(huán)境中的表現(xiàn);世界模型也可能借鑒 VLA 的架構(gòu)設(shè)計,提升實時交互能力。
世界上沒有兩片完全相同的樹葉,在這場具身智能競爭中沒有一家企業(yè)在戰(zhàn)術(shù)、范式和工程焦點完全一致。
在范式尚未完全收斂的當(dāng)下,分歧越多,越可能引導(dǎo)行業(yè)找到通向正確結(jié)果的「捷徑」。
當(dāng)實踐檢驗與范式反思并行的同時彼此驗證,行業(yè)才能既快速落地,又不會過早陷入技術(shù)僵化。
從技術(shù)積累到產(chǎn)業(yè)化,從賽場的一次冠軍到變成家里一個可靠的助理,這個過程必然是長期且充滿不確定的。
未來幾年或許會是最具戲劇性也最關(guān)鍵的階段。只有在不斷反思底層范式的同時,把「技術(shù)-商業(yè)」閉環(huán)跑通,二者合力才能讓人形機器人變成可持續(xù)的生產(chǎn)力。
原文標題 : 人形機器人,缺一個殺手級共識

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字