訂閱
糾錯
加入自媒體

這屆機器人火力全開,不止炫技更要落地

作者|白雪 毛心如

「這不是機器人的春天,這是機器人的夏天」。

這可能是世界機器人大會舉辦 10 年以來最熱鬧、最有門道的一屆。

一方面參展企業(yè)達到歷史高峰,200 余家國內(nèi)外機器人企業(yè)參展,1500 余件展品。

更最重要的是,這屆機器人動起來了。

一位連續(xù)參加了 6 年大會的展會人員提到:「去年和今年變化很大,去年機器人都是被架起來的,今年都動起來了!

世界機器人大會也是機器人產(chǎn)業(yè)鏈的眾生相。聚集機器人本體的 B 館人潮洶涌,一進門眾擎、逐際動力、傅利葉鎮(zhèn)場,魔法原子、維他動力、千尋智能、星海圖齊齊排開,但凡展位有拳擊比賽、跳舞表演,別想了,擠都擠不進去。

A 館則聚集著宇樹、優(yōu)必選、智平方、越疆機器人等等明星機器人公司。

C 館主要聚集著為機器人行業(yè)提供軟硬件解決方案、核心零部件的供應商,比如禾賽科技、速騰聚創(chuàng)、靈心巧手、靈巧智能、傲意科技等等。

熱鬧背后,機器人正在從遙操、編程走向自主思考,從炫技表演走向場景化落地應用。但再往前走一步,食物鏈最頂端的人形機器人遠未走到商業(yè)化落地,一臺開發(fā)價格大幾百萬的人形機器人,要么靠融資,要么靠著公司賣配送機器人的盈利養(yǎng)活工程師團隊。

每一家企業(yè)都非常用力想要自己看起來更性感。

當你看倦了機器人鏟爆米花的時候,就會冷不丁瞅見有家長推著坐輪椅的孩子在了解下肢外骨骼機器人,這時候才會發(fā)現(xiàn),技術(shù)滾滾向前,它并沒有落下任何人。

有人說這場大會沒有共識,并非如此。算法與數(shù)據(jù)之爭,真實與仿真數(shù)據(jù)之爭,模型能力之爭,機器人形態(tài)之爭。這些爭論恰好是構(gòu)成機器人大亂斗時代的基礎。

所有機器人公司所追求具身智能的先進形態(tài)、瘋狂開屏的樣子,恰恰是這場大會的絕妙之處。

這一次我們試圖從機器人大腦、芯片、本體、眼睛、手五大關(guān)鍵領域梳理行業(yè)初步共識。

機器人大腦:VLA 成萬模之源,有思考能力才是完全進化形態(tài)

通用機器人=通用大腦+通用本體,這是行業(yè)內(nèi)對于通用機器人基本的認知。

在逛完 WRC 之后,所有廠家的通用大腦可以分為三種能力等級:

初級:機器人動作主要依靠遙操和編程,比如機器人背后站著一位神秘的黑衣人,這就是人類操作員在操控機器人。

中級:能在部分場景內(nèi)實現(xiàn)一定的自主思考能力,比如能夠在快遞場景自主分揀貨物等。

高級:具備高度跨場景泛化能力,在大部分場景都具備自主思考能力,而目前具備此能力的產(chǎn)品還尚未出現(xiàn),主要是因為 VLA 模型仍然處于實驗室階段。

高級別能力可以理解為機器人大腦的臨界點。王興興舉例,機器人的臨界點應該是即便機器人來到陌生的會場,只要跟它說把這瓶水帶給觀眾,它就能完成獨立完成。

而要達到這一等級的自主思考能力,業(yè)內(nèi)主流方案是向 VLA 模型發(fā)展。這種模型可以將視覺感知、語言理解和物理動作融為一體,讓機器人能夠聽懂人的指令看懂當前的環(huán)境,最終通過理解語言之后,有自我意識去完成任務。

WRC 最明顯的趨勢就是機器人大腦圍繞 VLA 模型「萬模齊開」,代表企業(yè)星動紀元、星海圖、千尋智能、銀河通用、靈初智能等等。

去年 12 月,清華大學唯一持股的企業(yè)星動紀元發(fā)布了強化學習訓練具身大模型的算法框架 iRe-VLA。

將其融合到具身大模型 ERA-42 中,可以通過同一個端到端 VLA 模型,用語音控制高自由度人形機器人的全身靈巧操作,比如柔性物品分揀、掃碼等等。

在 WRC 上,星動紀元將具身智能大模型 ERA-42 應用到全尺寸人形機器人星動 L7 中,在現(xiàn)場物流模擬場景中,多臺星動 L7 不依靠編程,就可以協(xié)同工作:一臺負責智能分揀包裹,另一臺負責智能掃碼,即便遇到包裹的二維碼在另一面,也能自主翻面,識別二維碼,學習能力提升程度很高。

類似的,靈初智能在今年也基于強化學習(RL)的端到端具身 VLA 模型 Psi-R1。

Psi R1 模型提出了快慢腦分層架構(gòu),慢腦 S2 系統(tǒng)專注于推理,輸入 VLA 模型中的殊絕語言以及動作信息,負責場景抽象理解、任務規(guī)劃決策。另一個快腦 S1 專注于高精度的控制。

比較大的變化是,Psi R1 模型會結(jié)合歷史動作與當前環(huán)境狀態(tài),理解動作的長期影響,最長可以完成時長 30 分鐘以上的 CoAT 長線思維鏈。

在 WRC 上,靈初智能的麻將機器人「大秀特秀」,可以和現(xiàn)場觀眾完成一場 30 分鐘以上的麻將對局,最驚艷的就是自主完成碰杠這類博弈決策,這類動作展示就是 VLA 模型動態(tài)構(gòu)建決策鏈的能力。

銀河通用也采用了端到端具身抓取基礎大模型 GraspVLA,在 WRC 上嶄露頭角。

GraspVLA 主要由 VLM 骨干網(wǎng)絡模塊+動作專家模塊組成,其中 VLM 包括了一個 1.8B 的大語言模型,一個視覺編碼器以及一個可訓練投影器。

最終 VLM 模塊負責視覺觀察和文本指令,動作模塊負責動作生成。

銀河通用強調(diào)的優(yōu)勢在于其模型訓練采用通才+專才訓練,通才就是利用十億幀的仿真渲染數(shù)據(jù)來強化模型泛化能力,熟悉物體的環(huán)境變化,專才就在特定場景下進行真實數(shù)據(jù)的針對性場景訓練。

銀河通用專門面向零售行業(yè)開發(fā)了端到端具身大模型 GroceryVLA,在 WRC 展臺上,銀河通用為其人形機器人 Galbot 開辟了小超市,即便 SKU 和商品包裝品類各不相同,Galbot 仍然可以分辨材質(zhì),根據(jù)訂單精準識別、抓取商品,交給顧客。

星海圖此次也躬身入局 VLA 模型,在 WRC 上首次帶來了「真端到端+真全身控制」的 VLA 模型 G0,這套模型已經(jīng)可以通過語音讓機器人獨立在房間里整理床鋪了。

即便 VLA 模型已經(jīng)今年機器人大腦的熱詞,但同樣是 VLA,各家的技能點也各不相同。

星動紀元創(chuàng)始人陳建宇認為,接下來決定機器人大腦能力有三點:

模型架構(gòu)決定大腦能力上限、數(shù)據(jù)豐富度和數(shù)據(jù)質(zhì)量決定動作的完成度,本體的好壞和負責都決定執(zhí)行的上限。

因此,面向 VLA 的模型開發(fā)仍然是一場漫長的進修之路。

機器人芯片:英偉達、地瓜機器人齊刷臉

本屆 WRC 無疑成為了各家機器人的「演武場」,芯片作為機器人「大腦」的關(guān)鍵組成部分,是決定機器人感知與決策能力的關(guān)鍵部件。

在眾多機器人靈活大腦的背后,其實都有兩位賣鏟人的身影,一個是英偉達,一個是地瓜機器人。

兩位賣鏟人展現(xiàn)了截然不同的機器人算力路線,英偉達代表的是「高端通用算力+仿真/訓練生態(tài)」,面向需要大模型感知、端側(cè)高并發(fā)推理與復雜仿真的場景;地瓜機器人代表的是「低成本/定制化算控一體+開發(fā)者生態(tài)」,主攻消費級與結(jié)構(gòu)化場景的規(guī)模化落地。

作為國內(nèi)具身智能兩家頭部公司,宇樹科技和銀河通用成為了英偉達的客戶。

銀河通用的 G1 Premium 人形機器人,是首批搭載 NVIDIA Jetson Thor 的人形機器人之一,在工業(yè)碼垛、拆垛及物料箱搬運等復雜場景中展現(xiàn)出流暢性與作業(yè)速度。

宇樹科技則在其新型人形機器人 R1 上部署了英偉達全棧機器人技術(shù),通過 Isaac Sim 高仿真平臺優(yōu)化運動與操控能力,并借助 Isaac Lab 系統(tǒng)實現(xiàn)快速策略迭代。

除此之外,像踢足球的加速進化 Booster T1,采用的是 Nvidia AGX Orin,提供 200 TOPS AI 算力;星海圖公司的 R1 系列采用的都是 NVIDIA Jetson AGX Orin 32GB;眾擎的 SE01 采用的是 NVIDIA Jetson Orin Nano。

地瓜機器人此次也展示了 5 家合作伙伴的落地應用,涵蓋了從機械臂到四足機器人再到人形機器人。

維他動力的全地形自主移動伴隨機器人 Vbot 部署了地瓜機器人 RDK S100P 作為 AI 大腦,憑借 128TOPS 端側(cè)算力和自動駕駛級傳感器系統(tǒng),能夠?qū)崿F(xiàn)「看得見、聽得見、會思考、能對話」。

大象機器人的 myCobot 280 RDK X5 機械臂采用的是地瓜機器人 RDK X5 作為 AI 計算平臺,具有 10TOPS 算力,支持 100+開源算法模型,覆蓋 YOLO World、VSLAM、目標檢測、語義交互等場景。

而國地共建的青龍機器人則搭載地瓜機器人 RDK S100P 智能計算平臺,憑借 128TOPS 端側(cè) AI 算力,實現(xiàn)「語音-視覺-抓取」全鏈路閉環(huán)。

從芯片應用上,也能發(fā)現(xiàn)「大小腦協(xié)同」將成為常態(tài)。

把實時控制、低延遲決策放在本地的小腦如 MCU,把復雜感知與高層規(guī)劃放到高算力的「大腦」例如 GPU、BPU、NPU 等,由此形成成本與能力兼顧的系統(tǒng)。

地瓜機器人在 RDK S100 的設計理念即主張這種異構(gòu)協(xié)同,而采用英偉達的整機更多將「大腦」能力推到端側(cè)以實現(xiàn)更強感知與在線泛化能力。

機器人本體:情感需求萌芽,關(guān)鍵部件全自研尚早

整個 WRC,最受關(guān)注的還是機器人本體企業(yè)。

第一個最明顯的變化發(fā)生在形態(tài)上,機器人的尺寸變得更多元。

人形機器人尺寸主要集中在兩個范圍,一類是輕量小尺寸機器人,如宇樹 G1 等,身高集中在 120-130cm 區(qū)間,比如宇樹第三款人形機器人 Unitree R1,身高 127cm,整機重量只有 25kg。

與之相對的是全尺寸機器人,身高動輒 170cm 以上,典型如特斯拉機器人擎天柱,身高 172cm,體重 73kg。再比如眾擎機器人最新發(fā)布的 T800,就宛如巨人,身高 1.85 米,體重 85kg。

在 WRC 上多了很多 140cm—160cm 左右的中小尺寸人形機器人。魔法原子新推出的小個子人形機器人 MagicBot Z1,身高 140cm,體重 40kg,可以秒彈射起身。

這次鹿明機器人在 WRC 也展出的可一秒彈射起身的 Lumos LUS2,身高 160cm/55kg,外觀上更接近人類。

鹿明聯(lián)合創(chuàng)始人黃浩告訴星河頻率,他們認為人形機器人行業(yè)會逐漸收斂到 160cm 機器人的形態(tài)。

背后的原因跟穩(wěn)定性和關(guān)節(jié)尺寸大小、成本有關(guān)。

最核心的原因是身高 160cm 機器人的重心高度比 120cm 機器人高出 33%,動態(tài)平衡時的穩(wěn)定性閾值明顯降低,穩(wěn)定性更好。

甚至,鹿明機器人也在 WRC 上第一次展出了小型人形機器人 NIX,其身高跟 3 歲小孩相當。

第二個最大的變化在于,本體機器人有了更多元的情感表達。

傳統(tǒng)人形機器人有兩個方向,一種是仿真級別的機器人,把機器人臉部做得非常逼真,另一種則是外形具備科技感的機器人,其身體及五官形態(tài)更超人。

傅利葉在 WRC 最新發(fā)布的人形機器人 GR-3 開創(chuàng)了一種新的外觀形態(tài)。

從外觀來看,傳統(tǒng)機器人的脖子變成了厚圍脖、原本冰冷的工程塑料上多了一層皮革,外觀色調(diào)從主流的黑白灰變成了更加柔和的配色,從視覺上削弱了傳統(tǒng)機器人的冰冷感。

從內(nèi)主打全感交互,GR-3 身上搭載了 31 個傳感器構(gòu)成觸覺感知陣列。

呼喚、撫摸 GR-3,就能觸發(fā)「快思考」反饋,快速轉(zhuǎn)頭對視或者輕晃腦袋回應,同一指令被多次觸發(fā)就會啟動「慢思考」模式。

由大模型推理引擎理解復雜語義、交互歷史及觸發(fā)特征,生成更自然且適配場景的應答。

這種結(jié)合皮膚觸感的交互形態(tài),給人形機器人的擬人化提供了一種新的思路。

第三個變化是自研成為主流方向,但全棧自研為時尚早。

本體機器人在大展拳腳時,背后是整個機器人產(chǎn)業(yè)鏈的深度融合。整個 WRC 觀察下來,不少企業(yè)為了節(jié)約成本、掌握核心關(guān)鍵技術(shù),有了嘗試核心零部件自研的趨勢。

目前鹿明機器人已經(jīng)在自主研發(fā)機器人關(guān)節(jié)模組、觸覺夾爪和七軸數(shù)據(jù)采集機械臂等核心零部件。

黃浩告訴星河頻率,關(guān)節(jié)模組大概占整機成本 40%,他們選擇自研的部分都屬于成本高、技術(shù)要求高的部分。

但他認為整個通用機器人行業(yè)其實都處于比較早期的過程,談全棧自研為時尚早。

要先把整體供應鏈能力先建立起來,才有可能像汽車企業(yè)那樣從芯片再到軟硬件都趨向于全棧自研。

靈巧手:從單點演示過渡向場景化、可部署化

靈巧手,作為人形機器人的最后一厘米,決定了機器人作業(yè)能力的上限。隨著機器人本體的穩(wěn)定性上升、市場對機器人作業(yè)能力的要求提高,靈巧手也從入場試水的「單點演示」向場景化、可部署化發(fā)展。

今年 WRC 上有 10 家以上靈巧手廠商參展,帶來了超 20 款靈巧手產(chǎn)品,較去年有了很大的增長。

在技術(shù)路線上,傳動方案呈現(xiàn)多元化,腱繩方案的上場率有了明顯提高。

當下,市面上大部分的產(chǎn)品采用的還是連桿方案,自由度在 6-11 的區(qū)間。

而腱繩方案能帶來更高的自由度,同時在理論上最能突破靈巧手不可能三角。這次參展的兩款新品靈巧手都采用的都是腱繩方案。

賽博格機器人 Cyborg-H01 通過腱繩方案和單電機驅(qū)動多關(guān)節(jié)結(jié)構(gòu),實現(xiàn)重量傳較統(tǒng)方案降低 40%,成本下降 40% 以上。

曦諾未來 Xynova Flex 1 具備 25 個自由度,關(guān)節(jié)位置控制精度達 0.75°,較國際水平提升 25%。

此外,像靈巧智能這樣全產(chǎn)品線采用腱繩方案的廠商,也展出了三指到五指靈巧手產(chǎn)品。

其中,DexHand021 Pro 作為高自由度靈巧手將在下半年正式發(fā)售。

在 WRC 上,推出 Linker Hand L6 與 L20 工業(yè)版的靈心巧手公司,也展出了采用腱繩方案的、目前自由度最高的靈巧手一一 Linker Hand L30 科研版。

其次,感知與觸覺在「決策環(huán)」里的權(quán)重上升,高密度觸覺傳感器逐漸成為一種標配。手的靈巧度不能跟自由度的多少掛鉤,觸覺傳感、力控與多模態(tài)視覺的深度融合才是真正的衡量標準,換言之,要讓機器人理解「怎么抓、抓多緊、該不該調(diào)整」。

大寰機器人 DH-5-6 靈巧手在指腹與手掌布設離子活性層觸覺陣列,可以實時捕捉壓力分布、紋理特征及滑動趨勢,支持自適應抓取和異常觸碰識別。

優(yōu)必選的 Walker S2 搭載其自研靈巧手,使用雙目視覺+陣列觸覺,可識別不同材質(zhì)的滑動摩擦系數(shù),抓取易碎物品時施加的力波動控制在±0.5N 以內(nèi)。

過去,不少靈巧手廠商偏重于硬件研發(fā),忽略了軟件與算法的協(xié)同。但機器人要在復雜場景中精準作業(yè),必須「軟硬兼施」。

如今,已有廠商開始構(gòu)建「硬件 + 算法」的生態(tài)體系。

中科硅紀在 WRC 上展示了多款智能靈巧手與具身智能整機,展現(xiàn)出了一條路徑:將機械手的物理能力與大模型、多模態(tài)感知算法結(jié)合,機器人能根據(jù)不同場景動態(tài)調(diào)整抓取策略,讓同一套「手臂+手」可以覆蓋更多應用場景,降低集成與現(xiàn)場調(diào)試成本。

傲意科技聯(lián)合艾歐智能、英偉達打造的「靈巧手+數(shù)據(jù)+場景」開放實驗室在WRC首次亮相。基于 NVIDIA VSS 多模態(tài)視覺大模型,傲意科技的靈巧手在現(xiàn)場演示了復雜抓取、精密裝配及康復輔助的實時交互。

除此之外,也能明顯感受到靈巧手正在向模塊化和標準化發(fā)展。

各家廠商正努力把「手」做成可插拔、可復用的模塊,便于在不同品牌機械臂或整機上快速替換與集成,從而縮短落地時間與工程成本。

機器人眼睛:「眼、腦、手」進入升維協(xié)同

去年 WRC 上,他山科技 CEO 馬揚表示,機器人執(zhí)行復雜動作需要統(tǒng)一體完成視覺與觸覺的融合。

這一觀點在今年大會上已成為現(xiàn)實,多傳感器融合已從技術(shù)理想進化為產(chǎn)品核心架構(gòu)。

機器人的「眼睛」正與「大腦」、「手」形成更高效的協(xié)同。

過去,人形機器人的視覺功能多停留在「炫技」或概念展示,而今年視覺技術(shù)的「生產(chǎn)力屬性」更為明顯,比如多臺機器人協(xié)作完成物料分揀、跨區(qū)域配送等實際任務。

機器人不再只是「看得見」,而是在真實場景中「看得懂、用得上」。

單靠一種傳感器已無法滿足復雜場景需求,多源數(shù)據(jù)的時空融合成為視覺系統(tǒng)的底層邏輯。

速騰聚創(chuàng)推出的 Active Camera 平臺,采用多傳感器一體化集成,單硬件即可提供色彩信息、深度信息與運動狀態(tài)信息,并實現(xiàn)三類信息的時空融合,突破了傳統(tǒng) 3D 視覺「看不清、看不準、反應慢」的技術(shù)瓶頸。

奧比中光的 3D 激光雷達 Pulsar ME450 支持三種掃描模式自由切換,是行業(yè)首款「一機多模」3D 激光雷達,可動態(tài)切換以適應避障、測繪等場景,適配物流、戶外作業(yè)等復雜場景。

這種融合的本質(zhì),是讓機器人從「看見物體」升級為「理解環(huán)境」。

在硬件層面,視覺設備正朝著「體積更小、性能更強」的方向發(fā)展。

禾賽科技的 JT 系列激光雷達,體積僅臺球大小,支持行業(yè)最廣的 360°×189°超半球視野和 256 線分辨率,發(fā)布 5 個月交付量達 10 萬臺。

其純固態(tài)雷達 FTX 體積較上一代減少 66%,點頻高達 49.2 萬點/秒,可隱蔽嵌入服務機器人機體,實現(xiàn)「無感化」感知升級。

此外,與去年 WRC 討論「感知分離」,即視覺在腦端處理、觸覺在邊緣端處理不同,今年呈現(xiàn)明顯的「端-邊-云協(xié)同」趨勢。硬件廠商不再只賣傳感器,而是構(gòu)建全棧開發(fā)生態(tài)。

像速騰聚創(chuàng)的 AI-Ready 生態(tài)就提供了開源工具、預訓練算法庫及數(shù)據(jù)集,吸引場景和算法兩類開發(fā)者,推動產(chǎn)品落地應用以及反向推動硬件迭代。

同時,機器人視覺的不斷發(fā)展,讓魯棒性成為了產(chǎn)品落地的大前提。

人形、陪伴類機器人在今年展出數(shù)量大幅增加,尤其是在餐飲、零售、家庭等場景演示越發(fā)頻繁。

相比去年偏靜態(tài)的展示,今年的機器人能在展館這種復雜環(huán)境中保持穩(wěn)定工作,例如維他動力的 Vbot 在場館里「自由活動」,天工機器人自主「遛彎」到工位。

這要求感知系統(tǒng)必須經(jīng)過更苛刻的工程驗證,這種需求迫使廠商在算法降噪、抗干擾設計、軟硬件協(xié)同上持續(xù)優(yōu)化。

這次 WRC 像一面棱鏡,折射出機器人發(fā)展的核心脈絡:市場不再滿足單點炫技,而在尋找「真有用、能落地」的系統(tǒng)級進化。

無論是手的靈巧進化、視覺的感知躍遷,還是大腦的智能賦能、本體的穩(wěn)定支撐,最終的關(guān)鍵都藏在技術(shù)的協(xié)同里。

大腦的決策需要眼睛提供精準的環(huán)境感知;

眼睛的觀察需要手和本體去執(zhí)行驗證;

手的靈巧操作依賴本體的穩(wěn)定支撐和大腦的精細控制;

本體的運動效能更離不開大腦的全局規(guī)劃和眼睛的實時反饋。

王興興預測,未來幾年,全行業(yè)人形機器人出貨量每年翻番都是有保證的,如果有更大的技術(shù)突破,甚至可能未來 2-3 年突然一年出貨幾十萬臺,甚至上百萬臺也有可能。

當技術(shù)從單點爆破走向多維協(xié)同,機器人終將撕掉「Demo」的標簽,以真正的智能體身份走入各行各業(yè)。

畢竟,評判一個機器人的終極標準,從來不是「能轉(zhuǎn)多少圈」、「識別多少物體」,而是它是否能真正「接住」人類的需求。

       原文標題 : 這屆機器人火力全開,不止炫技更要落地

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號