訂閱
糾錯
加入自媒體

北京跑出未來獨角獸:要用“具身Sora”做機器人大腦,已融資數(shù)千萬

2025-08-28 14:42
鉛筆道
關(guān)注

訪談丨鉛筆道 鄒蔚 吳欣曉撰稿丨鉛筆道 吳欣曉

八月初的世界機器人大會上,宇樹科技創(chuàng)始人王興興演講時拋出了引發(fā)行業(yè)激烈討論的觀點。

他認為,機器人尚未大規(guī)模落地的核心原因,并非硬件不足……最大的問題是模型,F(xiàn)階段看視頻生成模型的路線,相比VLA收斂概率更大。

而有意思的是,幾乎在同一時間,靈生科技宣布開源業(yè)內(nèi)首個支持異步運行的快慢雙系統(tǒng)視覺語言動作框架RealDualVLA,為機器人復(fù)雜操作任務(wù)提供了高效協(xié)同的全新解決方案,而這一方案背后的數(shù)據(jù)生成技術(shù),恰恰是靈生獨創(chuàng)的視頻生成模型-稱為“具身Sora”。

2023年,在騰訊等互聯(lián)網(wǎng)大廠有過多年AI算法和產(chǎn)業(yè)經(jīng)驗的楊洪兵創(chuàng)辦北京靈生科技有限公司‌(簡稱:‌靈生科技),專注于具身智能機器人大腦研發(fā),其核心產(chǎn)品為云-邊-端一體化大腦系統(tǒng)(LingBrain),目前已獲數(shù)千萬融資。

楊洪兵認為,具身智能真正的變革,在于給機器人裝上一個能獨立思考和行動的“大腦” ,而機器人“大腦”的進化,則來自開源帶來的生態(tài)繁榮。

靈生科技不僅開源了自研的VLA模型,還提出用生成視頻、“跟我學(xué)”的方式來訓(xùn)練機器人大模型,讓它們先像人一樣在腦海里“推演”操作流程,再去執(zhí)行任務(wù),從而把成功率拉到95%以上。

在楊洪兵看來,真正的機器人不應(yīng)是人跟在后面的遙控玩具,也不是實驗室樣品,而是能理解語言、感知物理世界、完成復(fù)雜任務(wù)的“生產(chǎn)力伙伴”。

最近,鉛筆道和楊洪兵就機器人大腦開源、具身Sora、產(chǎn)業(yè)化路徑、門檻與挑戰(zhàn)等話題交流,以下是對話精華。

楊洪兵,靈生科技創(chuàng)始人

聲明:訪談對象已確認文章信息真實無誤,鉛筆道愿為其內(nèi)容做信任背書。

- 01 -讓人形機器人擺脫遙控器

鉛筆道:機器人大腦最大特點是什么?

楊洪兵:平時大家使用的豆包、元寶,主要用于對話,屬于語言模型。而機器人大模型的目標(biāo)是讓機器人“干活”,從“聊天”到“行動”,這是一個巨大的跨越。

語言模型只需理解語言,而機器人大模型需要理解物理世界——光照、摩擦、三維空間等,并將這些理解轉(zhuǎn)化為具體動作,比如端茶、搬運、分揀。

這需要大模型與機器人的控制系統(tǒng)緊密結(jié)合,從數(shù)字世界延伸到物理世界,為機器人賦予“思考”和“行動”的能力。

鉛筆道:機器人本體這么熱,為什么選擇做大腦?

楊洪兵:我本科畢業(yè)于西安交通大學(xué),碩士在清華,在百度、騰訊等互聯(lián)網(wǎng)大廠深耕人工智能技術(shù)多年。我非常了解大模型的訓(xùn)練、調(diào)優(yōu)和應(yīng)用,同時很熟悉產(chǎn)業(yè)需求痛點。

在當(dāng)前的機器人浪潮中,AI領(lǐng)域目前有兩個主要方向:一類是像我這樣,人工智能背景,從軟件和算法出發(fā),去探索軟硬件的融合之路;另一類則是傳統(tǒng)的機器人專家,出身硬件,逐步向人工智能靠攏。

我們堅信,機器人智能的未來一定是以AI為核心。如果只聚焦硬件,那只是傳統(tǒng)制造業(yè),而真正的具身“智能”需要AI來驅(qū)動。

這也是靈生科技專注于研發(fā)“機器人大腦”的原因,希望讓機器人擺脫遙控器,真正實現(xiàn)自主化。

鉛筆道:擺脫遙控器,這在機器人行業(yè)意味著什么?

楊洪兵:目前,很多機器人仍依賴遙控操作,觀眾和專家都指出,這更像是“遙控玩具”,而非真正的智能。我們希望讓機器人大腦技術(shù)突破,讓機器人能夠自主奔跑,甚至完成復(fù)雜的操作任務(wù)。

我們公司雖然只運行半年多,但憑借機器人大腦技術(shù),已與國內(nèi)多家大型客戶建立了合作關(guān)系,確定了合作和采購訂單。就在8月12日,我們發(fā)布了靈生開源VLA模型。

鉛筆道:為什么要開源VLA模型?

楊洪兵:最早,大模型領(lǐng)域多是閉源競爭,缺乏開放合作。DeepSeek的開源舉動打破了這種局面,帶動了其他公司跟進。我們希望成為機器人領(lǐng)域的“鯰魚”,通過開源高質(zhì)量模型,推動行業(yè)進步。目前很多業(yè)內(nèi)公司也跟隨開源,這是一個積極的變化。開源不僅加速技術(shù)迭代,也讓整個生態(tài)更加繁榮。

鉛筆道:為何閉源仍是主流?

楊洪兵:目前閉源仍是主流。許多公司認為模型是辛苦研發(fā)的成果,開源會被他人“拿走”,擔(dān)心喪失競爭優(yōu)勢。這種觀念導(dǎo)致行業(yè)封閉。

但我們認為,開源能讓更多人貢獻模型,最終大家受益。國外在VLA模型開源上做得更好,領(lǐng)先的模型多來自國外。

靈生科技旗下搭載一體化大腦Ling Brain系統(tǒng)的具身智能機器人

02 -讓機器人通過“推演”來學(xué)習(xí)

鉛筆道:宇樹科技王興興提到人形機器人尚未迎來“ChatGPT時刻”,主要是因為機器人大腦的研發(fā)跟不上?ㄔ谀睦锪耍

楊洪兵:核心問題在于數(shù)據(jù)匱乏。

語言模型之所以發(fā)展迅速,是因為人類幾千年來積累了大量文字數(shù)據(jù),可以直接用于訓(xùn)練。

但機器人智能需要的是行為數(shù)據(jù),而人類數(shù)百萬年的行為歷史并未被系統(tǒng)記錄下來。沒有攝像頭、沒有記錄設(shè)備,過去的行為無法追溯,導(dǎo)致今天機器人智能的數(shù)據(jù)極度匱乏。

我們的解決方案是通過視頻生成技術(shù)彌補數(shù)據(jù)不足。思路簡單但實現(xiàn)復(fù)雜,我們生成大量行為視頻,讓機器人從中學(xué)習(xí),解決了數(shù)據(jù)瓶頸的難題。

另一個制約是行業(yè)的封閉性。

許多公司捂著自己的模型,形成了惡性循環(huán):數(shù)據(jù)少導(dǎo)致模型訓(xùn)練難,訓(xùn)練難又導(dǎo)致不愿開源,不開源進一步減緩了行業(yè)發(fā)展,數(shù)據(jù)收集更困難。

鉛筆道:在開發(fā)機器人大腦的過程中,遇到了哪些技術(shù)上的挑戰(zhàn)?

楊洪兵:最大的制約在于數(shù)據(jù)來源。

目前行業(yè)內(nèi)主要有兩種路線:一種是以智元為代表的真機數(shù)據(jù)采集,通過實際操作獲取數(shù)據(jù);另一種是以銀河通用為代表的仿真環(huán)境,通過模擬生成數(shù)據(jù)。但這兩種方式都有局限。

我們提出了一條新路徑——通過視頻生成技術(shù),讓機器人從生成的視頻中學(xué)習(xí)。我們稱之為“具身Sora”:先生成一段視頻,比如機器人調(diào)酒的場景,機器人通過觀察視頻學(xué)習(xí)操作,無需實際操作就能掌握技能。這就像人類在做事前會先“推演”流程,符合思維規(guī)律。

此前行業(yè)忽略了這一點,直接讓機器人“干活”,往往準(zhǔn)確率低、成本高。我們通過“推演”技術(shù),讓機器人先模擬學(xué)習(xí),大幅提升了效率和成功率。

鉛筆道:這種“推演”的實際效果如何?

楊洪兵:效果非常顯著。通過視頻生成技術(shù),將機器人任務(wù)的成功率從原來的90%以下提升到95%以上,接近甚至超過行業(yè)標(biāo)準(zhǔn)。相對于純仿真技術(shù),數(shù)據(jù)構(gòu)建的成本更低,而且更容易解決Sim2Real的Gap問題。

鉛筆道:聽起來很簡單,會被競爭對手輕易模仿嗎?你們的壁壘在哪里?

楊洪兵:表面上看,“推演”技術(shù)似乎簡單,但實際操作非常復(fù)雜。

生成視頻時,需考慮光照、摩擦力、彈性力等物理世界中的復(fù)雜因素,這些都對技術(shù)提出了極高要求。

目前,市場上還沒有哪家公司能將視頻生成技術(shù)做到極致。我們是最早看到這一價值并持續(xù)投入的團隊。持續(xù)的模型迭代和資源聚焦是我們保持優(yōu)勢的關(guān)鍵,這不是一朝一夕能復(fù)制的。

鉛筆道:大廠擁有強大的AI團隊和產(chǎn)業(yè)化能力,他們會不會也來搶占機器人大腦賽道?

楊洪兵:這是一個關(guān)鍵問題,也是我從大廠出來創(chuàng)業(yè)的根本原因。

大廠擅長通用AI,但要適配多樣化的本體并深入產(chǎn)業(yè)場景,需要軟硬件結(jié)合的垂直能力。這比純軟件開發(fā)更垂直也更復(fù)雜。

我們聚焦于“懂AI、懂本體、懂產(chǎn)業(yè)”的結(jié)合點,這正是我們的差異化優(yōu)勢。

03 -機器人大腦產(chǎn)業(yè)化三大挑戰(zhàn)

鉛筆道:如何通過開源模型實現(xiàn)盈利?與本體廠商和終端客戶的合作模式是怎樣的?

楊洪兵:我們的商業(yè)模式基于開放平臺,同時提供增值服務(wù)。

對于開源模型,如果客戶需要進一步優(yōu)化或定制,我們會提供收費的技術(shù)支持,輸出模型側(cè)的能力來創(chuàng)造收入。

與本體廠商合作,我們通過增值服務(wù)收費;與終端客戶合作,我們直接通過為他們賦能大腦技術(shù)來收費。

這種模式既支持生態(tài)共建,又確保了商業(yè)化的可持續(xù)性。無論是與本體廠商的增值合作,還是為終端客戶提供直接賦能,我們都能找到清晰的盈利路徑。

鉛筆道:你們定位有點像微軟——電腦廠商生產(chǎn)電腦,但操作系統(tǒng)多用Windows。

楊洪兵:我們確實希望成為機器人智能領(lǐng)域的“Windows”或“Android”。通過開源開放,我們的模型能適配不同形態(tài)的機器人本體,就像Android兼容各種手機型號一樣。

Android雖然免費,卻創(chuàng)造了巨大價值,背后團隊也有自己的生存之道。同樣,我們也希望通過開源建立行業(yè)地位,同時通過增值服務(wù)實現(xiàn)商業(yè)化。

鉛筆道:目前與大公司的合作進展如何?具體有哪些合作模式和場景?

楊洪兵:我們與大公司的合作通常分三個階段:

第一階段是付費POC(概念驗證),客戶提供資金,我們在他們的場景中生成視頻、訓(xùn)練模型并實現(xiàn)操作;第二階段是小批量采購,驗證效果后開始小規(guī)模應(yīng)用;第三階段是中等規(guī)模乃至大批量復(fù)購。

目前,我們的大部分合作已完成POC階段,進入小規(guī)模復(fù)購。這相較于仍停留在實驗室階段的友商,是一個巨大的進步。

鉛筆道:能否分享具體的合作案例?

楊洪兵:比如富士康集團某高端網(wǎng)絡(luò)產(chǎn)品的生產(chǎn)中,我們靈生在運用工業(yè)具身大腦,解決分揀中的泛化操作難題。

再比如在某國際3C巨頭,我們利用RealDualVLA解決產(chǎn)線中的精密操作難題,解決了泛化、精度、效率不可能三角。

而在半導(dǎo)體領(lǐng)域,我們和國內(nèi)頭部上市公司建立合作,用具身Sora生成場景操作視頻數(shù)據(jù),快速訓(xùn)練模型實現(xiàn)產(chǎn)業(yè)化部署,從而贏得客戶信賴。

鉛筆道:你們之間的信任怎么建立的?

楊洪兵:大企業(yè)客戶,決策非常謹慎。一般都要調(diào)研了多家同類機器人,從產(chǎn)品穩(wěn)定性、大模型的泛化性、工程化能力到量產(chǎn)能力四個維度進行評估。

我們在這幾個方面展現(xiàn)了差異化的優(yōu)勢,也多次對公司進行實地考察,最終被我們極致的產(chǎn)品力打動。

鉛筆道:在產(chǎn)業(yè)化過程中,遇到了哪些難點?是如何克服的?

楊洪兵:產(chǎn)業(yè)化面臨三大挑戰(zhàn)。

首先,真實產(chǎn)業(yè)環(huán)境遠比實驗室復(fù)雜,實驗室中的成果往往無法直接應(yīng)用。我們通過工程化和體系化能力提升,確保技術(shù)能適配上千、上萬臺機器的規(guī)模化需求,對精度和穩(wěn)定性要求極高。

其次,數(shù)據(jù)不足是個普遍問題。我們利用具身Sora視頻生成技術(shù)彌補了數(shù)據(jù)缺失,填補了行業(yè)空白。

最后,產(chǎn)業(yè)環(huán)境更關(guān)注失敗次數(shù)的控制,而非成功次數(shù)。我們優(yōu)化了模型推理速度、效率和準(zhǔn)確率,確保交付和部署的穩(wěn)定性。

靈生科技于WRC展會精彩亮相

04 -做垂域大腦,而非超級大腦

鉛筆道:現(xiàn)在很多機器人本體公司也在嘗試自研大腦。

楊洪兵:機器人本體公司確實有自研大腦的嘗試,追求“全棧自研”。但正如一個人不可能精通所有領(lǐng)域,一個公司在每個環(huán)節(jié)都做到極致是很難的。

本體公司即使投入研發(fā)大腦,資源分散,難以達到頂尖水平。這種“撒胡椒面”式的投入往往導(dǎo)致每個領(lǐng)域都不夠突出。專注和極致化才是核心競爭力。即使本體公司有資金,也很難在每個環(huán)節(jié)都燒出頂尖產(chǎn)品。

鉛筆道:從本體公司角度看,把大腦交給外部供應(yīng)商可能會讓他們感到不安。你怎么看待這種顧慮?

楊洪兵:這種不安主要源于閉源模式帶來的不信任感。

所以,靈生一開始就選擇開源開放策略,我們的VLA模型完全向本體公司開放,源代碼透明可得,消除了他們的顧慮。

這就像DeepSeek的開源策略,吸引了眾多廠商使用,因為開源不僅降低風(fēng)險,還能借助生態(tài)的力量加速發(fā)展。

開源是行業(yè)的未來,自研大腦的趨勢會因資源限制和專業(yè)分工而逐漸向合作與開源靠攏。

鉛筆道:數(shù)據(jù)安全會成為問題嗎?

楊洪兵:數(shù)據(jù)安全確實是個重要考量。

我們的開源模型是預(yù)訓(xùn)練好的,合作伙伴可以基于私域數(shù)據(jù)進行二次訓(xùn)練(Few-Shot Training),這些數(shù)據(jù)無需公開。

我們使用的都是公開透明的通用數(shù)據(jù),私域數(shù)據(jù)完全由客戶自己掌控,隱私性得到保障。開源的是模型和通用數(shù)據(jù),而非客戶的敏感數(shù)據(jù)。

鉛筆道:如果未來“大腦”足夠智能,是否會出現(xiàn)一個通用大腦,適配所有行業(yè)和場景?

楊洪兵:理論上,遠期可能出現(xiàn)這種“超腦”,類似AGI(通用人工智能),能解決所有問題。但短期內(nèi)很難實現(xiàn)。

首先,超腦需要極高的泛化能力,相當(dāng)于人類所有智能的總和,這在技術(shù)上幾乎不可行。

其次,算力需求將遠超當(dāng)前語言模型的幾萬倍,成本極高。

最后,必要性存疑——讓超腦去做瑣碎任務(wù),就像讓博士生算1+1,性價比低。

我們更傾向于專注垂域大腦,在特定領(lǐng)域做到極致,而非追求贏家通吃的通用大腦,那需要數(shù)百億投入且風(fēng)險極高。

鉛筆道:怎么應(yīng)對多樣化的場景需求?

楊洪兵:我們聚焦于泛工業(yè)場景。工業(yè)場景側(cè)重操作和作業(yè),物流解決搬運、分揀等任務(wù)。我們的核心能力是“手眼腦協(xié)同”,通過移動與操作的結(jié)合,讓機器人達到甚至超越人類的智能水平。

鉛筆道:你們接下來的規(guī)劃是什么?

楊洪兵:首先,我們要服務(wù)好頭部KA客戶,回報他們的信任。目前靈生已經(jīng)和數(shù)十家客戶建立合作,未來靈生將服務(wù)千家以上客戶,打造真正能用、易用、好用的具身智能產(chǎn)品,為工業(yè)提供優(yōu)質(zhì)生產(chǎn)力。

其次,繼續(xù)推動開源戰(zhàn)略,吸引更多開發(fā)者基于我們的模型進行二次開發(fā)。我們解決了國內(nèi)機器人開發(fā)者缺乏開源大腦的痛點,讓他們在我們的平臺上更便捷地開發(fā)應(yīng)用。這不僅服務(wù)于B端客戶,也面向開發(fā)者,通過共建生態(tài)加速產(chǎn)業(yè)落地。這是我們的核心優(yōu)勢和戰(zhàn)略方向。

鉛筆道:未來大腦足夠智能后,是否只需通過自然語言指令就能控制機器人?

楊洪兵:是的,我們的目標(biāo)是實現(xiàn)自然語言處理通用接口(NLI)。用戶只需用日常語言下達指令,機器人就能理解并執(zhí)行。這將讓機器人真正融入生活,成為解放人類的生產(chǎn)力工具。

我們目前已可以通過自然語言喚醒機器人。用戶下達指令,機器人就能根據(jù)指令執(zhí)行相應(yīng)動作。這是一個重要的里程碑,讓機器人更貼近實際應(yīng)用場景。

本文不構(gòu)成任何投資建議。

       原文標(biāo)題 : 北京跑出未來獨角獸:要用“具身Sora”做機器人大腦,已融資數(shù)千萬

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號