Figure 01視頻被質(zhì)疑“注水”?看看創(chuàng)始人怎么說!
引言
2023年3月,一家僅創(chuàng)立幾個月的機(jī)器人公司號稱要推出“世界上第一個商業(yè)上可行的通用人形機(jī)器人”,并放出了幾張PPT。
接下來的一年中,這家名為Figure的公司經(jīng)歷了——被質(zhì)疑“碰瓷波士頓動力”——創(chuàng)紀(jì)錄地邁出人形機(jī)器人“動態(tài)雙足行走”第一步——半個硅谷科技圈下注, 融資高達(dá)6.75 億美元,估值猛漲至26億美元。
本周三,僅在B輪融資完成后的13天,這位“當(dāng)紅炸子雞”放出了Figure 01的最新視頻。
雖然只用到了一個“端到端”神經(jīng)網(wǎng)絡(luò),但Figure 01卻可以在你想要食物時,貼心地遞上蘋果而不是盤子;還能一邊回答你的問題,一邊對物品進(jìn)行分類——將垃圾收拾進(jìn)框子里、將杯子和盤子歸置放在瀝水架上。而且!它甚至能回答你餐具瀝干水分的大致時間。
有人說,F(xiàn)igure只用了1年時間,就走完了波士頓動力20多年的路。于是,壓力給到了波士頓動力,讓我們回到實(shí)驗(yàn)室,再扒一些女團(tuán)舞吧(bushi)。
話說回來,F(xiàn)igure 01的最新視頻有沒有一絲絲“注水”的可能性?難道傳說中“世界上第一個具身智能”機(jī)器人真的來了?!
Figure創(chuàng)始人Brett Adcock特意在X上強(qiáng)調(diào),視頻是以1.0倍速度拍攝并連續(xù)拍攝的,機(jī)器人是在完全自主的情況下進(jìn)行的行為,沒有遠(yuǎn)程操作。
言外之意就是“無剪輯,無加速,一鏡到底”。
然而,適道和一些相關(guān)領(lǐng)域投資人交流時,獲得了另一條思路:有沒有一種可能——Figure 01的完美表現(xiàn)是“試”出來的。
例如在測試階段,當(dāng)你說“我餓了”并指向“蘋果和碗”,F(xiàn)igure 01會遞給你碗;當(dāng)你指著“梨子和盤子”,F(xiàn)igure 01會遞給你盤子?赡茉嚵艘淮笸ê,得出面對“蘋果和盤子”組合,F(xiàn)igure 01的表現(xiàn)是最好的。
但在適道看來,與其說這是“注水”,不如說這正是Figure神速進(jìn)化的技術(shù)秘籍——“端到端”技術(shù)黑盒。
01 Figure進(jìn)步神速的秘籍——“端到端”神經(jīng)網(wǎng)絡(luò)
根據(jù)Brett Adcock的說法,F(xiàn)igure 01主要通過“端到端”神經(jīng)網(wǎng)絡(luò)來與人類進(jìn)行對話。大致流程為:OpenAI的LLM提供“大腦”——視覺推理和語言理解 ;Figure神經(jīng)網(wǎng)絡(luò)提供“小腦”——做出一系列快速、低級、靈巧的機(jī)器人動作。
Figure機(jī)器人操作高級AI工程師Corey Lynch進(jìn)一步解釋:“這些神經(jīng)網(wǎng)絡(luò)以每秒 10 幀的速率接收機(jī)器人內(nèi)置圖像,并能生成每秒200次的24自由度動作(包括腕部姿勢和手指關(guān)節(jié)角度)”
何為“端到端”?
“端到端”(End-to-End)是深度學(xué)習(xí)中的概念,指一個AI模型,只要輸入原始數(shù)據(jù),就能輸出最終結(jié)果,有點(diǎn)像馬斯克遵循的“第一性原理”。
舉個簡單的例子,兩個同齡小孩,一個生活在城市,一個從小長在河邊。城市小孩想學(xué)游泳,需要找教練,進(jìn)行一系列抱水、換氣、劃水、蹬腿的分解動作,才能系統(tǒng)性地掌握蛙泳技能;而在河邊長大的小孩,看了大人們游泳的姿勢,就去下河摸索,經(jīng)歷了嗆水、訓(xùn)練、強(qiáng)化,也學(xué)會了游泳,而且游得像魚一樣嫻熟。
如果你要問這個小孩經(jīng)歷了哪些針對性訓(xùn)練,都有什么訓(xùn)練模塊,他一定答不出所以然。但從結(jié)果來講,他不僅泳技超群,甚至學(xué)習(xí)時間還可能更少。
“端到端”的原理跟這個例子有點(diǎn)類似。
例如,想讓機(jī)器人變成“咖啡師”,如果通過傳統(tǒng)編程,雖然看起來“透明”“可解釋”,但代碼非常復(fù)雜,靈活性也很差。
而Figure 01的卓越表現(xiàn)證明了,通過這種“不可解釋”的“端到端”神經(jīng)網(wǎng)絡(luò)(輸入視頻、輸出行動軌跡),機(jī)器人能夠在數(shù)小時訓(xùn)練后就能get新技能。
在1月5日的視頻,F(xiàn)igure 01展示了自己出色的“學(xué)霸”能力,只需觀看10小時的人類煮咖啡錄像,就能學(xué)會人類的動作和手勢,并通過模仿這些動作,成為一名real咖啡師。
而“端到端”也正在成為機(jī)器人訓(xùn)練的主流路子。例如,1X EVE 、Digit同樣是通過“端到端”學(xué)習(xí)新技能。
由此不難得出,雖然目前Figure 01展示的只是做咖啡、物品分類,但理論上,只要獲取到人類的數(shù)據(jù),進(jìn)行“端到端”地訓(xùn)練,它就能掌握更多技能。
我們再回到被“質(zhì)疑”的“蘋果和盤子組合”——即便Figure 01的完美表現(xiàn)是“試出來”的,但隨著“端到端”訓(xùn)練量加大,“試錯”會越來越少,成功率越來越高,最終Figure 01或許真能輕松拿捏家務(wù),說不定還會在你喊餓時包出一頓餃子。
這一切正如創(chuàng)始人Brett Adcock所言:機(jī)器人就像我的孩子們一樣,在他們學(xué)習(xí)做某件事的過程中,盡管可能失敗了很多次,但他們一旦掌握了就不會忘記,然后他們會不斷積累新的技能。
02 創(chuàng)始人:人形機(jī)器人成本會低于一臺廉價電動汽車
Figure的創(chuàng)始人Brett Adcock年僅38歲,但Figure已經(jīng)是他創(chuàng)立的第三家科技公司。在去年10月的一次訪談中,Brett 分享了 Figure 01的設(shè)計過程,以及他對于通用人形機(jī)器人領(lǐng)域的預(yù)測。
Brett 認(rèn)為人形機(jī)器人研發(fā)一定是軟硬件一體的過程,LLM 為機(jī)器人提供了強(qiáng)大的大腦,是軟件層面的重要補(bǔ)足,而硬件角度,幾乎沒有成熟的供應(yīng)鏈可供使用,因此,Brett要求團(tuán)隊(duì)在設(shè)計產(chǎn)品的同時就要考慮到機(jī)器人重量、計算處理、現(xiàn)實(shí)環(huán)境等細(xì)節(jié)。
適道也對訪談進(jìn)行了原文編譯和節(jié)選,請配合食用。
1、簡單介紹一下 Figure,你們的使命和目標(biāo)是什么?
Brett:Figure 是一家 AI機(jī)器人公司,專注于設(shè)計自動通用人形機(jī)器人(Autonomous General-purpose Humanoids)。自動通用人形機(jī)器人是指具備自主能力,能夠自動執(zhí)行多種任務(wù),并且在外觀和行為上類似于人類的機(jī)器人。我們的目標(biāo)是在長期能夠部署和人類數(shù)量一樣多的人形機(jī)器人,讓體力勞動成為一種選擇而非必然。
我們的遠(yuǎn)期計劃是在全球部署 100 億個人形機(jī)器人。未來 1-2 年內(nèi),我們的重點(diǎn)將放在開發(fā)具有里程碑意義的產(chǎn)品上,希望在未來一兩年內(nèi),能向公眾展示大量人形機(jī)器人產(chǎn)品的研發(fā)成果,包括 AI 系統(tǒng)、低級控制(Low-Level Control)等,最終展示能在日常生活中發(fā)揮作用的機(jī)器人。
2、如果能成功降低制造成本、提高生產(chǎn)量,一個功能完善的人形機(jī)器人制作成本能降低多少?
Brett:如果我們回顧消費(fèi)品或汽車行業(yè)的發(fā)展歷史時,可以看到產(chǎn)品的價格與生產(chǎn)量之間存在強(qiáng)相關(guān)。根據(jù)經(jīng)驗(yàn)曲線(Experience Curve),每當(dāng)生產(chǎn)數(shù)量翻倍,產(chǎn)品的價格或成本就可能下降 20%或 30%。因此,我們可以認(rèn)為價格取決于生產(chǎn)量。
這個原理同樣適用于人形機(jī)器人的生產(chǎn)。目前,一個人形機(jī)器人大約有 1000 個零件,重量約為 150 磅(68 公斤)。相比之下,一個電動汽車可能有大約 1 萬個零件,重量可能在 4000-5000 磅(1800-2250 公斤)之間。
從長期來看,一個人形機(jī)器人的成本應(yīng)該低于一臺廉價電動汽車。這主要取決于機(jī)器人的執(zhí)行器、電機(jī)組件、傳感器的成本以及計算成本。
3、你們打算訓(xùn)自己的模型,還是集成其他模型?
Brett:要讓人形機(jī)器人從工廠走進(jìn)家庭,關(guān)鍵在于語言,所以 LLM 或視覺語言模型對我們的業(yè)務(wù)幫助很大。我們要讓機(jī)器人能夠從語義層面理解世界,做到理解和回應(yīng)用戶的需求和指令,恰好 LLM 可以做到這點(diǎn)。
因此,我們會逐步將視覺語言模型加入機(jī)器人的研發(fā)過程,從高層次的行為角度來幫助人形機(jī)器人理解人類在說什么,讓它能與人類進(jìn)行對話,同時推斷和理解人們在說什么以做出回應(yīng)。
我們很可能不會自己訓(xùn)模型,但我們可以在機(jī)器人系統(tǒng)上訓(xùn)練視覺語言模型,關(guān)聯(lián)傳感器數(shù)據(jù)。
打造一個正確的 AI 數(shù)據(jù)引擎對我們來說非常重要,它能確保我們對機(jī)器人產(chǎn)生的數(shù)據(jù)進(jìn)行準(zhǔn)確的訓(xùn)練,對神經(jīng)網(wǎng)絡(luò)進(jìn)行正確的訓(xùn)練,以便未來能夠有效地部署和使用。這也是驅(qū)動我們盡快讓產(chǎn)品進(jìn)入市場的動力,我們希望將更多的機(jī)器人投放市場,收集數(shù)據(jù),從而讓我們未來的機(jī)器人隊(duì)伍將變得更加智能、學(xué)會更多技能。
4、為什么需要軟硬件一體開發(fā)?
Brett:如果算上做控制系統(tǒng)(control)、中間件(middleware)和自主決策與行動能力(autonomy)的人,我們的軟件占比會比硬件稍微多一些,因?yàn)橛布䦂F(tuán)隊(duì)的員工只有 15 個左右,軟件規(guī)模要明顯大一些。
長遠(yuǎn)來看,軟件會成為公司最大的業(yè)務(wù)板塊。Figure 作為一家專注于 AI 的公司,以后會有一個龐大的 autonomy 團(tuán)隊(duì),并且研發(fā)出關(guān)鍵的 AI 數(shù)據(jù)引擎。
但硬件方面也同樣重要。如果我們真的想做出實(shí)現(xiàn)高性能、高可靠性、高安全性和低成本的人形機(jī)器人,就需要開發(fā)自己的執(zhí)行器、電子設(shè)備、電池和幾乎所有軟件,因?yàn)檫@些都沒有現(xiàn)成的解決方案。
長時間從事軟件開發(fā)再進(jìn)入硬件領(lǐng)域是真的很困難,研發(fā)硬件需要經(jīng)過一個漫長的迭代周期,這也是我們受挫的主要因素。
5、人形機(jī)器人的潛在大市場在哪里?何時出現(xiàn)?
Brett:我們計劃先在未來十幾年內(nèi)持續(xù)擴(kuò)大在商業(yè)勞動力市場的規(guī)模。我們關(guān)注的領(lǐng)域包括醫(yī)療保健、房地產(chǎn)、建筑和零售等,我相信這些領(lǐng)域都有巨大的市場潛力。
另外,還有一些市場尚未應(yīng)用人形機(jī)器人,比如房地產(chǎn)。科技房地產(chǎn)公司開發(fā)的在線平臺可以使用人形機(jī)器人來代替人類經(jīng)紀(jì)人提供服務(wù)。人們可以通過訪問網(wǎng)站預(yù)約看房,然后由人形機(jī)器人打開門迎接他們,在一個虛擬的房屋中全程介紹。這是一個價值數(shù)萬億美元的市場,但科技公司迄今為止還未涉足,因?yàn)槟壳胺康禺a(chǎn)領(lǐng)域的工作仍然過于依賴人力。
此外,還有許多行業(yè)的工作可以通過遠(yuǎn)程操作或其他技術(shù)來完成,人形機(jī)器人可以為這些行業(yè)帶來新的發(fā)展機(jī)會。
6、人形機(jī)器人會讓人們失去工作嗎?
Brett:我的觀點(diǎn)是在接下來的 10-20 年里,機(jī)器人業(yè)務(wù)的發(fā)展將與自動駕駛汽車的發(fā)展路徑類似。就像自動駕駛汽車,高速公路的測試視頻會比城市街道的更早公開,是因?yàn)槌鞘薪值烙懈叩陌踩蠛透嗟牟淮_定性。
同樣,人形機(jī)器人也會首先解決相對容易的問題,比如在預(yù)知環(huán)境和任務(wù)的情況下搬運(yùn)貨物。這類任務(wù)就像在高速公路上駕駛,相對簡單易行。然而,更復(fù)雜的任務(wù),例如在家中烹飪或照顧老年人,就像在城市街道上駕駛,更具挑戰(zhàn)性。
盡管大家對人形機(jī)器人的期望往往集中在復(fù)雜任務(wù)的解決上,比如谷歌的機(jī)器人做垃圾分類,豐田研究院在雜貨店等場景的研究,但這些都是非常困難的挑戰(zhàn)。
我很高興有這些研究,但從商業(yè)角度出發(fā),我們的首要任務(wù)應(yīng)該是解決那些簡單但必要的問題,然后逐漸將 AI 數(shù)據(jù)引擎應(yīng)用到更復(fù)雜的任務(wù)中。
所以 ,F(xiàn)igure 和其他研究團(tuán)隊(duì)關(guān)注的事情恰恰相反。我們的目標(biāo)是在倉儲制造領(lǐng)域應(yīng)用人形機(jī)器人,這個領(lǐng)域的勞動力短缺問題最為嚴(yán)重。全球約一半的 GDP 來自勞動力,我們正在面對全球范圍內(nèi)的勞動力短缺問題。隨著嬰兒潮一代的退休和生育率的下降,這個問題將越來越嚴(yán)重。
原文標(biāo)題 : Figure 01視頻被質(zhì)疑“注水”?看看創(chuàng)始人怎么說

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月8日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 4 “支付+”時代,支付即生態(tài) | 2025中國跨境支付十大趨勢
- 5 中國最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 7 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級隱形冠軍:賣機(jī)器人年入6.1億,港股上市