訂閱
糾錯
加入自媒體

李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰

圖片

編輯 重點(diǎn)君

11月24日,斯坦福大學(xué)教授、World Labs創(chuàng)始人李飛飛參加播客訪談,詳細(xì)闡述了她對空間智能(Spatial Intelligence)的構(gòu)想,并討論她與楊立昆在世界模型(World Models)上的不同觀點(diǎn)流派問題。

在世界模型的構(gòu)建上,李飛飛與前Meta首席科學(xué)家楊立昆(Yann LeCun)的理念常被外界視為兩種流派。楊立昆傾向于讓模型學(xué)習(xí)世界的抽象“隱式表征”,而不必還原每一幀像素;而李飛飛的Marble則力求從抽象的內(nèi)部表征中產(chǎn)生顯式表征,明確輸出可視化的3D世界。

李飛飛并不認(rèn)為兩者是對立關(guān)系,她表示如果最終要構(gòu)建一個通用的世界模型,隱式表征和顯式表征最終都是必要的。World Labs采用的是“刻意為之”的顯式輸出,因為其商業(yè)目標(biāo)服務(wù)于游戲開發(fā)、視覺特效和建筑設(shè)計等領(lǐng)域的人類創(chuàng)作者,他們的日常工作需要一個可視化的、可交互的3D輸出結(jié)果。但在模型內(nèi)部,RTFM同樣包含隱式表征。她認(rèn)為,未來的架構(gòu)將是兩者的混合體。

作為World Labs的創(chuàng)始人,李飛飛在訪談中透露了公司的首個產(chǎn)品Marble,以及其背后的技術(shù)底座“實時幀模型”(RTFM)。與單純生成視頻的模型不同,Marble致力于生成具有一致性和持久性的3D空間,其模型不僅是多模態(tài)的,支持文本、圖像、視頻甚至粗略的3D布局作為輸入,更重要的是它試圖在推理過程中保持物體一致性。

她說,目前的LLM主要通過海量的文本數(shù)據(jù)學(xué)習(xí),雖然語言模型令人驚嘆,但人類大量的知識是無法僅通過語言捕捉的。為了構(gòu)建真正的通用人工智能,AI必須走出文本的限制,通過視覺和行動去體驗物理世界。人類的學(xué)習(xí)過程本質(zhì)上是具身(Embodied)的,我們在沒有語言的情況下與世界大量互動,感知光線、觸覺、重力和空間關(guān)系。

當(dāng)被問及目前的AI是否真正“理解”物理世界時,李飛飛認(rèn)為,目前大多數(shù)生成式視頻中展現(xiàn)的水流或樹木擺動,并非基于牛頓力學(xué)計算,而是基于海量數(shù)據(jù)的統(tǒng)計學(xué)涌現(xiàn)。雖然AI可能通過數(shù)據(jù)擬合出運(yùn)動定律,但要達(dá)到愛因斯坦提出相對論那種層面的抽象,目前的Transformer架構(gòu)尚未展現(xiàn)出足夠的證據(jù)。

對于技術(shù)的演進(jìn)速度,李飛飛認(rèn)為在五年內(nèi),我們有望看到AI在理解物理世界方面取得重大進(jìn)展。她描繪了一個基于“多重宇宙”(Multiverse)的未來圖景:通過大幅降低3D內(nèi)容生成的門檻,人類可以低成本地創(chuàng)造出無數(shù)個平行世界,這些數(shù)字平行世界將成為人類物理體驗的無限延伸,重塑娛樂、教育、遠(yuǎn)程協(xié)作以及科學(xué)探索等多個領(lǐng)域場景

李飛飛訪談內(nèi)容劃重點(diǎn):

1. 空間智能是核心

僅靠語言不足以構(gòu)建通用人工智能(AGI)。人類大量智能(如空間推理、急救反應(yīng))是非語言的。AI必須獲得“空間智能”(Spatial Intelligence),要像生物一樣,擁有深度感知的空間能力,建立起看、做和想象之間的完整閉環(huán)。

2.世界模型的新范式

World Labs 的核心產(chǎn)品 Marble 與普通視頻生成模型的最大區(qū)別在于“物體恒常性”(Object Permanence)。在 Marble 生成的世界里,當(dāng)你轉(zhuǎn)身再轉(zhuǎn)回來,背后的物體依然存在且保持原狀,而不是像夢境一樣隨機(jī)變形。

李飛飛團(tuán)隊提出了“實時幀模型”(RTFM),其目標(biāo)是在單張 H100 GPU 的算力約束下,實現(xiàn)高效的 3D 空間推理。這是為了構(gòu)建一個在幾何上一致、在時間上持久的“數(shù)字容器”,為未來能夠理解物理法則的 AI 打下地基。

3. 與楊立昆和而不同

楊立昆主張世界模型要做抽象理解的“隱式表征”,李飛飛的Marble則力求從抽象的內(nèi)部表征中產(chǎn)生顯式表征。李飛飛認(rèn)為隱式表征和顯式表征最終必須融合,但目前 World Labs 刻意選擇輸出顯式 3D 表征,目的是賦能人類。

未來的AI 不應(yīng)只是一個黑盒,而應(yīng)成為游戲開發(fā)者、建筑師和藝術(shù)家的“神經(jīng)空間引擎”(Neural Spatial Engine)。它融合了傳統(tǒng)物理引擎(如Unreal)的確定性規(guī)則和生成式 AI 的統(tǒng)計創(chuàng)造力,讓普通人也能瞬間構(gòu)建復(fù)雜的 3D 交互世界。

4. 視覺領(lǐng)域的“Next Token”難題

語言模型有完美的“預(yù)測下一個Token”作為目標(biāo)函數(shù)。但在視覺領(lǐng)域,“預(yù)測下一幀”雖然強(qiáng)大但并不完美,因為它將三維世界壓縮為二維,丟失了結(jié)構(gòu)信息。尋找視覺領(lǐng)域的“通用任務(wù)函數(shù)”仍是未解之謎。

5. AI目前還不懂物理

AI生成的物理現(xiàn)象(如重力、碰撞)多源于統(tǒng)計規(guī)律的模仿,而非對物理定律的因果理解,F(xiàn)有的Transformer架構(gòu)可能難以產(chǎn)生如“相對論”般的高級抽象,未來五年,行業(yè)需要尋找一種新的架構(gòu)突破,讓 AI 從統(tǒng)計相關(guān)性跨越到真正的因果邏輯和物理推理。

圖片

以下為李飛飛訪談實錄:

主持人:歡迎收聽本期播客。在這一集中,我很榮幸再次與人工智能先驅(qū)李飛飛博士對話。幾年前我曾在播客上邀請過飛飛,我也推薦大家去聽那一期節(jié)目。

在今天的對話中,我們將探討她關(guān)于“世界模型”(World Models)的見解以及“空間智能”(Spatial Intelligence)的重要性——這些都是打造真正理解現(xiàn)實世界并能與之互動的 AI 的關(guān)鍵要素。雖然大型語言模型(LLMs)已經(jīng)非常驚人,但大量(甚至大部分)人類知識并未被文字所捕捉。為了實現(xiàn)更廣義的人工智能,模型需要親身體驗世界,或者至少通過視頻來學(xué)習(xí)。我們還討論了她的創(chuàng)業(yè)公司 World Labs 以及他們的第一個產(chǎn)品 Marble。Marble 可以從模型的內(nèi)部表征生成令人難以置信的復(fù)雜 3D 空間。

1.從計算機(jī)視覺到空間智能的演進(jìn)

主持人:我想先把話題從Marble 和你們那個能生成一致且持久的、供觀眾漫游的 3D 世界的新模型上移開,多談?wù)勀銥槭裁窗阎攸c(diǎn)放在世界模型和空間智能上。為什么這是超越單純語言學(xué)習(xí)的必要條件?

另外,你的方法與楊立昆的方法有何不同?你現(xiàn)在的世界模型工作,究竟是你過去在環(huán)境智能(Ambient Intelligence)工作的延伸,還是平行的另一條路線?

李飛飛:過去幾年我一直思考的空間智能工作,實際上是我整個計算機(jī)視覺職業(yè)生涯重點(diǎn)的延續(xù)。

我之所以強(qiáng)調(diào)“空間智能”,是因為我們的技術(shù)已經(jīng)發(fā)展到了這樣一個階段:其復(fù)雜程度和深層能力已經(jīng)不再停留在僅僅“盯著”一張圖像的層面,甚至不僅僅是簡單的視頻理解。現(xiàn)在的核心是深度感知的空間,這與機(jī)器人學(xué)、具身智能(Embodied AI)以及環(huán)境智能都緊密相連。從這個角度看,這確實是我在計算機(jī)視覺與 AI 領(lǐng)域職業(yè)生涯的自然延伸。

主持人:正如你和其他許多人所指出的,語言模型是從以文本編碼的人類知識中學(xué)習(xí)的,但那只是人類知識的一個非常有限的子集。人類的學(xué)習(xí)是通過在沒有語言的情況下與世界大量互動獲得的。因此,如果我們要超越當(dāng)前這些雖然了不起但仍有局限的大型語言模型,開發(fā)出能對世界有更直接體驗、能更直接從世界中學(xué)習(xí)的模型就顯得尤為重要。

談到具體方法,以Marble 為例,你的做法是將模型學(xué)到的世界內(nèi)部表征提取出來,并創(chuàng)建一個與之對應(yīng)的外在視覺現(xiàn)實。而楊立昆的方法主要是建立內(nèi)部表征,讓模型能夠?qū)W習(xí)運(yùn)動物理定律之類的東西。這之間有平行關(guān)系嗎?這兩種方法是互補(bǔ)的,還是有重疊?

李飛飛:首先,我不會把自己和楊立昆對立起來。我認(rèn)為我們在智力上處于同一個連續(xù)體中,只是對空間智能和世界建模采取了不同的切入點(diǎn)。

如果你讀過我最近發(fā)表的那篇關(guān)于“空間智能”的長文(我稱之為宣言),我在這一點(diǎn)上說得很清楚。我認(rèn)為,如果最終要構(gòu)建一個通用的、全能的世界模型,隱式表征(Implicit Representation)和某種程度的顯式表征(Explicit Representation)最終可能都是必要的,尤其是在輸出層。

例如,World Labs 目前的世界模型 Marble 確實會顯式地輸出 3D 表征,但在模型內(nèi)部,它同時也包含隱式表征。老實說,我認(rèn)為這兩者最終都是不可或缺的。

在輸入模態(tài)方面也是如此。是的,從視頻中學(xué)習(xí)非常重要,畢竟整個世界可以看作是大量連續(xù)幀的輸入。但真正的智能,無論是對于動物還是機(jī)器,不僅僅是被動觀看。它還涉及到動作、互動的具身體驗,以及觸覺、聲音、氣味、物理力(Physical Forces)、溫度等。因此,我認(rèn)為這在本質(zhì)上是深度多模態(tài)的(Deeply Multimodal)。

Marble 作為一個模型只是第一步。在我們幾天前發(fā)布的那篇技術(shù)報告中,我們要表達(dá)得相當(dāng)明確:多模態(tài)既是一種學(xué)習(xí)范式,也是一種輸入范式。目前學(xué)術(shù)界對此有很多討論,這也展示了該領(lǐng)域正處于早期且令人興奮的階段?梢哉f,我們在確切的模型架構(gòu)和表征方式上的探索還遠(yuǎn)未結(jié)束。

2.超越文本:多模態(tài)輸入與學(xué)習(xí)范式

主持人:在你那個世界模型中,輸入主要是視頻嗎?

李飛飛:如果你體驗過Marble,你會發(fā)現(xiàn)我們的世界模型輸入是相當(dāng)多模態(tài)的。你可以只使用純文本,也可以使用一張或多張圖像,可以處理視頻,甚至可以輸入粗略的 3D 布局(比如盒子或體素)。它是多模態(tài)的,而且我認(rèn)為隨著我們的推進(jìn),這方面的能力會進(jìn)一步加深。

文本只是一種形式。是的,但這正是我們產(chǎn)生分歧的地方。大多數(shù)動物并不是通過復(fù)雜的語言來學(xué)習(xí)的,但人類是。不過,我們今天的AI 世界模型(World Models)將從大量的語言輸入以及其他模態(tài)中學(xué)習(xí),它并非僅僅通過語言來進(jìn)行信息的壓縮和傳遞。

主持人:這也是大型語言模型(LLMs)的一個限制,即模型在訓(xùn)練后參數(shù)就固定了。所以它們不會持續(xù)學(xué)習(xí),盡管在測試時的推理階段會有一定程度的學(xué)習(xí)。這是你在構(gòu)建世界模型時試圖解決的問題嗎?因為我們可以推測,世界模型在遇到新環(huán)境時應(yīng)當(dāng)是不斷學(xué)習(xí)的。

李飛飛:是的,持續(xù)學(xué)習(xí)(Continuous Learning)范式確實非常重要。對于生物來說就是如此,這也是我們?nèi)祟悓W(xué)習(xí)的方式。即使在生物學(xué)習(xí)中,也存在在線學(xué)習(xí)與離線學(xué)習(xí)的區(qū)別。在我們目前的世界模型形式中,仍然更多地處于批量或離線學(xué)習(xí)模式。但我們絕對持開放態(tài)度,尤其是未來涉及到在線學(xué)習(xí)和多模態(tài)融合時。

主持人:那會是怎樣的?會是一個完全不同的架構(gòu),還是僅僅是工程實現(xiàn)的問題?

李飛飛:我會保持開放的心態(tài)。我認(rèn)為會是兩者的混合。顯然這需要優(yōu)秀的工程實現(xiàn),比如微調(diào)(Fine-tuning)和在線學(xué)習(xí),但也可能會出現(xiàn)新的架構(gòu)。

主持人:你能談?wù)剬崟r幀模型(Real-Time Frame Model)嗎?以及你們在世界模型方面的工作?

李飛飛:你指的是我們幾周前發(fā)布的一篇技術(shù)博客,那是專門深入探討我們的實時幀模型的。World Labs 是一個以研究為主的組織,雖然我們也關(guān)心產(chǎn)品,但現(xiàn)階段大量工作是以模型為先的。我們正著重研究如何推進(jìn)空間智能(Spatial Intelligence)。這項特定的工作實際上是專注于如何實現(xiàn)基于幀的生成,并盡可能保持幾何一致性和持久性。

在早期的基于幀的生成操作中,當(dāng)你向前移動視角時,往往會失去那種物體持久性。在這個特定案例中,我們努力實現(xiàn)平衡,并在推理期間以計算高效的方式完成這一點(diǎn),即在推理時僅使用單個H100 GPU。我們不太清楚其他基于幀的模型的情況,因為他們沒透露推理時使用了多少芯片,但我們假設(shè)那是相當(dāng)大的算力消耗。

3.尋找空間智能的“通用任務(wù)函數(shù)”

主持人:在你的那篇“宣言”里,你談到了需要一個“通用任務(wù)函數(shù)”(General Task Function)。這類似于語言模型中的“下一個 Token 預(yù)測”(Next Token Prediction)。它是否帶有預(yù)測元素?

李飛飛:生成式AI 最重大的突破之一,確實是發(fā)現(xiàn)了“下一個 Token 預(yù)測”這個目標(biāo)函數(shù)。這是一個非常優(yōu)美的表述,因為語言是以序列化方式存在的,你可以將語言 Token 化為這種序列表示。你用于下一個 Token 預(yù)測的學(xué)習(xí)函數(shù),正是推理時所需要的。無論是人類還是計算機(jī)生成語言,實際上都是一個接一個地把標(biāo)記向前推進(jìn)。擁有一個與最終實際執(zhí)行任務(wù)完全(100%)對齊的目標(biāo)函數(shù)是極好的,因為它使優(yōu)化可以完全針對目標(biāo)進(jìn)行。

但在計算機(jī)視覺或世界建模中,情況沒那么簡單。語言本質(zhì)上是人類生成的,自然界中并不存在你盯著看的“語言”,哪怕你最終學(xué)會了閱讀,那也是因為它已經(jīng)被生成了。但我們與世界的關(guān)系要更加多模態(tài):世界就在那里等著你去觀察、解讀、推理并與之交互。人類還有一種“心眼(Mind's Eye)”,能夠構(gòu)建不同版本的現(xiàn)實、想象并生成故事。這要復(fù)雜得多。

主持人:那么,定義這個通用任務(wù)的是什么?或者說,我們可以使用的通用目標(biāo)函數(shù)是什么?有什么能像“下一個 Token 預(yù)測”一樣強(qiáng)大嗎?是 3D 重建嗎?

李飛飛:這是一個非常深刻的問題。有些人實際上會爭辯說,世界建模的通用任務(wù)可能就是對世界進(jìn)行3D 重建。如果這是目標(biāo)函數(shù)并且我們達(dá)成了它,很多事情就會水到渠成。但我并不這么認(rèn)為,因為大多數(shù)動物的大腦并不一定會進(jìn)行精確的三維重建,然而老虎或人類在空間上卻是如此強(qiáng)大的視覺智能體。

“下一幀預(yù)測”確實有一定力量。首先有大量用于訓(xùn)練的數(shù)據(jù);其次,為了預(yù)測下一幀,你必須學(xué)習(xí)世界的結(jié)構(gòu),因為世界不是白噪聲,幀與幀之間存在大量結(jié)構(gòu)連接。

但這也令人不滿意,因為你把世界當(dāng)作二維的,這種壓縮方式非常糟糕。即使你做得完美,3D 結(jié)構(gòu)也只是隱式的,這種基于幀的方式會丟失很多信息。所以在這方面仍有很多探索空間。

主持人:我得問你,你們把模型命名為RTFM(Real-Time Frame Model),這是個玩笑嗎?

李飛飛:這確實是一次絕妙的“表演”。名字不是我起的,是我們的一位研究員,他在命名方面真的很有天賦。我們覺得用那個名字玩?zhèn)梗很有趣。

主持人:但是RTFM 是在預(yù)測下一幀,并且具有三維一致性,對吧?

李飛飛:是的。

主持人:這就是模型所學(xué)內(nèi)部表示有趣的地方。比如我看著電腦屏幕,即使看不見背面,我也知道它長什么樣,因為我腦海中有它的內(nèi)部表征。這就是為什么你可以在屏幕這個二維平面上移動物體,卻能看到它的另一面。模型擁有三維物體的內(nèi)部表征,即使它當(dāng)前的視角看不見物體的背面。當(dāng)你說到空間智能時,這是否包括自然的物理法則?比如理解你不能穿過一個固體物體?或者如果站在懸崖邊,它知道那是邊緣,如果走過去會掉下去而不是浮在空中?

李飛飛:你描述的既有物理層面也有語義層面。從懸崖掉下去很大程度上取決于重力定律,但穿墻而過則基于材質(zhì)和語義(固體與非固體)。目前作為一個現(xiàn)有模型,RTFM 還沒有把重點(diǎn)放在顯式的物理學(xué)上。

大部分的“物理”實際上是從統(tǒng)計中涌現(xiàn)的。許多生成式視頻模型展示的水流或樹木移動,并不是基于牛頓力學(xué)定律和質(zhì)量計算出來的,而是基于對大量統(tǒng)計模式的遵循。World Labs 目前仍然專注于生成和探索靜態(tài)世界,但我們也將探索動態(tài),其中很多將是統(tǒng)計學(xué)習(xí)。

我不認(rèn)為今天的AI 有能力在不同層次上進(jìn)行抽象并推導(dǎo)物理規(guī)律。另一方面,我們有像 Unreal 這樣的空間物理引擎,其中有明確的物理定律在起作用。最終,這些游戲引擎/物理引擎將與世界生成模型融合成我稱之為“神經(jīng)空間引擎(Neural Spatial Engine)”的東西。我們正朝著那個方向前進(jìn),但現(xiàn)在還處于早期階段。

4.顯式表征的價值:賦能創(chuàng)作者與產(chǎn)業(yè)

主持人:我不是想讓你和楊立昆對立。但你似乎關(guān)注的是從抽象的內(nèi)部表征中產(chǎn)生顯式表征,而楊立昆只是關(guān)注內(nèi)部表征。

李飛飛:在我看來它們會完美結(jié)合。我們同時探索兩者。輸出顯式表征其實是一種非?桃獾姆椒,因為我們希望這對人有用。

我們希望這對那些在創(chuàng)作、模擬和設(shè)計的人有用。如果你看看當(dāng)今的行業(yè),無論你是在制作視覺特效(VFX)、開發(fā)游戲、設(shè)計室內(nèi)、還是為機(jī)器人或自動駕駛車輛進(jìn)行仿真(數(shù)字孿生),這些行業(yè)的工作流程都非常依賴 3D。我們希望這些模型對個人和企業(yè)都絕對有用。

主持人:這就回到了持續(xù)學(xué)習(xí)的話題。比如一個機(jī)器人上的模型,通過攝像機(jī)在世界中移動獲取數(shù)據(jù),最終它不僅學(xué)習(xí)場景,還理解空間的物理性,然后與語言結(jié)合?這是否需要持續(xù)學(xué)習(xí)?

李飛飛:絕對如此。尤其是當(dāng)接近某個用例時,持續(xù)學(xué)習(xí)至關(guān)重要。這可以通過多種方式實現(xiàn):在語言模型中,將上下文本身作為輸入就是一種持續(xù)學(xué)習(xí)(作為記憶);此外還有在線學(xué)習(xí)和微調(diào)。在空間智能領(lǐng)域,無論是個性化機(jī)器人還是具有特定風(fēng)格的藝術(shù)家,最終都會推動這項技術(shù)在不同時間尺度上變得更具響應(yīng)性,以滿足具體用例的需求。

5.未來展望:AI模型的技術(shù)跨越

主持人:你現(xiàn)在的進(jìn)展非?,特別是想到你曾在新澤西經(jīng)營過干洗店,雖然那是很短的一段時間,但這種跨越真是令人驚嘆。你對這項技術(shù)五年后的發(fā)展程度有什么判斷嗎?比如模型內(nèi)部是否會內(nèi)置某種物理引擎,或者擁有更長時間尺度的學(xué)習(xí)能力,從而建立起更豐富的內(nèi)部表征?也就是說,模型是否會開始真正理解物理世界?

李飛飛:實際上,作為一名科學(xué)家,很難給出一個精確的時間預(yù)測,因為有些技術(shù)的進(jìn)展比我預(yù)期的快得多,而有些則慢得多。但我認(rèn)為這是一個非常好的目標(biāo),而且五年確實是一個相當(dāng)合理的估計。我不知道我們會不會更快實現(xiàn),但在我看來,這比猜測五十年要靠譜得多,當(dāng)然也比猜測五個月要靠譜。

主持人:你能否稍微談?wù),為什么你認(rèn)為“空間智能”(Spatial Intelligence)是下一個前沿?正如我們所知,包含在文本中的人類知識只是全部人類知識的一個子集。雖然它非常豐富,但你不能指望一個 AI 模型僅通過文本就能理解世界。能具體談?wù)劄槭裁催@很重要嗎?以及 Marble 和 World Labs 是如何與這個更大的目標(biāo)相關(guān)聯(lián)的?

李飛飛:從根本上講,技術(shù)應(yīng)該幫助人類。與此同時,理解智能科學(xué)本身是我能想到的最迷人、最大膽、最有雄心的科學(xué)探索,這是屬于21世紀(jì)的探索課題。

無論你是被科學(xué)的好奇心吸引,還是被用技術(shù)幫助人類的動機(jī)驅(qū)動,這都指向了一點(diǎn):我們的大量智能,以及我們工作中的大量智能是超越語言的。我曾半開玩笑地說,你無法用語言去滅火。在我的宣言里,我舉了幾個例子:無論是空間推理、DNA 雙螺旋結(jié)構(gòu)的推導(dǎo),還是一名急救人員在快速變化的情況中與團(tuán)隊協(xié)作滅火,很多內(nèi)容都超越了語言。

所以,從應(yīng)用角度來看這是顯而易見的;作為一項科學(xué)探索,我們應(yīng)該盡最大努力去破解如何發(fā)展空間智能技術(shù),帶我們進(jìn)入下一個層次。從宏觀角度來看,這就是驅(qū)動我的雙重動機(jī):科學(xué)發(fā)現(xiàn)以及為人類制造有用的工具。

我們可以更深入地探討一下其實用性。無論是在談?wù)搫?chuàng)造力、模擬、設(shè)計、沉浸式體驗、教育還是醫(yī)療保健,甚至是制造業(yè),利用空間智能可以做的事情實在太多了。實際上,我很興奮,因為許多關(guān)心教育、沉浸式學(xué)習(xí)和體驗的人告訴我,Marble(我們需要發(fā)布的首個模型)激發(fā)了他們思考如何將其用于沉浸式體驗,使學(xué)習(xí)更具互動性和趣味性。這是如此自然,因為還不會說話的兒童完全就是通過沉浸式體驗來學(xué)習(xí)的。即便作為成年人,我們的生活也大多沉浸在這個世界中,雖然包括聽說讀寫,但也包括實踐、互動和享受。

主持人:是的。Marble 讓所有人都印象深刻的一點(diǎn)是,它不僅僅是生成下一幀畫面,而是在一個空間中移動,而且它僅在一塊 H100 GPU 上運(yùn)行。我在你其他的演講中聽到你提到過“體驗多重宇宙”(experiencing the multiverse)。大家一開始都很興奮,直到意識到這需要巨大的計算量和昂貴的成本。你真的認(rèn)為這是朝著為教育創(chuàng)建虛擬世界邁出的一步嗎?因為看起來你們已經(jīng)能夠減少計算負(fù)擔(dān)了。

李飛飛:首先,我真的相信在推理方面我們會加速,我們將變得更高效、更優(yōu)秀、規(guī)模更大、質(zhì)量更高。這是技術(shù)的趨勢。我也相信多重宇宙的概念。就我們所知,整個人類歷史的經(jīng)驗只存在于一個世界里,確切地說是地球這個物理實體。雖然有極少數(shù)人登上過月球,但也就僅此而已。我們在3D 空間中建設(shè)文明、生活、做所有事情。

但隨著數(shù)字革命和數(shù)字爆炸,我們正把生活的一部分轉(zhuǎn)移到數(shù)字世界中,這兩者有很多交叉。我并不想描繪一種我們放棄了物理世界的反烏托邦圖景,也不會描繪一種每個人都戴著頭盔、永遠(yuǎn)無法欣賞真實世界的極端烏托邦式虛擬世界,那是生命最充實的部分,我會拒絕這兩種極端觀點(diǎn)。

但從實用角度以及對未來的設(shè)想來看,數(shù)字世界是無邊無際的。它是無限的,它為我們提供了物理世界無法允許的更多維度和體驗。例如,我們討論過關(guān)于學(xué)習(xí)的問題。我真希望能以更互動、更沉浸的方式學(xué)習(xí)化學(xué)。我記得大學(xué)化學(xué)課有很多關(guān)于分子排列、理解對稱性和分子結(jié)構(gòu)不對稱性的內(nèi)容。我真希望能在沉浸式體驗中親自感受那些東西。

我遇到的許多創(chuàng)作者,我意識到在他們的腦海中,每一瞬間都有無數(shù)的想法,但他們受制于工具的限制。例如使用Unreal Engine(虛幻引擎),要把腦中的一個世界表達(dá)出來需要花費(fèi)數(shù)周甚至數(shù)小時的工作時間。無論你是制作一部奇幻音樂劇,還是為新生兒設(shè)計臥室,如果我們允許人們像在物理世界中一樣,充分利用數(shù)字宇宙去反復(fù)嘗試、交流和創(chuàng)造,那將非常有趣。

此外,數(shù)字時代也在幫助我們打破物理邊界和勞動的限制。比如遠(yuǎn)程操控機(jī)器人。我完全可以想象創(chuàng)作者通過具身化的化身(Avatar)在全球協(xié)作,通過機(jī)械臂或任何形態(tài)以及數(shù)字空間,使他們既能在物理世界中工作,也能在數(shù)字世界中工作。電影行業(yè)也將被徹底改變,現(xiàn)在的電影是被動體驗,盡管很美好,但我們將改變獲得娛樂的方式。所以這一切都需要多重世界。

主持人:還有關(guān)于瞬移或者遙操作機(jī)器人,比如有人在談?wù)撛谛⌒行巧祥_采稀土。如果你不需要親身到場,而是能遠(yuǎn)程操作機(jī)器人,那就在那些空間里實現(xiàn)了。你所談?wù)摰氖莿?chuàng)建人們可以體驗的3D 空間的顯式表征。在你的模型中,這個模型自身在多大程度上“理解”它所處的空間?它是內(nèi)化了這些信息,還是僅僅是將其顯式地投射出來?

這是一個朝著真正理解世界的人工智能努力的過程。不僅僅是對三維空間有一個表示,而是真正理解物理定律,理解它所看到的東西,甚至包括這些東西的價值、有用性,以及如何操縱物理世界。你認(rèn)為目前已經(jīng)存在多少這樣的理解?要讓那些模型真正理解這個世界,還需要發(fā)生什么?

李飛飛:這是一個很棒的問題。“理解”是一個很深刻的詞。當(dāng)AI “理解”某樣?xùn)|西時,它本質(zhì)上與人類的理解不同。部分原因是我們是非常不同的存在。人類是具身的(embodied),是在一個有形的身體里存在的。例如,當(dāng)我們真正理解“我的朋友很高興”時,這不僅僅是抽象的理解。你能感受到你體內(nèi)發(fā)生的化學(xué)反應(yīng),釋放快樂激素,心跳加速,情緒改變。那種理解層次與抽象的AI Agent非常不同。

AI Agent能夠正確地分配意義并建立聯(lián)系。例如,在 Marble 我們的產(chǎn)品中,你可以進(jìn)入世界生成的高級模式進(jìn)行編輯。你可以預(yù)覽這個世界并說:“我不喜歡這張沙發(fā)是粉色的,把它換成藍(lán)色。”然后它就把它改成藍(lán)色。它是否理解“藍(lán)色沙發(fā)”和“更改”這個詞的含義?是的。因為沒有這種理解,它就無法執(zhí)行任務(wù)。

但它是否像你我一樣理解關(guān)于沙發(fā)的一切?包括沙發(fā)的用途、甚至無用的信息?它有關(guān)于沙發(fā)的記憶嗎?它會把“沙發(fā)”這個概念推廣到許多其他事物上嗎?不,它沒有。作為一個模型,它的能力有限,只能根據(jù)要求創(chuàng)建一個包含藍(lán)色沙發(fā)的空間。

所以我認(rèn)為AI 確實能“理解”,但不要將這種理解誤解為擬人化的、人類層面的理解。這種理解更多是語義層面的,而不是那種光線打在視網(wǎng)膜上產(chǎn)生感知體驗的理解。

主持人:我看過你和Peter Diamandis 以及埃里克·施密特(Eric Schmidt)的討論。其中有一點(diǎn)讓我印象深刻,是關(guān)于 AI 可能具有創(chuàng)造力或用于輔助科學(xué)研究的討論。當(dāng)時給出的類比是:如果在愛因斯坦發(fā)現(xiàn)相對論之前就有人工智能,AI 能推理出那一發(fā)現(xiàn)嗎?對于 AI 來說,要具有這種科學(xué)推理層面的創(chuàng)造力,還缺少什么?

李飛飛:我認(rèn)為我們更接近于讓AI 推導(dǎo)出雙螺旋結(jié)構(gòu),而不是提出狹義相對論。部分原因是我們已經(jīng)看到了很多出色的蛋白質(zhì)折疊相關(guān)工作。推斷雙螺旋結(jié)構(gòu)的表示更扎根于空間和幾何。

而狹義相對論的表述是在抽象層面上。我們在物理中看到的所有事物,從牛頓定律到量子力學(xué),都是將作用抽象到因果層面。比如質(zhì)量、力這些概念,是被抽象到不再僅僅是純粹統(tǒng)計模式生成的層次。語言可以是統(tǒng)計性的,3D 或 2D 世界的動力學(xué)可以是統(tǒng)計性的,但對力、質(zhì)量、磁性以及因果關(guān)系的抽象,并非純粹的統(tǒng)計性,而是非常深刻的因果性和抽象性。

我和Eric 在臺上都在說,如果我們把所有關(guān)于天體觀測的數(shù)據(jù)、衛(wèi)星數(shù)據(jù)都聚合起來交給當(dāng)今的 AI,它也許能通過數(shù)據(jù)推導(dǎo)并擬合出牛頓運(yùn)動定律。

主持人:既然AI 如果給出數(shù)據(jù)就能推斷出運(yùn)動定律,那你為什么認(rèn)為它無法推導(dǎo)出相對論那些定律呢?

李飛飛:當(dāng)我們說那些定律被“推導(dǎo)”出來時,牛頓不得不推導(dǎo)、抽象出諸如“力”、“質(zhì)量”、“加速度”以及那些基本常數(shù)的概念。那些概念處于一個我還沒有在目前的AI 中見過的抽象層面。

如今的AI 可以利用大量數(shù)據(jù),但在那個層面的抽象表示、變量或關(guān)系上,還沒有太多證據(jù)表明它能做到。我并不了解 AI 中發(fā)生的一切,如果我被證明是錯的,我很樂意接受。但我還沒聽說過有任何工作能在 Transformer 模型的架構(gòu)中做到那種層次的抽象。我看不出那種抽象能從哪里來,這就是我對此表示懷疑的原因。這需要構(gòu)建內(nèi)部抽象的內(nèi)部表征,以及應(yīng)用邏輯知識的規(guī)則。這可能需要我們在基礎(chǔ)架構(gòu)和算法上取得更多進(jìn)展。

主持人:這正是我想問的。你一直在和人們討論后Transformer(post-transformer)架構(gòu)。你是否預(yù)期會出現(xiàn)一種新的架構(gòu)能解鎖其中一些能力?

李飛飛:我同意,我確實認(rèn)為我們會有架構(gòu)上的突破。我不認(rèn)為Transformer 是 AI 的最后一項發(fā)明。在宏觀的時間尺度上,與宇宙歷史相比,人類存在的時間并不長,但在我們簡短的歷史中,我們從未停止創(chuàng)新。所以我不認(rèn)為Transformer 是 AI 的最終算法架構(gòu)。

主持人:你曾提到,你曾設(shè)想如果你能讓一個AI 系統(tǒng)為圖像打標(biāo)簽或生成說明,那本該是你職業(yè)生涯的巔峰。當(dāng)然你早就超越了這一點(diǎn)。那么現(xiàn)在,你想象中未來職業(yè)生涯的巔峰成就從今天開始會是什么?

李飛飛:我確實認(rèn)為開啟“空間智能”很重要。創(chuàng)建一個真正將感知與推理相連接的模型:從“看見”到“做”,包括規(guī)劃和想象,并將想象轉(zhuǎn)化為創(chuàng)造。那會非常了不起。一個能同時做到這三點(diǎn)的模型。

       原文標(biāo)題 : 李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號