訂閱
糾錯(cuò)
加入自媒體

Odyssey新“世界模型”:讓你進(jìn)入視頻的世界,沉浸交互、實(shí)時(shí)生成

最近有一個(gè)挺有意思的模型。

在倫敦的初創(chuàng)公司Odyssey,上線了一個(gè) “互動(dòng)視頻生成模型”。

它把視頻,變成了一個(gè)可以互動(dòng)、實(shí)時(shí)生成的世界。就像玩第一人稱游戲一樣,可以在視頻里逛來逛去。

這個(gè)模型可以每40毫秒實(shí)時(shí)生成一幀高質(zhì)量畫面,用戶通過鍵盤、手柄、甚至未來直接通過說話,就能讓畫面發(fā)生改變。

你按一下鍵盤,視頻世界就做出反應(yīng),幾乎無延遲地讓你沉浸到這個(gè)世界。

1 不是游戲,不是CG,而是“世界模型”

跟傳統(tǒng)視頻或3D游戲不同,這項(xiàng)技術(shù)背后靠的是Odyssey自研的 “世界模型(World Model)”。

就是那個(gè)楊立昆和李飛飛大佬常掛在嘴邊的“世界模型”。

過去的視頻生成,是“批量產(chǎn)出”,一次生成大量圖像幀,組成整個(gè)片段。

而世界模型更像“逐幀思考”,它每時(shí)每刻都在預(yù)測:“你剛剛按了前進(jìn)鍵,我該生成什么景象?你剛剛轉(zhuǎn)頭,我該顯示什么空間?”

這就像大語言模型預(yù)測下一個(gè)單詞一樣,不過現(xiàn)在預(yù)測的是圖像,是動(dòng)態(tài)的、沉浸式的、交互式的世界。

2 攻克最大技術(shù)難點(diǎn):畫面漂移

不過,讓AI構(gòu)建一個(gè)世界,遠(yuǎn)比生成一張圖片復(fù)雜得多。

最大的問題是穩(wěn)定性。

簡單來說:AI每預(yù)測一幀,就往前走一步,但只要某一幀稍微出錯(cuò),后面的內(nèi)容可能就會(huì)徹底“走形”。專業(yè)術(shù)語叫做 漂移(drift)問題。

為了解決這個(gè)問題,Odyssey采用了一種取舍方式 —— “窄域預(yù)訓(xùn)練”。

它并不貪心地一上來就訓(xùn)練多樣世界,而是:

先在大量通用視頻上預(yù)訓(xùn)練,培養(yǎng)對真實(shí)世界的基本理解;

再用有限的特定環(huán)境做微調(diào),畫質(zhì)犧牲一丟丟,但穩(wěn)定性暴漲。

這個(gè)策略雖然降低了生成環(huán)境的多樣性,但大大提高了穩(wěn)定性。讓你不會(huì)在視頻中突然看到畫面塌方、人物扭曲這些問題。

3 資本望風(fēng)而動(dòng),皮克斯創(chuàng)始人親自坐鎮(zhèn)

Odyssey不止是技術(shù)先鋒,還是資本寵兒。

Odyssey的兩位創(chuàng)始人Oliver Cameron和Jeff Hawke都出身自動(dòng)駕駛?cè),一個(gè)是Wayve自動(dòng)駕駛技術(shù)的AI研究元老,一個(gè)是Voyage自動(dòng)駕駛公司的CEO。

二人將自動(dòng)駕駛用到的“世界建模”理念,完美嫁接到AI視頻中。

更重量級的大佬,Pixar聯(lián)合創(chuàng)始人、迪士尼動(dòng)畫前總裁Ed Catmull也親自加入董事會(huì)。

是的,就是做出《玩具總動(dòng)員》的那位。

目前,Odyssey已獲得超過2700萬美元融資,投資方包括EQT Ventures、GV(Google Ventures)等一線基金。 

4 前景無限,不只娛樂

Odyssey坦白說,目前的版本還很初期:畫面還不夠清晰,互動(dòng)感仍有限,場景穩(wěn)定性也不完美。

但這不妨礙我們透過這些粗糙,看見一些真正有意義的東西。

Odyssey相信,這不只是一種技術(shù)突破,而是一種新的敘事媒介。

你不再只是看旅游Vlog,而是直接“走進(jìn)”巴厘島的沙灘;

醫(yī)學(xué)院教學(xué)視頻,變成能“操刀演練”的模擬課堂;

影視創(chuàng)作者只需控制角色和環(huán)境參數(shù),就能實(shí)時(shí)生成整段劇情片段;

廣告不再是死板的片段,而是用戶可以在其中互動(dòng)的品牌空間。

回顧人類文明的發(fā)展,從壁畫、文字、戲劇,到廣播、電影、電子游戲,每一次媒介革命都深刻改變了我們理解世界的方式。

如今,這種由AI驅(qū)動(dòng)的、可實(shí)時(shí)交互的視頻世界,或許會(huì)成為下一個(gè)“敘事引擎”。

對于Odyssey的世界模型,歡迎在評論區(qū)分享你的看法????

       原文標(biāo)題 : Odyssey新“世界模型”:讓你進(jìn)入視頻的世界,沉浸交互、實(shí)時(shí)生成

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號