訂閱
糾錯(cuò)
加入自媒體

國(guó)產(chǎn)AI視頻三國(guó)殺:可靈、即夢(mèng)、Vidu,誰會(huì)是最大贏家?

圖片

 

劃重點(diǎn):

1、本文從產(chǎn)品實(shí)測(cè)、技術(shù)路線、商業(yè)前景三個(gè)維度,分析即夢(mèng)、可靈、Vidu這三位國(guó)產(chǎn)頭部玩家,誰會(huì)是最大贏家?2、從測(cè)試結(jié)果看,可靈優(yōu)勢(shì)是表現(xiàn)力強(qiáng),劣勢(shì)是容易“用力過猛”;Vidu 優(yōu)勢(shì)是真實(shí)、細(xì)膩,劣勢(shì)是節(jié)奏慢、爆發(fā)力不足;即夢(mèng)優(yōu)勢(shì)是均衡、可控,劣勢(shì)是略顯“平庸”。3、AI視頻生成背后的關(guān)鍵技術(shù)是 DiT(Diffusion Transformer)?伸`AI在技術(shù)路線上選擇了與Sora一致的DiT架構(gòu),Vidu的U-ViT則走了另一條融合之路,即夢(mèng)背后也有DiT的身影,主要以字節(jié)自研Seedance1.0系列模型為主;4、如果說技術(shù)決定了產(chǎn)品的下限,那么市場(chǎng)、生態(tài)和推廣策略則決定了它們的上限。最終贏家,極有可能在可靈和即夢(mèng)之間產(chǎn)生。原因很簡(jiǎn)單:AI視頻的終極戰(zhàn)場(chǎng)在應(yīng)用,在生態(tài)。5、我們更傾向于擁有剪映的即夢(mèng)。因?yàn)榭伸`的成功更依賴于“爆款內(nèi)容”的出現(xiàn),而即夢(mèng)的成功則建立在“賦能工具”的普及上。工具的滲透通常比內(nèi)容的爆發(fā)更持久、更具粘性。當(dāng)然,這僅僅是基于當(dāng)前戰(zhàn)局的邏輯推演。

作者 林易

編輯 重點(diǎn)君

國(guó)產(chǎn)AI視頻有了新進(jìn)展。就在2025世界人工智能大會(huì)(WAIC)期間,快手旗下可靈AI高調(diào)披露最新用戶數(shù)據(jù):在全球創(chuàng)作者超過4500萬,累計(jì)生成視頻超2億個(gè)、圖片超4億張。

生數(shù)科技旗下Vidu也在WAIC期間,發(fā)布了最新“Vidu Q1參考生”功能。生數(shù)科技CEO駱怡航介紹,據(jù)通過對(duì)模型算法層面的調(diào)整,只上傳人物、道具、場(chǎng)景等參考圖,就可以直接將多個(gè)參考元素生成為一段視頻素材,以“參考圖——視頻生成——剪輯——成片”流程取代分鏡生成工作。

圖片

生數(shù)科技CEO駱怡航

國(guó)產(chǎn)AI視頻進(jìn)展不斷。就在前一陣子,一部名為《新世界加載中》的“三無劇集”悄然上線,沒有演員、沒有攝影機(jī)、沒有燈光,宣傳海報(bào)上最顯眼的信息竟可能就是“可靈AI”。

圖片

這部共計(jì)9集的劇集,內(nèi)容橫跨動(dòng)漫風(fēng)、3D動(dòng)畫風(fēng)、真人風(fēng),涵蓋科幻、奇幻、荒誕喜劇、歷史等多元題材,統(tǒng)統(tǒng)都是由AI來生成的。我們先來隨機(jī)來感受一下它能夠?qū)崿F(xiàn)的效果:

圖片

雖然這部中國(guó)版《愛死機(jī)》目前并沒有達(dá)到爆款程度,也被很多網(wǎng)友詬病在整體敘事上存在割裂感等等,但《新世界加載中》的誕生卻顯示出生成式AI在打造影視作品中所具備的潛力。

而就在《新世界加載中》誕生前后,全球范圍內(nèi)的戰(zhàn)火早已點(diǎn)燃:OpenAI Sora雖未公測(cè),但其放出的每一個(gè)Demo持續(xù)刷新著人們的認(rèn)知上限;Luma AI的Dream Machine橫空出世,以驚人的效果迅速引爆了創(chuàng)作者社區(qū);谷歌、Meta等巨頭也紛紛亮出自己的王牌產(chǎn)品。

在這場(chǎng)競(jìng)賽中,中國(guó)玩家們也不是旁觀者。除了WAIC期間高調(diào)亮相的可靈AI、Vidu,以及字節(jié)跳動(dòng)旗下一直在發(fā)力的即夢(mèng)AI。它們不僅在技術(shù)上緊追不舍,更在產(chǎn)品落地上展現(xiàn)出極強(qiáng)的求生欲和創(chuàng)造力。

因此,當(dāng)下的問題早已不是“AI能否制作視頻”,而是“誰能做得更好、跑得更快、看得更遠(yuǎn)”。

本文將把即夢(mèng)、可靈、Vidu這三位國(guó)產(chǎn)頭部選手置于聚光燈下,通過一次同臺(tái)PK,從產(chǎn)品實(shí)測(cè)、技術(shù)路線、商業(yè)前景三個(gè)維度,試圖回答那個(gè)終極問題:

在這場(chǎng)“三國(guó)殺”里,誰最會(huì)是最大贏家?

同臺(tái)競(jìng)技,三款國(guó)產(chǎn)AI視頻“演技”大比拼

基于“效果才是硬道理”的原則,我們先對(duì)即夢(mèng)、可靈和Vidu分別做一個(gè)實(shí)測(cè)。測(cè)試方法是用下面這張AI生成的圖片作為圖生視頻的參考圖,再配以適當(dāng)?shù)腜rompt,讓三位AI選手生成一段具備演技派實(shí)力的表演視頻。

圖片

可以看到,這張參考圖已經(jīng)具備了一定的電影質(zhì)感,尤其是圖中的女生,眼神里已然是飽受生活折磨的無力感。接下來,我們先用下面這段Prompt生成一個(gè)5s的視頻:

“固定鏡頭,一個(gè)亞洲女性轉(zhuǎn)過頭,看向鏡頭,憂郁的看著鏡頭,噗呲一下笑出來。”

然后將第一個(gè)視頻的尾幀作為第二次圖生視頻的參考圖,并輸入第二段Prompt:

“固定鏡頭,一個(gè)亞洲女性看著鏡頭笑,笑著笑著,情緒失控開始笑著哭泣,表情自然不夸張,展現(xiàn)了人物情緒遞進(jìn)的過程。”

最后將兩段視頻拼接到一起,整體來感受一下最終效果。在這個(gè)過程中,AI能否時(shí)刻保證人物、背景、各種細(xì)節(jié)的一致性是最為關(guān)鍵的考量;其次,視頻中AI人物的演技是否能夠真人演員相媲美則是審美維度的另一關(guān)鍵評(píng)判標(biāo)準(zhǔn)。

(注:為公平起見,結(jié)果均采用三個(gè)AI第一次生成的結(jié)果;模型均采用免費(fèi)的最新版本:即夢(mèng)視頻3.0、可靈2.1和Vidu 2.0。)

即夢(mèng)的測(cè)試結(jié)果如下:

圖片

即夢(mèng)的AI演員表演相對(duì)“規(guī)矩”,它準(zhǔn)確地執(zhí)行了“笑”的指令,并且在第二段視頻中試圖通過緊鎖的眉頭來疊加“哭”的情緒。整個(gè)過程更像是兩種表情的混合,而非流暢的情緒轉(zhuǎn)變。

接下來是可靈的測(cè)試結(jié)果:

圖片

可靈的AI演員是“體驗(yàn)派”,表演風(fēng)格大開大合。它的“笑”和“哭”都表現(xiàn)得極為夸張,充滿了戲劇張力。雖然情緒飽滿,但與Prompt中“自然不夸張”的要求有所出入。此外,其免費(fèi)版的生成等待時(shí)間過長(zhǎng)(平均超過3小時(shí)),對(duì)普通用戶不夠友好。

最后,我們?cè)賮砜聪耉idu的測(cè)試結(jié)果:

Vidu的AI演員走的是“內(nèi)斂”路線。它的表情變化非常含蓄,更貼近真實(shí)人物的反應(yīng)。但缺點(diǎn)在于節(jié)奏太慢,在每段僅5秒的時(shí)長(zhǎng)里,情緒的醞釀過程過長(zhǎng),導(dǎo)致核心的“哭戲”部分沒能完全展現(xiàn)出來。

可以明顯看到,三位AI選手都已經(jīng)克服了此前AI視頻生成被詬病已久的一致性問題,在同樣的參考圖和Prompt之下,更加注重如何提高表現(xiàn)完整性和審美度。

如果將三位AI選手看作三位演員,我們可以得出更直接的結(jié)論:

可靈AI:優(yōu)勢(shì)是表現(xiàn)力強(qiáng),劣勢(shì)是容易“用力過猛”。 它最懂如何調(diào)動(dòng)情緒,能生成最具視覺沖擊力的畫面,非常適合制作短平快的戲劇化內(nèi)容。但它的問題在于對(duì)“度”的把握,容易將自然的情感夸張為舞臺(tái)劇,離影視級(jí)的細(xì)膩表演還有距離。

Vidu AI:優(yōu)勢(shì)是真實(shí)、細(xì)膩,劣勢(shì)是節(jié)奏慢、爆發(fā)力不足。 它在模擬真實(shí)物理世界和微表情上最具潛力,生成的視頻最有“電影感”。但它似乎過于“沉浸”在自己的節(jié)奏里,在短視頻場(chǎng)景下,這種“前搖”過長(zhǎng)的特點(diǎn)會(huì)成為致命傷,無法在黃金幾秒內(nèi)抓住觀眾。

即夢(mèng)AI:優(yōu)勢(shì)是均衡、可控,劣勢(shì)是略顯“平庸”。 它像一個(gè)聽話的學(xué)生,能準(zhǔn)確完成指令,但在藝術(shù)表達(dá)上缺乏驚喜。它在功能全面性(如數(shù)字人、動(dòng)作模仿)上做得最好,顯示出其工具屬性的定位,但在純粹的生成質(zhì)量和藝術(shù)感染力上,介于可靈和Vidu之間,尚未形成自己鮮明的“人設(shè)”。

除此之外,我們還對(duì)即夢(mèng)、可靈和Vidu其它功能和特點(diǎn)做了簡(jiǎn)單總結(jié):

圖片

那么在內(nèi)容表達(dá)上,它們?nèi)邽槭裁磿?huì)有截然不同的表現(xiàn)方式,我們接下來深挖一下它們背后的技術(shù)。

DiT框架下的三條分叉路

2024年春節(jié)期間,OpenAI發(fā)布的Sora可謂是在全球范圍內(nèi)一舉點(diǎn)燃了AI視頻生成的熱度。與此同時(shí),它背后的關(guān)鍵技術(shù)DiT(Diffusion Transformer)的熱度也是線性大漲。

DiT的本質(zhì)從大方向來看,是將擴(kuò)散模型(Diffusion Model)與Transformer架構(gòu)結(jié)合,以此來實(shí)現(xiàn)高質(zhì)量視頻生成。

擴(kuò)散模型的核心思想是“先加噪,再降噪”。模型首先在一個(gè)清晰的視頻(或圖片)上不斷施加高斯噪聲,直至其變?yōu)橥耆珶o序的噪點(diǎn);然后,模型學(xué)習(xí)這個(gè)過程的逆過程,即如何從一個(gè)純粹的噪聲中,逐步“去噪”并還原出一個(gè)結(jié)構(gòu)清晰、內(nèi)容豐富的視頻。

這個(gè)“去噪”網(wǎng)絡(luò),通常采用一個(gè)名為U-Net的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。U-Net的“U”形結(jié)構(gòu)使其能夠同時(shí)捕捉圖像的局部細(xì)節(jié)和全局輪廓,非常適合圖像處理任務(wù)。

而最初應(yīng)用于自然語言處理(NLP)領(lǐng)域的Transformer,它的核心是自注意力機(jī)制(Self-Attention),能夠高效處理長(zhǎng)距離依賴關(guān)系。Transformer將輸入數(shù)據(jù)(如句子中的單詞)視為一系列“令牌”(Tokens),并通過計(jì)算令牌之間的相互關(guān)系權(quán)重,來理解整個(gè)序列的深層語義。

通過二者的結(jié)合,DiT就可以把視頻壓縮成一系列時(shí)空“補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁就像句子中的單詞一樣,被送入Transformer進(jìn)行處理。這使得模型能夠更好地理解視頻內(nèi)容在時(shí)間和空間上的全局關(guān)聯(lián)性,從而生成更長(zhǎng)、更連貫的視頻。

圖片

可靈AI在技術(shù)路線上選擇了與Sora一致的DiT架構(gòu)。這表明它認(rèn)可了Transformer在處理視頻時(shí)空依賴關(guān)系上的巨大潛力。然而,快手并未止步于復(fù)現(xiàn),而是在此基礎(chǔ)上進(jìn)行了多項(xiàng)關(guān)鍵的自研創(chuàng)新,這些創(chuàng)新共同指向了一個(gè)核心目標(biāo):生成更長(zhǎng)的、高質(zhì)量的視頻。

它的其兩大“殺手锏”分別是3D VAE和3D時(shí)空聯(lián)合注意力機(jī)制。

VAE是一種變分自編碼器,用于將高維數(shù)據(jù)(如視頻幀)壓縮到低維的“潛在空間”(Latent Space),同時(shí)保留其核心特征。傳統(tǒng)的VAE主要處理二維圖像,而可靈自研的3D VAE則專門為視頻數(shù)據(jù)設(shè)計(jì)。

它不僅對(duì)單幀畫面進(jìn)行空間壓縮,更重要的是,它將時(shí)間維度也納入考量,將一段視頻壓縮成一個(gè)包含時(shí)空信息的潛在向量。這使得模型在處理數(shù)據(jù)時(shí),起點(diǎn)就更高,能夠更高效地學(xué)習(xí)視頻的動(dòng)態(tài)變化規(guī)律。

3D時(shí)空聯(lián)合注意力機(jī)制是可靈生成視頻的另一個(gè)關(guān)鍵技術(shù)。在標(biāo)準(zhǔn)的DiT中,注意力機(jī)制主要在空間補(bǔ)丁和時(shí)間步之間計(jì)算。而可靈的3D注意力機(jī)制則是在一個(gè)立體的時(shí)空數(shù)據(jù)塊上進(jìn)行操作。

它允許模型在生成某一幀的某個(gè)區(qū)域時(shí),不僅能“看到”當(dāng)前幀的其他部分(空間注意力),還能同時(shí)“回顧”過去幾秒甚至幾十秒的畫面內(nèi)容,并“預(yù)判”未來的動(dòng)態(tài)趨勢(shì)(時(shí)間注意力)。

這種時(shí)空聯(lián)合的注意力計(jì)算方式,極大地增強(qiáng)了模型對(duì)長(zhǎng)期動(dòng)態(tài)的建模能力,確保了視頻里人物的身份、服飾,以及場(chǎng)景的環(huán)境能夠保持高度一致,避免了普通模型中常見的“閃爍”、“變形”等問題。

可靈架構(gòu)的核心優(yōu)勢(shì)是將時(shí)間和空間信息高度融合處理。它不僅看“這一幀”,更看重“這一秒”甚至“這幾秒”,因此在動(dòng)作連貫性和長(zhǎng)期一致性上表現(xiàn)最好。這解釋了為什么可靈能駕馭《新世界加載中》這樣更長(zhǎng)的敘事,也能做出最具爆發(fā)力的表情,因?yàn)樗鼘?duì)動(dòng)態(tài)變化的理解更深刻。

但劣勢(shì)也是比較明顯,對(duì)時(shí)空信息的全局建模計(jì)算成本極高,這可能是其生成速度慢的原因之一。同時(shí),對(duì)動(dòng)態(tài)的過度強(qiáng)調(diào),也可能導(dǎo)致其在處理靜態(tài)或微表情時(shí)傾向于“腦補(bǔ)”出更夸張的動(dòng)作。

而Vidu的U-ViT則走了另一條融合之路。

它并非簡(jiǎn)單地用Transformer替代U-Net中的某些模塊,而是將Transformer的注意力機(jī)制巧妙地整合進(jìn)了U-Net的骨架中。具體來說,U-ViT保留了U-Net經(jīng)典的下采樣(編碼)和上采樣(解碼)的層次化結(jié)構(gòu),但在不同層級(jí)的特征處理中,都融入了Transformer模塊。

U-ViT的優(yōu)勢(shì)在于,它既利用了U-Net在捕捉視覺底層特征(如紋理、邊緣)方面的強(qiáng)大能力,又借助了Transformer在理解全局語義和長(zhǎng)程依賴(如物體運(yùn)動(dòng)軌跡、場(chǎng)景邏輯)方面的優(yōu)勢(shì)。這種設(shè)計(jì)被證明在模型擴(kuò)展(Scaling Law)上表現(xiàn)優(yōu)異。

基于U-ViT架構(gòu),Vidu在發(fā)布時(shí)實(shí)現(xiàn)了生成1080P分辨率的高清視頻。其核心產(chǎn)品哲學(xué)可以概括為“一步到位”和“模擬真實(shí)”。

“一步到位”是指技術(shù)上的端到端(End-to-End)一次性生成,而非通過生成關(guān)鍵幀再進(jìn)行插幀的技術(shù)。這意味著視頻中的每一幀都是模型綜合考慮了全局時(shí)空信息后生成的,保證了運(yùn)動(dòng)的流暢性和邏輯的連貫性,能夠?qū)崿F(xiàn)復(fù)雜的“一鏡到底”動(dòng)態(tài)鏡頭效果,如追焦、轉(zhuǎn)場(chǎng)等。“模擬真實(shí)”則是指致力于模擬真實(shí)的物理規(guī)律,生成符合光影邏輯、重力效果和流體動(dòng)態(tài)的場(chǎng)景。

這條路線的精髓在于“各司其職”。U-Net負(fù)責(zé)捕捉圖像的底層細(xì)節(jié)(如紋理、光影),Transformer負(fù)責(zé)理解全局的邏輯關(guān)系。這使得Vidu在模擬真實(shí)物理規(guī)律(光影、重力)和刻畫細(xì)膩質(zhì)感上獨(dú)具優(yōu)勢(shì),其視頻擁有最高的“畫質(zhì)感”和“真實(shí)感”。

但它對(duì)局部細(xì)節(jié)的精雕細(xì)琢,可能使其在理解和執(zhí)行大幅度的、快速的動(dòng)態(tài)變化時(shí)相對(duì)保守。這解釋了為什么Vidu的表演顯得內(nèi)斂且節(jié)奏偏慢,因?yàn)樗鼉A向于在物理真實(shí)的框架內(nèi)進(jìn)行演繹。

圖片

至于即夢(mèng)AI,在它的技術(shù)背后依舊也有DiT的身影,在視頻生成方面,主要是以自研的Seedance 1.0系列模型為主。

根據(jù)此前公開的Seedance 1.0視頻生成模型技術(shù)報(bào)告,Seedance 1.0支持文字與圖片輸入,可生成多鏡頭無縫切換的1080p高品質(zhì)視頻,且主體運(yùn)動(dòng)穩(wěn)定性與畫面自然度較高。

在第三方評(píng)測(cè)榜單 Artificial Analysis上,Seedance 1.0文生視頻、圖生視頻兩個(gè)任務(wù)的表現(xiàn)均位居首位。

圖片

Artificial Analysis 文生視頻榜單

圖片

Artificial Analysis 圖生視頻榜單

根據(jù)技術(shù)報(bào)告披露,Seedance1.0引入精準(zhǔn)描述模型,提升了數(shù)據(jù)多樣性與可用性;通過統(tǒng)一的預(yù)訓(xùn)練框架,實(shí)現(xiàn)了多鏡頭切換與多模態(tài)輸入;后訓(xùn)練階段構(gòu)建復(fù)合獎(jiǎng)勵(lì)系統(tǒng),提升畫面生動(dòng)性、穩(wěn)定性和美感;并且大幅提升了推理速度,最快約40秒就可以生成5秒1080p視頻。具體到產(chǎn)品而言,即夢(mèng)采用了分級(jí)模型策略:•即夢(mèng)3.0版本使用的是Seedance 1.0 mini模型。•即夢(mèng)3.0 pro版本則采用了性能更強(qiáng)的Seedance 1.0模型。這種模型分級(jí)的策略體現(xiàn)了一條典型的“實(shí)用主義”路線。通過提供不同性能層級(jí)的模型,即夢(mèng)能夠在保證基礎(chǔ)生成質(zhì)量的同時(shí),有效降低普通用戶的算力門檻,從而能將更多計(jì)算資源投入到豐富產(chǎn)品功能(如數(shù)字人、動(dòng)作控制)和提升整體用戶體驗(yàn)(例如更快的生成速度)上。當(dāng)然,這種策略也可能意味著在核心生成質(zhì)量的極限追求上有所權(quán)衡。相較于業(yè)界一些專注于達(dá)到極致動(dòng)態(tài)表現(xiàn)力和細(xì)節(jié)真實(shí)感的頂尖模型,即夢(mèng)的選擇更側(cè)重于技術(shù)的普惠和產(chǎn)品功能的全面性。這或許可以解釋其在部分測(cè)試中,生成視頻的情緒轉(zhuǎn)場(chǎng)或細(xì)節(jié)表現(xiàn)力與頂尖水平存在一定差距,這可以看作是技術(shù)路徑和產(chǎn)品定位權(quán)衡下的結(jié)果。

總的來看,技術(shù)路線直接決定了產(chǎn)品氣質(zhì)?伸`的“Sora路線”讓它成為了一個(gè)表現(xiàn)派,Vidu的“融合路線”讓它成為了一個(gè)寫實(shí)派,而即夢(mèng)的“實(shí)用路線”則讓它成為了一個(gè)工具派。

   技術(shù)之外的戰(zhàn)場(chǎng):誰的生態(tài)位更優(yōu)越?

如果說技術(shù)決定了產(chǎn)品的下限,那么市場(chǎng)、生態(tài)和推廣策略則決定了它們的上限。

可靈最大的優(yōu)勢(shì)是背靠快手這個(gè)巨大的短視頻流量池。它不需要從零開始獲取用戶,可以直接嵌入到數(shù)億人的創(chuàng)作和消費(fèi)鏈路中?焓铸嫶蟮囊曨l數(shù)據(jù)也能為模型迭代提供最寶貴的“養(yǎng)料”!缎率澜缂虞d中》就是一次極佳的“內(nèi)容即營(yíng)銷”案例。

但如何將強(qiáng)大的技術(shù)能力轉(zhuǎn)化為普通用戶也能輕松使用的產(chǎn)品功能,并找到清晰的商業(yè)化路徑,是其核心挑戰(zhàn)。如果只是一個(gè)“炫技”的獨(dú)立工具,將很難在快手生態(tài)內(nèi)生根發(fā)芽。

Vidu“清華系”的背景為它提供了強(qiáng)大的技術(shù)背書和人才儲(chǔ)備,使其在底層技術(shù)創(chuàng)新上具備領(lǐng)先潛力。Vidu的定位更接近一個(gè)底層基礎(chǔ)大模型,未來在To B(賦能影視、設(shè)計(jì)等行業(yè))市場(chǎng)有巨大的想象空間。

不過它最大的挑戰(zhàn)在于產(chǎn)品化和市場(chǎng)化。學(xué)院派團(tuán)隊(duì)往往在技術(shù)上追求極致,但在用戶體驗(yàn)、市場(chǎng)推廣和商業(yè)運(yùn)營(yíng)上相對(duì)薄弱。Vidu需要盡快找到自己的商業(yè)落地場(chǎng)景,避免陷入“叫好不叫座”的困境。

而字節(jié)跳動(dòng)擁有抖音和剪映兩大王牌,這為即夢(mèng)提供了比快手更完整的“創(chuàng)作-分發(fā)”閉環(huán)。即夢(mèng)的功能設(shè)計(jì)(如數(shù)字人、運(yùn)鏡選擇)透露出其野心:它不想只做一個(gè)“生成器”,而是想成為下一代視頻創(chuàng)作工作流的核心,深度整合進(jìn)剪映等工具中。

但字節(jié)內(nèi)部賽馬激烈,即夢(mèng)需要證明自己相對(duì)于其他AI項(xiàng)目的價(jià)值。同時(shí),如何在龐大的產(chǎn)品矩陣中找到最合適的切入點(diǎn),并教育用戶接受全新的創(chuàng)作方式,同樣充滿挑戰(zhàn)。

誰會(huì)是最大的贏家?

經(jīng)過三輪對(duì)比,我們可以下一個(gè)更大膽的結(jié)論:

Vidu擁有最高的上限,但面臨最崎嶇的道路。它的技術(shù)路線決定了它最有潛力生成電影級(jí)的、真正以假亂真的視頻內(nèi)容,成為專業(yè)領(lǐng)域的“生產(chǎn)力工具”。但它能否成功越過從技術(shù)到產(chǎn)品的“死亡谷”,仍是未知數(shù)。

而最終的最大贏家,極有可能在可靈和即夢(mèng)之間產(chǎn)生。

原因很簡(jiǎn)單:AI視頻的終極戰(zhàn)場(chǎng)在應(yīng)用,在生態(tài)。

可靈已經(jīng)通過《新世界加載中》證明了自己在內(nèi)容側(cè)的野心和實(shí)力。如果快手能下定決心,將可靈的能力無縫融入其短視頻生態(tài),降低創(chuàng)作門檻,它將有機(jī)會(huì)引爆一場(chǎng)全民AIGC的浪潮。

即夢(mèng)則更像一個(gè)潛行的刺客,它的目標(biāo)是重塑“創(chuàng)作者”的定義。當(dāng)AI視頻生成能力像今天的“一鍵剪同款”一樣被整合進(jìn)剪映,它將直接賦能數(shù)千萬內(nèi)容創(chuàng)作者,其爆發(fā)力同樣不可估量。

如果要在這兩者中選擇一個(gè)更看好的,我們更傾向于擁有剪映的即夢(mèng)AI。因?yàn)榭伸`的成功更依賴于“爆款內(nèi)容”的出現(xiàn),而即夢(mèng)的成功則建立在“賦能工具”的普及上。工具的滲透通常比內(nèi)容的爆發(fā)更持久、更具粘性。

當(dāng)然,這僅僅是基于當(dāng)前戰(zhàn)局的邏輯推演,每一個(gè)國(guó)產(chǎn)AI視頻玩家的進(jìn)展都值得肯定。這場(chǎng)競(jìng)賽才剛剛開始。唯一可以確定的是,無論是誰最終勝出,我們都將以前所未有的方式,見證一個(gè)“新世界”的加載。

       原文標(biāo)題 : 國(guó)產(chǎn)AI視頻三國(guó)殺:可靈、即夢(mèng)、Vidu,誰會(huì)是最大贏家?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)