訂閱
糾錯
加入自媒體

視頻生成模型大盤點(diǎn):誰能定義下一代內(nèi)容?

2025-08-07 15:12
新眸
關(guān)注

你被AI視頻包圍了嗎?

新眸原創(chuàng)·作者 | 簡瑜

過去兩個月,不少人被一段“動物跳水”短視頻刷了屏——在標(biāo)準(zhǔn)跳水臺上,大象、小豬、柯基輪番登場,以高難度的動作跳入水中,甚至耳邊還會伴隨有專業(yè)的賽事解說和人群歡呼,從動作編排到入水細(xì)節(jié),視頻的逼真程度堪比電影特效。

不僅是“動物跳水”,諸如動物擬人化情景演繹、切割不同材質(zhì)物品的解壓視頻等一類AI生成視頻,早已開始席卷抖音、小紅書、B站等各大內(nèi)容平臺。

而這樣的視效水平,過去只存在于制作精良的影視作品中。

在這些視頻背后,不僅形成了圍繞“腳本制作——關(guān)鍵幀創(chuàng)作——視頻生成”的一連串工作流,甚至還催生出一批靠AI視頻創(chuàng)作變現(xiàn)的“數(shù)字導(dǎo)演”。

事實(shí)上,早在2022年,市面上就開始出現(xiàn)了一系列AI生成視頻,但當(dāng)時的視頻畫面,往往存在失真、怪異、觀感差等各種問題,只在小范圍內(nèi)有所傳播。

轉(zhuǎn)折點(diǎn)出現(xiàn)在2024年。OpenAI在二月發(fā)布Sora,以DiT(Diffusion + Transformer)架構(gòu)為核心,突破了視頻生成在時長、清晰度、邏輯一致性等方面的瓶頸,讓“AI生成視頻”第一次真正具備了走向大眾市場的可能。

之后越來越多的廠商開始借鑒DiT或其他混合模型架構(gòu)的模式,陸續(xù)發(fā)布對標(biāo) Sora 的閉源模型產(chǎn)品,如24年6月推出的Runway Gen-3、Luma Dream Machine;7月底全面上線的快手可靈等。

時間來到下半年,視頻生成類模型更是呈現(xiàn)了井噴式的增長。阿里、字節(jié)等巨頭紛紛押注,智譜、MiniMax等創(chuàng)業(yè)公司也快速跟進(jìn)。曾經(jīng)因技術(shù)瓶頸被質(zhì)疑的AI視頻,儼然已經(jīng)成為了AI模型商業(yè)化最擁擠的賽道之一。

01 大小廠“諸侯混戰(zhàn)”各自的牌面有多大?

與已經(jīng)經(jīng)歷三年演進(jìn)和淘洗的大語言模型不同,無論是性能表現(xiàn)還是市場格局,AI視頻生成模型仍處在“諸侯割據(jù)”的早期階段。

自2024年起迎來密集爆發(fā)后,這一賽道在模型能力、用戶心智乃至具體落地場景上,都尚未形成類似ChatGPT、Claude、Gemini等在LLM領(lǐng)域的頭部壟斷格局。

目前,視頻生成模型雖尚未建立統(tǒng)一的評測體系,但“時序一致性”“幀畫質(zhì)”“提示詞遵循度”“生成穩(wěn)定性”等,往往成為通用測評關(guān)鍵詞。而從多個測評榜單的變化趨勢來看,各個模型之間仍存在較為明顯的排名波動,領(lǐng)先優(yōu)勢尚未固化。

以今年4月和7月的AGI-Eval(由多所國內(nèi)頂尖高校和研究機(jī)構(gòu)聯(lián)合發(fā)布)榜單為例,僅僅三個月時間,前十排名便發(fā)生大幅洗牌,能維持榜上位置的僅剩Pika 1.5、MiniMax的 Video-01、愛詩科技的PixVerse V4。而其他原本上榜的模型,或被自家迭代版本替代,或已被后來者趕超。

值得一提的是,榜單上除了有阿里、字節(jié)等互聯(lián)網(wǎng)大廠,minimax、愛詩科技等創(chuàng)業(yè)公司也赫然在列,且國內(nèi)廠商的出現(xiàn)率明顯略高于國外廠商。

圖片來源:AGI-Eval官網(wǎng)

另一方面,由于模型生成路徑的不同,文生視頻(Text-to-Video)與圖生視頻(Image-to-Video)在測評維度上也存在較大差異。據(jù)國際測評機(jī)構(gòu)Artificial Analysis今年7月的榜單,僅有一半模型能同時躋身兩類前十,也進(jìn)一步說明當(dāng)前的模型能力仍處于尚未定型的快速演進(jìn)期。

圖片5.png
圖片5.png圖片6.png

圖片來源:Artificial Analysis官網(wǎng)(截止2025.8.6)

當(dāng)下,有不少聲音認(rèn)為大語言模型已進(jìn)入“技術(shù)平臺期”。GPT-5遲遲未能發(fā)布、Claude 4經(jīng)歷長達(dá)11個月的版本跨度、DeepSeek新產(chǎn)品遲遲未現(xiàn)……相較之下,在視頻生成模型中,模型迭代仍處于初期向成熟過度的爆發(fā)地段,大廠與創(chuàng)業(yè)公司都在以2至4個月的頻率推陳出新。

以快手可靈為例,從2023年6月上線至今,平均不到兩個月就推出了一次新功能;2025年上半年更是完成了從1.6到2.1之間的兩次模型大版本迭代。Minimax旗下的海螺,自從去年8月上線以后,也在三個月內(nèi)實(shí)現(xiàn)了三次迭代,并于今年6月再次推出新模型海螺02。

盡管整體格局尚未完全明朗,但就國內(nèi)廠商而言,近半年以來,快手、字節(jié)、MiniMax、愛詩科技等在各類評測中的排名基本都能維持在前10之列,位列第一梯隊(duì)。

這一趨勢同樣體現(xiàn)在用戶側(cè)的使用排名中。據(jù)POE榜單顯示,快手可靈、MiniMax海螺長期市場份額位于前列。而字節(jié)即夢由于新版本上線時間較晚(2025年6月),在5月榜單中尚未露面。

圖片來源:Poe,《報(bào)告:2025年春季人工智能模型使用趨勢》

02 AI視頻生成的爆發(fā)式崛起:內(nèi)容土壤、成本革命與平臺競速

某種程度上說,AI視頻生成之所以能在近一年時間里迎來井噴式增長,是一種“天時地利人和”的結(jié)果。

除了Sora帶來的技術(shù)瓶頸突破,視頻內(nèi)容的持續(xù)擴(kuò)張,構(gòu)成了AI視頻落地最堅(jiān)實(shí)的“土壤”。據(jù)QuestMobile數(shù)據(jù),截至2024年9月,中國移動視頻行業(yè)的月活用戶已達(dá)11.36億,增速明顯,視頻內(nèi)容正成為流量的核心載體。

更關(guān)鍵的是,AI大幅降低了視頻制作的人力成本、時間成本與技術(shù)門檻。無論是實(shí)拍視頻中所涉及的導(dǎo)演、演員、場地、后期等復(fù)雜流程,還是動畫視頻所需的渲染、建模、特效等高技能工序,AI視頻都能在幾秒鐘內(nèi)“一鍵生成”。

典型的例子,一部由迪士尼、皮克斯出品的頂級動畫電影,其每分鐘制作成本高達(dá)200萬美元,而AI模型生成的相似畫面,目前已可將單位成本壓縮至每分鐘300美元左右。

盡管現(xiàn)階段的視頻生成模型在效果穩(wěn)定性、劇情連貫性上仍有明顯短板,通常只能輸出幾秒至幾分鐘的片段,但這卻恰好匹配了短視頻、短劇等輕內(nèi)容場景的要求。

短視頻不僅在時長要求上需求更低,用戶注意力碎片化,也使得內(nèi)容形式本身具備了更高容錯率。AI工具也就自然而然成為了短視頻剪輯師、MCN機(jī)構(gòu)乃至普通創(chuàng)作者的增效神器。

為了快速占領(lǐng)創(chuàng)作者市場,不同于語言大模型從閉源走向開源的策略路徑,視頻生成廠商則選擇反其道而行之,從開源起步,給予用戶一定的免費(fèi)使用權(quán)限,在拉新沉淀用戶習(xí)慣后,在通過訂閱制實(shí)現(xiàn)商業(yè)變現(xiàn)。

例如,快手可靈、字節(jié)即夢、騰訊混元均通過贈送積分、免費(fèi)次數(shù)等方式引導(dǎo)C端訂閱。百度繪想則在2025年7月初推出時開放了免費(fèi)試用;而通義萬相則以模型源碼的形式上傳至GitHub的方式進(jìn)行開源分發(fā)。

背靠內(nèi)容平臺的分發(fā)資源和用戶流量,字節(jié)、快手等內(nèi)容大廠在國內(nèi)C端用戶占據(jù)上更具優(yōu)勢,已開始構(gòu)建起“模型生成—內(nèi)容創(chuàng)作—平臺分發(fā)”的閉環(huán)生態(tài),將AI能力直接注入短視頻作者鏈條中,實(shí)現(xiàn)用戶對視頻模型的自然滲透。

相比之下,諸多創(chuàng)業(yè)公司如愛詩科技PixVerse、MiniMax海螺等,則將目標(biāo)用戶對準(zhǔn)了海外市場。

以愛詩科技為例,此前有公開數(shù)據(jù)表示,PixVerse總用戶已經(jīng)達(dá)到了6000萬以上,月活用戶超1600萬,而這一數(shù)據(jù)公開時愛詩還尚未發(fā)布國內(nèi)產(chǎn)品,并且單就用戶量來看,PixVerse已經(jīng)成為了全球用戶量最大的AI視頻生成產(chǎn)品。

從模型性能來看,國內(nèi)創(chuàng)業(yè)公司在多項(xiàng)榜單中表現(xiàn)優(yōu)于海外競爭者。但在國內(nèi)市場缺乏天然流量入口和品牌優(yōu)勢的背景下,出海成為了他們繞過強(qiáng)平臺、尋找藍(lán)海的最優(yōu)解。

除此之外,生數(shù)科技Vidu則選擇將目標(biāo)放在了B端市場,于今年四月和飛書、百度搜索達(dá)成了合作。而在此之前,也分別與AR,VR等設(shè)備廠商、影視動漫網(wǎng)站等開展了合作。

03 模版還是工具?AI視頻生成走向分岔路

通過在社交軟件上的相關(guān)評論可以發(fā)現(xiàn),同樣面向短視頻創(chuàng)作,快手和抖音呈現(xiàn)出了不同的內(nèi)容優(yōu)勢,可靈在國風(fēng)、二次元方面占優(yōu)勢,而即夢善于寫實(shí)、藝術(shù)領(lǐng)域的內(nèi)容生成。

兩者之所以選擇出各自的垂類賽道,一定程度上迎合了各自平臺的內(nèi)容特色。以真實(shí)生活記錄為內(nèi)容導(dǎo)向的快手,在模版選擇上更加接地氣,而以娛樂化、潮流化為趨勢的抖音,則在風(fēng)格化能力上更為突出。

圖片88.png圖片9.png

來源:可靈官網(wǎng)

來源:即夢官網(wǎng)

但無論是可靈還是即夢,當(dāng)AI視頻生成模型服務(wù)于短視頻創(chuàng)作時,模版特效和提示詞設(shè)計(jì)的效果和穩(wěn)定性,成了AI視頻生成類教程里逃不開的關(guān)鍵詞。

換句話說,“選得快、改得少、出片穩(wěn)”才是決定工具使用頻率的核心變量。

事實(shí)上,愛詩科技PixVerse之所以能夠在海外獲得如此高的用戶量,一定程度上也得益于其模板化的視頻生成思路,通過提供眾多5s左右的“模版特效”,簡化創(chuàng)作者的生成路徑,類似的功能,在海螺、可靈中也有相似。

模版特效的優(yōu)勢在于能夠極大降低創(chuàng)作者的制作門檻,做出符合平均水平的視頻效果。但與此同時,它的副作用也同樣明顯:確實(shí)能跑量,但無法拉長生命周期。一旦用戶審美疲勞,內(nèi)容熱度轉(zhuǎn)瞬即逝,ROI表現(xiàn)也難以持續(xù)。

而這恰恰是AI視頻在內(nèi)容平臺中面臨的結(jié)構(gòu)性困境——效率很高,但很難留下“經(jīng)典”。

從這個角度來看,AI視頻依然要去探索長時間、高質(zhì)量視頻的模型生成模式。

作為2018年就開始推出第一個視頻生成模型的老大哥,Runway走在了更前面,根據(jù)官方數(shù)據(jù)顯示,盡管過去一年,Runway的官網(wǎng)訪問量不足可靈的二分之一,但ARR卻幾乎達(dá)到了可靈的六倍。

Runway的商業(yè)邏輯,與短視頻模式走向了截然相反的路徑,通過與電影公司等高附加值產(chǎn)業(yè)合作,生產(chǎn)較為高品質(zhì)的影視內(nèi)容作品。

區(qū)別在于,Runway將視頻生成更多定位為“創(chuàng)意效率工具”,而非低門檻生產(chǎn)工具。它的核心功能主要有中間幀控制、AI角色的表情與動作復(fù)刻、視頻擴(kuò)展等,在實(shí)現(xiàn)效率的同時,核心的創(chuàng)意輸出依然由人類自身所掌控。

當(dāng)市面上開始涌現(xiàn)出越來越多的AI產(chǎn)品,留給行業(yè)和時代的問題,更需要從對AI效率轉(zhuǎn)化性能的評價(jià),轉(zhuǎn)向厘清AI工具的使用邊界,讓真正的增量內(nèi)容從中生長出來。

       原文標(biāo)題 : 視頻生成模型大盤點(diǎn):誰能定義下一代內(nèi)容?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號