訂閱
糾錯
加入自媒體

可靈VS即夢:初探“多模態(tài)”

目前國內(nèi)兩個最火的AI生成視頻平臺,非可靈和即夢莫屬。

作為影視外行人和AI愛好者,我準(zhǔn)備組建一個純AI的“影視團(tuán)隊(duì)”,看看效果如何。

在正式開始之前,還有一個問題:文生圖+圖生視頻or文生視頻?

兩個平臺都具備上述功能,那么兩條路應(yīng)該走哪條?

AI給出的答案是:使用“文生圖+圖生視頻”的方法具備更高的可控性;而“文生視頻”的方法能夠讓視頻更有“動態(tài)感”。

考慮了一下成本和效率,我還是選擇了可控性優(yōu)先。

01第一步:AI編劇,編寫劇本

想拍一部電影出來,首先肯定得有編劇來寫劇本。

我把先前公眾號上發(fā)布過的一篇文章,以PDF形式丟給了目前公認(rèn)性能強(qiáng)大的Gemini 2.5 Pro。

不得不承認(rèn),文字方面,AI當(dāng)編劇確實(shí)是綽綽有余。

分鏡頭腳本寫得有模有樣,像我這種外行人可是完全寫不出來。

尤其是圖生視頻指令,涵蓋了場景、動作、運(yùn)鏡、風(fēng)格這些專業(yè)化的東西,解決了大麻煩。

02 第二步:AI畫師,繪制“分鏡圖”

前面已經(jīng)說過,采用“文生圖+圖生視頻”的方式可以提高可控性。

劇本既然已經(jīng)有了,接下來的任務(wù)就是繪制“分鏡”。

我把AI編劇寫好的這些首幀圖片指令,統(tǒng)統(tǒng)交給了騰訊混元這個AI文生圖模型。

相比文字,AI在圖片領(lǐng)域的能力顯然有所下降。

好在混元生圖的美術(shù)功底靠得住,給出的大部分圖片質(zhì)量都不錯,基本符合預(yù)期。

當(dāng)然,也有下面這些“瑕疵品”:

例如,“一條水平的發(fā)光進(jìn)度條,位于畫面下方,滑塊在起始位置。背景是模糊的彩色光影。”

AI顯然是沒能理解指令。

7

以及,“一條高度精密的汽車生產(chǎn)線,無數(shù)機(jī)械臂在協(xié)同工作,焊接時火花四濺,充滿工業(yè)美感。”

這次則是邏輯錯誤,一群機(jī)械臂似乎正在破壞一輛完工的汽車。

29

03第三步:AI導(dǎo)演,讓圖片“動”起來

我把前面生成的靜態(tài)圖片和圖生視頻指令分別發(fā)給本次拍攝的導(dǎo)演——可靈和即夢。

然而,“開機(jī)”以后不久,我就遇到了理想與現(xiàn)實(shí)的碰撞。

剛開始,看到AI生成的幾個時長5秒的視頻時,我還是挺滿意的。

畢竟,這些動態(tài)效果和光影變化在一個外行人眼里已經(jīng)非常驚艷,畫面也十分流暢。

不過,隨著生成的視頻越來越多,導(dǎo)演就開始露餡了,各自開始生成一些很奇怪的東西。

問題一:“導(dǎo)演壓根不按照劇本來”

這是最常見的問題,無法容忍的“不聽指令”。

先來看一個讓人哭笑不得的例子:

圖生視頻指令:

場景描述與動作: 汽車的前大燈被激活,從一條細(xì)線開始,然后突然亮起,射出明亮而銳利的光束。一道微弱的能量光澤沿著車身的氣動線條流動。

運(yùn)鏡方式: 緩慢而富有戲劇性的向上搖鏡頭(Tilt Up),從前輪開始,向上移動到擋風(fēng)玻璃,讓汽車感覺充滿力量。

畫面風(fēng)格與質(zhì)感: “英雄特寫鏡頭”。電影級,精致,高級感。增加輕微的鏡頭光暈效果。

指令中寫的明明白白,汽車的前大燈被激活,但可靈生成的視頻中卻是從車身中間射出一道光線,多少有點(diǎn)莫名其妙。

相比之下,即夢生成的視頻效果要好一點(diǎn)。

問題二:“牛頓看了都得沉默”的物理和邏輯錯誤

讓AI做物理題,它得心應(yīng)手;但讓它生成視頻,它似乎又沒完全學(xué)會現(xiàn)實(shí)世界的物理規(guī)則。

“穿模”可以算是家常便飯了,即夢和可靈生成的視頻都存在這個問題,比如:

圖生視頻指令:

場景描述與動作: 所有機(jī)器以驚人的速度和完美的協(xié)調(diào)性協(xié)同工作,展現(xiàn)出極致的效率。機(jī)械臂抓取包裹,無人車流暢地避讓和穿行。

運(yùn)鏡方式: 在倉庫內(nèi)進(jìn)行一個長距離、平滑的移動鏡頭(長鏡頭),一鏡到底地展示整個流程。

畫面風(fēng)格與質(zhì)感: 工業(yè)美學(xué),科技感,秩序感。畫面干凈,動作流暢。

另外,物理運(yùn)動的實(shí)現(xiàn)看起來也很不合理:

圖生視頻指令:

場景描述與動作: 一顆閃亮的金色石子投入水中,激起一圈圈巨大而絢爛的彩色漣漪,漣漪擴(kuò)散的速度非?欤查g照亮整個水面。

運(yùn)鏡方式: 俯視視角,緩慢放大(Zoom In)。

畫面風(fēng)格與質(zhì)感: 詩意,愉悅。用漣漪的爆發(fā)來象征多巴胺的瞬間釋放。

即夢生成的視頻中,金色石子并非被投入,而是直接從水中浮現(xiàn)出來:

可靈則較好地完成了指令內(nèi)容:

問題三:短時間內(nèi)的失憶癥

AI生成的視頻有一個重大的缺陷,那就是一致性實(shí)在是太差。

短短5秒之間,一個鏡頭的主角就可能發(fā)生大幅度的變化。比如:

場景描述與動作: 表盤上的分針以極快的速度平滑地旋轉(zhuǎn)一圈。剛一停下,手表屏幕上就出現(xiàn)一個柔和的、發(fā)光的脈沖動畫。

運(yùn)鏡方式: 靜態(tài)特寫。

畫面風(fēng)格與質(zhì)感: 現(xiàn)代,簡潔,高效。脈沖動畫干脆利落,代表“送達(dá)”的提醒。

即夢生成的視頻,咱們暫且不談“極快的速度”和“脈沖動畫”實(shí)現(xiàn)的如何,這表盤直接就換了個樣:

即夢生成的視頻,咱們暫且不談“極快的速度”和“脈沖動畫”實(shí)現(xiàn)的如何,這表盤直接就換了個樣。

可靈生成的視頻就沒有發(fā)生這個錯誤:

如果在這么短的時間內(nèi)都無法保證一致性,整個視頻的觀感肯定是好不到哪去。

04 使用感受

對于圖生視頻的AI平臺,它們確實(shí)是強(qiáng)大的工具,但目前還不是成為合格的導(dǎo)演。

先說可靈,它的表現(xiàn)相對更好一些。

對于物理世界的模擬和動態(tài)真實(shí)感,它完成的不錯,基本符合現(xiàn)實(shí)世界中的物理規(guī)律。

其次,可靈對于指令中概念的理解深度和藝術(shù)詮釋能力更具優(yōu)勢。不僅是字面意義,它還能在一定程度上理解文字背后的抽象概念和用戶想要表達(dá)的情緒。

而且,可靈似乎并不是一個讓做什么就做什么的死板機(jī)器。它生成的視頻中,有些畫面并未在文字中寫明,卻能或深或淺地反映主題。

如此說來,它更傾向于一個愿意突破邊界進(jìn)行嘗試的“藝術(shù)家”。

另外,根據(jù)“影評人”Gemini 2.5 Pro的反饋,可靈具備強(qiáng)大的鏡頭語言掌握力,能夠成功完成“推拉變焦”、“向上搖鏡”等復(fù)雜運(yùn)鏡。

對于可靈生成抽象CG場景,影評人認(rèn)為在技術(shù)質(zhì)量和美學(xué)上都已經(jīng)達(dá)到專業(yè)水準(zhǔn)。

但是在這位“藝術(shù)家”發(fā)揮想象力的同時,也帶來了一些問題:

較低的圖像保真度和頻繁的場景重構(gòu)。

選擇性執(zhí)行用戶指令和跑偏的創(chuàng)意。

這就是可靈“導(dǎo)演哲學(xué)”的必然代價,生成的視頻可能會與預(yù)想的畫面相差甚遠(yuǎn)。

再來說說即夢,相比藝術(shù)家,它更保守一些。

即夢生成視頻的優(yōu)勢在于極高的圖像保真度和穩(wěn)定性。

每個鏡頭的主體基本不會出現(xiàn)大幅度的扭曲和變形,畫面也比較穩(wěn)定。

這就意味著,即夢的“圖生視頻”功能,生成視頻的質(zhì)量很大程度上取決于圖的質(zhì)量。

此外,即夢對于復(fù)雜構(gòu)圖的指令也能夠較為精準(zhǔn)的實(shí)現(xiàn),它對于指令的理解和執(zhí)行能力更為可靠。

不過,即夢的缺點(diǎn)在于難以實(shí)現(xiàn)物理上的真實(shí)感,而且缺乏一些動態(tài)邏輯。

上面一些令人匪夷所思的場面大多出自它手。這也是對于概念理解深度不夠、缺乏敘事能力的一種體現(xiàn)。

除此之外,“影評人”也指出,即夢的鏡頭語言理解和執(zhí)行能力較為薄弱,幾乎無法完成較為復(fù)雜的電影運(yùn)鏡,降低了視頻的表現(xiàn)力。

05 最后的一點(diǎn)想法

兩個模型生成的視頻都已經(jīng)證明,對于一般的平臺用戶而言,高難度指令往往帶來的是失敗的結(jié)果,技術(shù)的邊界尚未被突破。

技術(shù)角度來看:

AI生成視頻領(lǐng)域內(nèi),“保真”和“創(chuàng)意”這兩條核心的技術(shù)路線仍然存在博弈,不能兼顧。

此外,視頻時長也是目前存在的一大限制。

不管是國內(nèi)還是國外的AI視頻生成平臺,大多將單個視頻的時長嚴(yán)格控制在5-10秒內(nèi)。

單個視頻能夠表達(dá)的內(nèi)容有限,生成長時間、情節(jié)連貫的視頻對這一領(lǐng)域仍是巨大挑戰(zhàn)。

而這對于用戶來說,為編寫提示詞增加了難度。

寫的太細(xì)致,模型無法理解,也無法在短短幾秒內(nèi)將內(nèi)容表達(dá)完全;

寫的太粗糙,模型生成的內(nèi)容往往與用戶的意圖相隔十萬八千里。

成本角度來看:

通過強(qiáng)大的設(shè)備和算力進(jìn)行本地部署,再對模型進(jìn)行微調(diào),可能才是生成高質(zhì)量視頻的可靠選擇。

但,這成本可不是一般用戶承受得起的。

即便是這兩個在線應(yīng)用平臺,會員價格也并不便宜。

單買積分的話,即夢上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻;

可靈上使用標(biāo)準(zhǔn)模式+5秒視頻則是2元1條視頻。

但根據(jù)我的使用經(jīng)歷來看,想要生成的視頻能達(dá)到一般短視頻的水平,肯定是需要升級配置并多次生成、不斷調(diào)試的。

而這個過程,開銷肯定會不斷增長。

因此,導(dǎo)演、攝像師和后期老師們大可以松一口氣。

想讓AI生成具備觀賞性的影片,我們不妨再多些耐心。

       原文標(biāo)題 : 可靈VS即夢:初探“多模態(tài)”

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號