訂閱
糾錯
加入自媒體

告別文字想象!快手可靈團(tuán)隊(duì)開源VANS:實(shí)現(xiàn)從“語言描述”到“動態(tài)演示”跨越,多項(xiàng)SOTA

作者:Junhao Cheng等

解讀:AI生成未來

亮點(diǎn)直擊

開創(chuàng)VNEP新范式:將下一代事件推理從文本描述推進(jìn)到動態(tài)視頻演示的新階段。

提出VANS框架及核心Joint-GRPO策略:通過強(qiáng)化學(xué)習(xí)與聯(lián)合獎勵機(jī)制協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型,生成兼具語義準(zhǔn)確性和視覺連貫性的視頻答案。

構(gòu)建VANS-Data-100K數(shù)據(jù)集:包含10萬組(輸入視頻,問題,輸出視頻)三元組,為VNEP任務(wù)的模型訓(xùn)練與評估提供專門數(shù)據(jù)支撐。

總結(jié)速覽

解決的問題

模態(tài)局限:下一代事件預(yù)測任務(wù)長期依賴文本描述作為答案,無法利用視頻“展示”的直觀優(yōu)勢來傳達(dá)復(fù)雜的物理世界信息。

任務(wù)挑戰(zhàn):視頻化的下一代事件預(yù)測任務(wù)要求模型同時(shí)具備多模態(tài)輸入理解、指令條件推理以及生成視覺和語義一致的視頻的能力,這對現(xiàn)有模型構(gòu)成巨大挑戰(zhàn)。

協(xié)同困難:如何讓視覺語言模型生成的描述既準(zhǔn)確又易于可視化,同時(shí)讓視頻擴(kuò)散模型生成的視頻既能忠實(shí)于描述又能契合輸入視覺上下文,二者難以有效協(xié)同。

提出的方案

新任務(wù)范式:開創(chuàng)了視頻化下一代事件預(yù)測任務(wù),將答案模態(tài)從文本升級為動態(tài)視頻。

核心框架:提出了VANS模型,通過強(qiáng)化學(xué)習(xí)將視覺語言模型與視頻擴(kuò)散模型進(jìn)行融合。

關(guān)鍵算法:設(shè)計(jì)了聯(lián)合分組相對策略優(yōu)化作為VANS的核心訓(xùn)練策略,通過聯(lián)合獎勵協(xié)同優(yōu)化兩個模型。

數(shù)據(jù)支撐:構(gòu)建了VANS-Data-100K專用數(shù)據(jù)集,為模型訓(xùn)練與評估提供支持。

應(yīng)用的技術(shù)

視覺語言模型:用于理解多模態(tài)輸入(視頻和問題)并生成中間描述。

視頻擴(kuò)散模型:用于根據(jù)視覺語言模型的描述和輸入視覺語境生成視頻。

強(qiáng)化學(xué)習(xí):特別是聯(lián)合分組相對策略優(yōu)化算法,用于對齊和協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型。

共享獎勵機(jī)制:驅(qū)動聯(lián)合分組相對策略優(yōu)化過程,確保兩個模型為共同目標(biāo)(生成高質(zhì)量視頻答案)而努力。

達(dá)到的效果

突破性性能:在流程性與預(yù)測性基準(zhǔn)測試上,VANS在視頻事件預(yù)測與可視化兩方面均實(shí)現(xiàn)了突破性(state-of-the-art)性能。

高質(zhì)量輸出:生成的視頻答案兼具語義忠實(shí)性(準(zhǔn)確反映預(yù)測事件)和視覺連貫性(與輸入上下文保持一致)。

有效協(xié)同:通過聯(lián)合分組相對策略優(yōu)化,成功使視覺語言模型生成“易于可視化”的描述,并指導(dǎo)視頻擴(kuò)散模型生成“貼合描述與語境”的視頻。VANS-Data-100K

現(xiàn)有NEP數(shù)據(jù)集因視頻質(zhì)量欠佳和缺乏多樣化指令性問題,無法直接適用于VNEP任務(wù)。為彌補(bǔ)這一空白,本文構(gòu)建了VANS-Data-100K數(shù)據(jù)集,包含3萬個流程性樣本和7萬個預(yù)測性樣本。每個樣本均包含輸入視頻、問題及多模態(tài)答案(文本與視頻),專為VNEP任務(wù)定制。如下圖3所示,本文的數(shù)據(jù)構(gòu)建流程包含四個階段。

原始數(shù)據(jù)收集。 從兩個不同來源收集數(shù)據(jù)以覆蓋流程性與預(yù)測性場景:流程性數(shù)據(jù)采用COIN和YouCook2的高清視頻以確保步驟演示的清晰度;預(yù)測性數(shù)據(jù)則采集自通用場景數(shù)據(jù)集和短片,這些資源富含敘事性與因果動態(tài)。

鏡頭分割。 將原始視頻分割為連貫片段:流程性視頻采用真實(shí)時(shí)間戳進(jìn)行分割,預(yù)測性視頻則使用鏡頭邊界檢測模型。本文過濾掉短于3秒的片段以確保動作完整性。

片段篩選。 采用Gemini-2.5-Flash作為自動質(zhì)量過濾器篩選最優(yōu)3-5秒片段:對于流程性數(shù)據(jù),選擇與給定字幕最匹配的片段;對于預(yù)測性數(shù)據(jù),首先生成每個片段的詳細(xì)字幕,確保所選片段兼具高質(zhì)量與語義代表性。

問答對生成。 使用Gemini-2.5-Flash基于視頻-字幕序列生成問答對。該VLM模擬多樣化問題——聚焦流程性任務(wù)的邏輯下一步驟與預(yù)測性任務(wù)的假設(shè)性場景,同時(shí)生成思維鏈推理與真實(shí)答案,并通過自檢機(jī)制確保邏輯嚴(yán)謹(jǐn)性且避免信息泄露。更多數(shù)據(jù)集細(xì)節(jié)見附錄A。

VANS

下圖4展示了VANS的整體架構(gòu)。輸入問題經(jīng)令牌化后,與輸入視頻的高級ViT視覺特征共同輸入VLM。本文要求VLM執(zhí)行基于指令的推理,生成描述預(yù)測下一事件的文本字幕,作為VDM的語義引導(dǎo)。為確保視覺一致性,VDM同時(shí)以生成的字幕和低級視覺線索為條件——后者通過VAE對n個采樣輸入幀進(jìn)行令牌化提取,隨后將這些令牌拼接至VDM的條件潛在空間。該設(shè)計(jì)在生成新場景時(shí)能保持細(xì)粒度視覺對應(yīng)關(guān)系。

此架構(gòu)存在根本性局限:VLM與VDM被獨(dú)立優(yōu)化。 VLM以文本準(zhǔn)確性為訓(xùn)練目標(biāo),但未獲知其描述是否能生成視覺合理視頻的反饋;反之,VDM需協(xié)調(diào)兩個條件信號(VLM的特定字幕與輸入視覺上下文)。雖然SFT賦予VDM基礎(chǔ)能力,但要實(shí)現(xiàn)語義準(zhǔn)確性與視覺保真度的持續(xù)穩(wěn)定表現(xiàn)仍需進(jìn)一步優(yōu)化。這種割裂導(dǎo)致語義-視覺鴻溝,使兩個模型在互不知曉對方約束與能力的情況下運(yùn)作。為此,本文提出Joint-GRPO將兩個模型協(xié)調(diào)為VNEP的有機(jī)整體。

GRPO基礎(chǔ)

GRPO是一種旨在將模型輸出與人類偏好或復(fù)雜目標(biāo)對齊的RL算法。其核心思想是通過獎勵函數(shù)評估生成樣本質(zhì)量,進(jìn)而調(diào)整模型策略以增加高獎勵生成概率。對于每個輸入上下文,策略模型生成一組條軌跡,每條軌跡獲得反映其質(zhì)量的獎勵。GRPO計(jì)算歸一化優(yōu)勢度以衡量各軌跡相對于組平均水平的優(yōu)劣程度:

策略模型隨后通過以下GRPO目標(biāo)函數(shù)進(jìn)行優(yōu)化:

其中  表示第  條軌跡的概率比。剪切機(jī)制與KL散度項(xiàng)通過防止策略劇烈更新來確保訓(xùn)練穩(wěn)定性。

聯(lián)合GRPO

標(biāo)準(zhǔn)GRPO雖在單模型對齊中表現(xiàn)有效,但在VNEP等多模型場景中存在根本性局限:其以孤立方式優(yōu)化模型。將其分別應(yīng)用于VLM和VDM無法彌合語義-視覺鴻溝,因其未激勵模型輸出形成相互增強(qiáng)效應(yīng)。反之,對兩模型進(jìn)行單階段聯(lián)合訓(xùn)練也存在問題:當(dāng)生成視頻質(zhì)量較差時(shí),該方法難以判別是VLM的字幕還是VDM的生成過程導(dǎo)致問題,易引發(fā)獎勵破解與訓(xùn)練不穩(wěn)定性,從而產(chǎn)生沖突的梯度信號。

為解決此歸因問題并實(shí)現(xiàn)有效協(xié)同引導(dǎo),提出聯(lián)合GRPO。該方法通過結(jié)構(gòu)化兩階段優(yōu)化流程,利用聯(lián)合獎勵函數(shù)協(xié)調(diào)VLM與VDM。本文的核心洞見是:必須協(xié)同引導(dǎo)兩個模型,使VLM的推理實(shí)現(xiàn)視覺接地以有效指導(dǎo)VDM,同時(shí)VDM的生成需保持對VLM預(yù)測與視覺語境的忠實(shí)性。

階段1:可視化友好型VLM調(diào)優(yōu)。  首先將VLM的推理與VDM的生成結(jié)果對齊。在保持VDM凍結(jié)狀態(tài)下優(yōu)化VLM策略。對于輸入視頻與問題,從采樣個文本字幕,每個字幕由凍結(jié)的VDM生成對應(yīng)視頻。VLM的聯(lián)合獎勵計(jì)算公式為:

其中 , ,  是各獎勵項(xiàng)的權(quán)重系數(shù),具體定義如下:

 確保輸出符合指定指令格式:若響應(yīng)遵循"先推理后回答"模板則獎勵1分,否則為0。 通過ROUGE-L衡量生成字幕與真實(shí)字幕的語義相似度。 通過CLIP相似度評估生成視頻與真實(shí)視頻的視覺連貫性。

該復(fù)合獎勵旨在引導(dǎo)VLM超越單純的語言正確性。僅依賴會導(dǎo)致生成語言正確但視覺上不真實(shí)或VDM無法執(zhí)行的字幕;反之,僅使用提供的獎勵則過于間接模糊,無法有效指導(dǎo)VLM的推理過程。聯(lián)合獎勵引導(dǎo)VLM生成不僅語義準(zhǔn)確、且視覺合理并可供VDM執(zhí)行的字幕,此過程有效促使VLM內(nèi)化VDM的能力與約束。

階段2:上下文忠實(shí)型VDM適配。  基于階段1獲得的視覺接地字幕,本階段通過調(diào)整VDM使其在保持輸入視覺上下文一致性的同時(shí),能忠實(shí)呈現(xiàn)這些字幕,從而解決跨模態(tài)對齊挑戰(zhàn)。本文以凍結(jié)的VLM作為錨定模型優(yōu)化VDM策略。如下圖5所示,階段1優(yōu)化的"當(dāng)前改進(jìn)版"VLM生成候選錨定字幕(與真實(shí)值語義相似度過低的樣本會被丟棄并重新生成以確保質(zhì)量),所得語義接地字幕將作為VDM的條件輸入。

隨后從采樣個輸出視頻。VDM的核心任務(wù)是在語義內(nèi)容引導(dǎo)下,通過動態(tài)關(guān)注并保留輸入視頻VAE令牌中的相關(guān)視覺元素(如身份ID、背景),生成符合要求的新場景。其獎勵函數(shù)定義為:

其中 ,  為平衡系數(shù),具體定義為:

 保持與輸入視頻的視覺質(zhì)量及連貫性,使用與階段1相同的度量標(biāo)準(zhǔn)。 通過CLIPScore衡量輸出視頻與錨定字幕的語義一致性。

該聯(lián)合獎勵設(shè)計(jì)旨在解決跨模態(tài)對齊的核心挑戰(zhàn): 確保輸出保持視覺合理性與連續(xù)性; 強(qiáng)制VDM嚴(yán)格遵循描述的事件,防止其忽略字幕內(nèi)容而僅對輸入視頻進(jìn)行重建或輕微修改。

通過這兩階段優(yōu)化,VLM與VDM共同演進(jìn)為協(xié)同工作的有機(jī)整體。各獎勵組件的獨(dú)特互補(bǔ)作用及訓(xùn)練獎勵曲線詳見附錄B。

實(shí)驗(yàn)

本文通過實(shí)驗(yàn)評估VANS的有效性,并與前沿解決方案進(jìn)行對比。

實(shí)驗(yàn)設(shè)置

基準(zhǔn)測試。 本文從數(shù)據(jù)集中采樣400個流程性樣本和400個預(yù)測性樣本構(gòu)建評估基準(zhǔn),其源視頻來自成熟基準(zhǔn)數(shù)據(jù)集,如[2,8,51,54]等,以確?煽康恼鎸(shí)文本與視頻答案。評估集與訓(xùn)練數(shù)據(jù)嚴(yán)格分離,不存在視頻或問題重疊。

評估指標(biāo)。 遵循[16]的研究,本文采用BELU@1/2/3/4和ROUGE-L 評估文本預(yù)測質(zhì)量。對于視頻,本文使用弗雷歇視頻距離(FVD)、CLIP視頻分?jǐn)?shù)(CLIP-V)↑和CLIP文本分?jǐn)?shù)(CLIP-T)來評估視覺質(zhì)量與語義對齊度。

基線模型。 由于現(xiàn)有方法均非為VNEP設(shè)計(jì),本文通過適配相關(guān)領(lǐng)域的頂尖模型建立基線,包括:(1) 視頻擴(kuò)展模型Video-GPT;(2) 由頂尖VLM(Gemini-2.5-Flash、Qwen-2.5-VL-3B及其NEP微調(diào)版TEMPURA)與VDM(Wan-2.1-1.3B、FilmWeaver)組合的級聯(lián)流程;(3) 統(tǒng)一模型Omni-Video。

實(shí)現(xiàn)細(xì)節(jié)。 本文采用Qwen2.5-VL-3B作為VLM、Wan-2.1-1.3B作為VDM初始化VANS。對于Video-GPT,本文提供輸入視頻并利用其原生視頻延續(xù)能力。對于VANS及其他基線方法,本文提供輸入視頻及對應(yīng)問題以執(zhí)行NVEP。

主要結(jié)果

定量比較。 下表1顯示VANS在所有基線模型中表現(xiàn)優(yōu)異。在流程性基準(zhǔn)測試中,VANS(聯(lián)合GRPO)獲得0.3631的ROUGE-L分?jǐn)?shù)和0.8021的CLIP-V分?jǐn)?shù),超越最強(qiáng)級聯(lián)基線(Gemini-FilmWeaver組合的0.2802和0.7102)與統(tǒng)一模型(Omni-Video的0.1075和0.6293)。更重要的是,聯(lián)合GRPO相較SFT版本帶來顯著提升(如ROUGE-L從0.2812升至0.3631,CLIP-V從0.7655升至0.8021),證明了本文聯(lián)合GRPO策略的有效性。視頻擴(kuò)展模型Video-GPT因未進(jìn)行事件推理直接生成幀,獲得最低CLIP-T分?jǐn)?shù)(0.1997)。

定性比較。 如下圖6所示,基線模型常在事件預(yù)測或視覺一致性方面出現(xiàn)錯誤:例如Omni-Video將爭吵誤解為打斗并生成偏離輸入特征的角色;經(jīng)SFT的VANS雖推理能力提升,但仍存在兩個關(guān)鍵局限——組件級錯誤(如案例1中VLM幻象生成"inreview"等不存在文本)和語義-視覺錯位(案例2中指令"添加奶酪"導(dǎo)致傾倒動作而非真實(shí)"撒粉"動作)。采用聯(lián)合GRPO的VANS則通過精準(zhǔn)字幕"sprinkle cheese"及其符合"撒粉"動作的可視化呈現(xiàn),增強(qiáng)了各組件能力并實(shí)現(xiàn)語義-視覺對齊。

消融實(shí)驗(yàn)

本文通過消融研究驗(yàn)證聯(lián)合GRPO的設(shè)計(jì),結(jié)果呈現(xiàn)在下表2與下圖7中。

聯(lián)合優(yōu)化 vs 孤立優(yōu)化。 聯(lián)合GRPO優(yōu)于僅對VLM或VDM單獨(dú)應(yīng)用GRPO的變體,也優(yōu)于簡單級聯(lián)獨(dú)立優(yōu)化版本的方案。這證實(shí)了聯(lián)合優(yōu)化對生成連貫字幕-視頻的必要性,其中VLM與VDM通過協(xié)同適配彌合了語義-視覺鴻溝。

分階段訓(xùn)練效果。 兩階段設(shè)計(jì)被證明至關(guān)重要:僅使用階段1會導(dǎo)致字幕和視頻出現(xiàn)語義偏離,而一體化變體則因獎勵模糊性引發(fā)優(yōu)化不穩(wěn)定——難以判斷低獎勵源于VLM的字幕還是VDM的視頻生成。

獎勵組件分析。 進(jìn)一步消融測試驗(yàn)證了各獎勵組件的貢獻(xiàn):在階段1中,移除文本保真獎勵會降低字幕準(zhǔn)確性(如未能預(yù)測"移除面具"),移除視頻保真獎勵則會損害視覺一致性;在階段2中,移除語義對齊獎勵會導(dǎo)致靜態(tài)幀的獎勵破解現(xiàn)象,移除視頻保真獎勵則會降低輸出連貫性。這些發(fā)現(xiàn)驗(yàn)證了本文采用分階段優(yōu)化與平衡獎勵組件的完整設(shè)計(jì)。

結(jié)論

本研究開創(chuàng)了視頻化下一代事件預(yù)測新任務(wù),將下一代事件推理從文本描述推進(jìn)至動態(tài)視頻演示。為解決其獨(dú)特挑戰(zhàn),本文提出通過聯(lián)合GRPO(一種在聯(lián)合獎勵下協(xié)調(diào)雙模型的兩階段RL策略)融合VLM與VDM的VANS框架,并構(gòu)建VANS-Data-100K數(shù)據(jù)集為此任務(wù)提供重要訓(xùn)練與評估基礎(chǔ)。在成熟基準(zhǔn)測試上的實(shí)驗(yàn)表明,VANS在事件預(yù)測準(zhǔn)確性與視頻生成質(zhì)量兩方面均達(dá)到最先進(jìn)水平。

參考文獻(xiàn)

[1] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

       原文標(biāo)題 : 告別文字想象!快手可靈團(tuán)隊(duì)開源VANS:實(shí)現(xiàn)從“語言描述”到“動態(tài)演示”跨越,多項(xiàng)SOTA

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號