亚洲有码无码在线,亚洲一百部免费不卡喷水片,91香蕉视频破解版

<address id="tgyp1"></address>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

告別文字想象！快手可靈團(tuán)隊(duì)開源VANS：實(shí)現(xiàn)從“語言描述”到“動態(tài)演示”跨越，多項(xiàng)SOTA

2025-11-24 15:54

AI生成未來

關(guān)注

作者：Junhao Cheng等

解讀：AI生成未來

亮點(diǎn)直擊

開創(chuàng)VNEP新范式：將下一代事件推理從文本描述推進(jìn)到動態(tài)視頻演示的新階段。

提出VANS框架及核心Joint-GRPO策略：通過強(qiáng)化學(xué)習(xí)與聯(lián)合獎勵機(jī)制協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型，生成兼具語義準(zhǔn)確性和視覺連貫性的視頻答案。

構(gòu)建VANS-Data-100K數(shù)據(jù)集：包含10萬組（輸入視頻，問題，輸出視頻）三元組，為VNEP任務(wù)的模型訓(xùn)練與評估提供專門數(shù)據(jù)支撐。

總結(jié)速覽

解決的問題

模態(tài)局限：下一代事件預(yù)測任務(wù)長期依賴文本描述作為答案，無法利用視頻“展示”的直觀優(yōu)勢來傳達(dá)復(fù)雜的物理世界信息。

任務(wù)挑戰(zhàn)：視頻化的下一代事件預(yù)測任務(wù)要求模型同時(shí)具備多模態(tài)輸入理解、指令條件推理以及生成視覺和語義一致的視頻的能力，這對現(xiàn)有模型構(gòu)成巨大挑戰(zhàn)。

協(xié)同困難：如何讓視覺語言模型生成的描述既準(zhǔn)確又易于可視化，同時(shí)讓視頻擴(kuò)散模型生成的視頻既能忠實(shí)于描述又能契合輸入視覺上下文，二者難以有效協(xié)同。

提出的方案

新任務(wù)范式：開創(chuàng)了視頻化下一代事件預(yù)測任務(wù)，將答案模態(tài)從文本升級為動態(tài)視頻。

核心框架：提出了VANS模型，通過強(qiáng)化學(xué)習(xí)將視覺語言模型與視頻擴(kuò)散模型進(jìn)行融合。

關(guān)鍵算法：設(shè)計(jì)了聯(lián)合分組相對策略優(yōu)化作為VANS的核心訓(xùn)練策略，通過聯(lián)合獎勵協(xié)同優(yōu)化兩個模型。

數(shù)據(jù)支撐：構(gòu)建了VANS-Data-100K專用數(shù)據(jù)集，為模型訓(xùn)練與評估提供支持。

應(yīng)用的技術(shù)

視覺語言模型：用于理解多模態(tài)輸入（視頻和問題）并生成中間描述。

視頻擴(kuò)散模型：用于根據(jù)視覺語言模型的描述和輸入視覺語境生成視頻。

強(qiáng)化學(xué)習(xí)：特別是聯(lián)合分組相對策略優(yōu)化算法，用于對齊和協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型。

共享獎勵機(jī)制：驅(qū)動聯(lián)合分組相對策略優(yōu)化過程，確保兩個模型為共同目標(biāo)（生成高質(zhì)量視頻答案）而努力。

達(dá)到的效果

突破性性能：在流程性與預(yù)測性基準(zhǔn)測試上，VANS在視頻事件預(yù)測與可視化兩方面均實(shí)現(xiàn)了突破性（state-of-the-art）性能。

高質(zhì)量輸出：生成的視頻答案兼具語義忠實(shí)性（準(zhǔn)確反映預(yù)測事件）和視覺連貫性（與輸入上下文保持一致）。

有效協(xié)同：通過聯(lián)合分組相對策略優(yōu)化，成功使視覺語言模型生成“易于可視化”的描述，并指導(dǎo)視頻擴(kuò)散模型生成“貼合描述與語境”的視頻。VANS-Data-100K

現(xiàn)有NEP數(shù)據(jù)集因視頻質(zhì)量欠佳和缺乏多樣化指令性問題，無法直接適用于VNEP任務(wù)。為彌補(bǔ)這一空白，本文構(gòu)建了VANS-Data-100K數(shù)據(jù)集，包含3萬個流程性樣本和7萬個預(yù)測性樣本。每個樣本均包含輸入視頻、問題及多模態(tài)答案（文本與視頻），專為VNEP任務(wù)定制。如下圖3所示，本文的數(shù)據(jù)構(gòu)建流程包含四個階段。

原始數(shù)據(jù)收集。 從兩個不同來源收集數(shù)據(jù)以覆蓋流程性與預(yù)測性場景：流程性數(shù)據(jù)采用COIN和YouCook2的高清視頻以確保步驟演示的清晰度；預(yù)測性數(shù)據(jù)則采集自通用場景數(shù)據(jù)集和短片，這些資源富含敘事性與因果動態(tài)。

鏡頭分割。 將原始視頻分割為連貫片段：流程性視頻采用真實(shí)時(shí)間戳進(jìn)行分割，預(yù)測性視頻則使用鏡頭邊界檢測模型。本文過濾掉短于3秒的片段以確保動作完整性。

片段篩選。 采用Gemini-2.5-Flash作為自動質(zhì)量過濾器篩選最優(yōu)3-5秒片段：對于流程性數(shù)據(jù)，選擇與給定字幕最匹配的片段；對于預(yù)測性數(shù)據(jù)，首先生成每個片段的詳細(xì)字幕，確保所選片段兼具高質(zhì)量與語義代表性。

問答對生成。 使用Gemini-2.5-Flash基于視頻-字幕序列生成問答對。該VLM模擬多樣化問題——聚焦流程性任務(wù)的邏輯下一步驟與預(yù)測性任務(wù)的假設(shè)性場景，同時(shí)生成思維鏈推理與真實(shí)答案，并通過自檢機(jī)制確保邏輯嚴(yán)謹(jǐn)性且避免信息泄露。更多數(shù)據(jù)集細(xì)節(jié)見附錄A。

VANS

下圖4展示了VANS的整體架構(gòu)。輸入問題經(jīng)令牌化后，與輸入視頻的高級ViT視覺特征共同輸入VLM。本文要求VLM執(zhí)行基于指令的推理，生成描述預(yù)測下一事件的文本字幕，作為VDM的語義引導(dǎo)。為確保視覺一致性，VDM同時(shí)以生成的字幕和低級視覺線索為條件——后者通過VAE對n個采樣輸入幀進(jìn)行令牌化提取，隨后將這些令牌拼接至VDM的條件潛在空間。該設(shè)計(jì)在生成新場景時(shí)能保持細(xì)粒度視覺對應(yīng)關(guān)系。

此架構(gòu)存在根本性局限：VLM與VDM被獨(dú)立優(yōu)化。 VLM以文本準(zhǔn)確性為訓(xùn)練目標(biāo)，但未獲知其描述是否能生成視覺合理視頻的反饋；反之，VDM需協(xié)調(diào)兩個條件信號（VLM的特定字幕與輸入視覺上下文）。雖然SFT賦予VDM基礎(chǔ)能力，但要實(shí)現(xiàn)語義準(zhǔn)確性與視覺保真度的持續(xù)穩(wěn)定表現(xiàn)仍需進(jìn)一步優(yōu)化。這種割裂導(dǎo)致語義-視覺鴻溝，使兩個模型在互不知曉對方約束與能力的情況下運(yùn)作。為此，本文提出Joint-GRPO將兩個模型協(xié)調(diào)為VNEP的有機(jī)整體。

GRPO基礎(chǔ)

GRPO是一種旨在將模型輸出與人類偏好或復(fù)雜目標(biāo)對齊的RL算法。其核心思想是通過獎勵函數(shù)評估生成樣本質(zhì)量，進(jìn)而調(diào)整模型策略以增加高獎勵生成概率。對于每個輸入上下文，策略模型生成一組條軌跡，每條軌跡獲得反映其質(zhì)量的獎勵。GRPO計(jì)算歸一化優(yōu)勢度以衡量各軌跡相對于組平均水平的優(yōu)劣程度：

策略模型隨后通過以下GRPO目標(biāo)函數(shù)進(jìn)行優(yōu)化：

其中表示第條軌跡的概率比。剪切機(jī)制與KL散度項(xiàng)通過防止策略劇烈更新來確保訓(xùn)練穩(wěn)定性。

聯(lián)合GRPO

標(biāo)準(zhǔn)GRPO雖在單模型對齊中表現(xiàn)有效，但在VNEP等多模型場景中存在根本性局限：其以孤立方式優(yōu)化模型。將其分別應(yīng)用于VLM和VDM無法彌合語義-視覺鴻溝，因其未激勵模型輸出形成相互增強(qiáng)效應(yīng)。反之，對兩模型進(jìn)行單階段聯(lián)合訓(xùn)練也存在問題：當(dāng)生成視頻質(zhì)量較差時(shí)，該方法難以判別是VLM的字幕還是VDM的生成過程導(dǎo)致問題，易引發(fā)獎勵破解與訓(xùn)練不穩(wěn)定性，從而產(chǎn)生沖突的梯度信號。

為解決此歸因問題并實(shí)現(xiàn)有效協(xié)同引導(dǎo)，提出聯(lián)合GRPO。該方法通過結(jié)構(gòu)化兩階段優(yōu)化流程，利用聯(lián)合獎勵函數(shù)協(xié)調(diào)VLM與VDM。本文的核心洞見是：必須協(xié)同引導(dǎo)兩個模型，使VLM的推理實(shí)現(xiàn)視覺接地以有效指導(dǎo)VDM，同時(shí)VDM的生成需保持對VLM預(yù)測與視覺語境的忠實(shí)性。

階段1：可視化友好型VLM調(diào)優(yōu)。 首先將VLM的推理與VDM的生成結(jié)果對齊。在保持VDM凍結(jié)狀態(tài)下優(yōu)化VLM策略。對于輸入視頻與問題，從采樣個文本字幕，每個字幕由凍結(jié)的VDM生成對應(yīng)視頻。VLM的聯(lián)合獎勵計(jì)算公式為：

其中 , , 是各獎勵項(xiàng)的權(quán)重系數(shù)，具體定義如下：

確保輸出符合指定指令格式：若響應(yīng)遵循"先推理后回答"模板則獎勵1分，否則為0。通過ROUGE-L衡量生成字幕與真實(shí)字幕的語義相似度。通過CLIP相似度評估生成視頻與真實(shí)視頻的視覺連貫性。

該復(fù)合獎勵旨在引導(dǎo)VLM超越單純的語言正確性。僅依賴會導(dǎo)致生成語言正確但視覺上不真實(shí)或VDM無法執(zhí)行的字幕；反之，僅使用提供的獎勵則過于間接模糊，無法有效指導(dǎo)VLM的推理過程。聯(lián)合獎勵引導(dǎo)VLM生成不僅語義準(zhǔn)確、且視覺合理并可供VDM執(zhí)行的字幕，此過程有效促使VLM內(nèi)化VDM的能力與約束。

階段2：上下文忠實(shí)型VDM適配。 基于階段1獲得的視覺接地字幕，本階段通過調(diào)整VDM使其在保持輸入視覺上下文一致性的同時(shí)，能忠實(shí)呈現(xiàn)這些字幕，從而解決跨模態(tài)對齊挑戰(zhàn)。本文以凍結(jié)的VLM作為錨定模型優(yōu)化VDM策略。如下圖5所示，階段1優(yōu)化的"當(dāng)前改進(jìn)版"VLM生成候選錨定字幕（與真實(shí)值語義相似度過低的樣本會被丟棄并重新生成以確保質(zhì)量），所得語義接地字幕將作為VDM的條件輸入。

隨后從采樣個輸出視頻。VDM的核心任務(wù)是在語義內(nèi)容引導(dǎo)下，通過動態(tài)關(guān)注并保留輸入視頻VAE令牌中的相關(guān)視覺元素（如身份ID、背景），生成符合要求的新場景。其獎勵函數(shù)定義為：

其中 , 為平衡系數(shù)，具體定義為：

保持與輸入視頻的視覺質(zhì)量及連貫性，使用與階段1相同的度量標(biāo)準(zhǔn)。通過CLIPScore衡量輸出視頻與錨定字幕的語義一致性。

該聯(lián)合獎勵設(shè)計(jì)旨在解決跨模態(tài)對齊的核心挑戰(zhàn)：確保輸出保持視覺合理性與連續(xù)性；強(qiáng)制VDM嚴(yán)格遵循描述的事件，防止其忽略字幕內(nèi)容而僅對輸入視頻進(jìn)行重建或輕微修改。

通過這兩階段優(yōu)化，VLM與VDM共同演進(jìn)為協(xié)同工作的有機(jī)整體。各獎勵組件的獨(dú)特互補(bǔ)作用及訓(xùn)練獎勵曲線詳見附錄B。

實(shí)驗(yàn)

本文通過實(shí)驗(yàn)評估VANS的有效性，并與前沿解決方案進(jìn)行對比。

實(shí)驗(yàn)設(shè)置

基準(zhǔn)測試。 本文從數(shù)據(jù)集中采樣400個流程性樣本和400個預(yù)測性樣本構(gòu)建評估基準(zhǔn)，其源視頻來自成熟基準(zhǔn)數(shù)據(jù)集，如[2,8,51,54]等，以確�？煽康恼鎸�(shí)文本與視頻答案。評估集與訓(xùn)練數(shù)據(jù)嚴(yán)格分離，不存在視頻或問題重疊。

評估指標(biāo)。 遵循[16]的研究，本文采用BELU@1/2/3/4和ROUGE-L 評估文本預(yù)測質(zhì)量。對于視頻，本文使用弗雷歇視頻距離（FVD）、CLIP視頻分?jǐn)?shù)（CLIP-V）↑和CLIP文本分?jǐn)?shù)（CLIP-T）來評估視覺質(zhì)量與語義對齊度。

基線模型。 由于現(xiàn)有方法均非為VNEP設(shè)計(jì)，本文通過適配相關(guān)領(lǐng)域的頂尖模型建立基線，包括：(1) 視頻擴(kuò)展模型Video-GPT；(2) 由頂尖VLM（Gemini-2.5-Flash、Qwen-2.5-VL-3B及其NEP微調(diào)版TEMPURA）與VDM（Wan-2.1-1.3B、FilmWeaver）組合的級聯(lián)流程；(3) 統(tǒng)一模型Omni-Video。

實(shí)現(xiàn)細(xì)節(jié)。 本文采用Qwen2.5-VL-3B作為VLM、Wan-2.1-1.3B作為VDM初始化VANS。對于Video-GPT，本文提供輸入視頻并利用其原生視頻延續(xù)能力。對于VANS及其他基線方法，本文提供輸入視頻及對應(yīng)問題以執(zhí)行NVEP。

主要結(jié)果

定量比較。 下表1顯示VANS在所有基線模型中表現(xiàn)優(yōu)異。在流程性基準(zhǔn)測試中，VANS（聯(lián)合GRPO）獲得0.3631的ROUGE-L分?jǐn)?shù)和0.8021的CLIP-V分?jǐn)?shù)，超越最強(qiáng)級聯(lián)基線（Gemini-FilmWeaver組合的0.2802和0.7102）與統(tǒng)一模型（Omni-Video的0.1075和0.6293）。更重要的是，聯(lián)合GRPO相較SFT版本帶來顯著提升（如ROUGE-L從0.2812升至0.3631，CLIP-V從0.7655升至0.8021），證明了本文聯(lián)合GRPO策略的有效性。視頻擴(kuò)展模型Video-GPT因未進(jìn)行事件推理直接生成幀，獲得最低CLIP-T分?jǐn)?shù)（0.1997）。

定性比較。 如下圖6所示，基線模型常在事件預(yù)測或視覺一致性方面出現(xiàn)錯誤：例如Omni-Video將爭吵誤解為打斗并生成偏離輸入特征的角色；經(jīng)SFT的VANS雖推理能力提升，但仍存在兩個關(guān)鍵局限——組件級錯誤（如案例1中VLM幻象生成"inreview"等不存在文本）和語義-視覺錯位（案例2中指令"添加奶酪"導(dǎo)致傾倒動作而非真實(shí)"撒粉"動作）。采用聯(lián)合GRPO的VANS則通過精準(zhǔn)字幕"sprinkle cheese"及其符合"撒粉"動作的可視化呈現(xiàn)，增強(qiáng)了各組件能力并實(shí)現(xiàn)語義-視覺對齊。

消融實(shí)驗(yàn)

本文通過消融研究驗(yàn)證聯(lián)合GRPO的設(shè)計(jì)，結(jié)果呈現(xiàn)在下表2與下圖7中。

聯(lián)合優(yōu)化 vs 孤立優(yōu)化。 聯(lián)合GRPO優(yōu)于僅對VLM或VDM單獨(dú)應(yīng)用GRPO的變體，也優(yōu)于簡單級聯(lián)獨(dú)立優(yōu)化版本的方案。這證實(shí)了聯(lián)合優(yōu)化對生成連貫字幕-視頻的必要性，其中VLM與VDM通過協(xié)同適配彌合了語義-視覺鴻溝。

分階段訓(xùn)練效果。 兩階段設(shè)計(jì)被證明至關(guān)重要：僅使用階段1會導(dǎo)致字幕和視頻出現(xiàn)語義偏離，而一體化變體則因獎勵模糊性引發(fā)優(yōu)化不穩(wěn)定——難以判斷低獎勵源于VLM的字幕還是VDM的視頻生成。

獎勵組件分析。 進(jìn)一步消融測試驗(yàn)證了各獎勵組件的貢獻(xiàn)：在階段1中，移除文本保真獎勵會降低字幕準(zhǔn)確性（如未能預(yù)測"移除面具"），移除視頻保真獎勵則會損害視覺一致性；在階段2中，移除語義對齊獎勵會導(dǎo)致靜態(tài)幀的獎勵破解現(xiàn)象，移除視頻保真獎勵則會降低輸出連貫性。這些發(fā)現(xiàn)驗(yàn)證了本文采用分階段優(yōu)化與平衡獎勵組件的完整設(shè)計(jì)。

結(jié)論

本研究開創(chuàng)了視頻化下一代事件預(yù)測新任務(wù)，將下一代事件推理從文本描述推進(jìn)至動態(tài)視頻演示。為解決其獨(dú)特挑戰(zhàn)，本文提出通過聯(lián)合GRPO（一種在聯(lián)合獎勵下協(xié)調(diào)雙模型的兩階段RL策略）融合VLM與VDM的VANS框架，并構(gòu)建VANS-Data-100K數(shù)據(jù)集為此任務(wù)提供重要訓(xùn)練與評估基礎(chǔ)。在成熟基準(zhǔn)測試上的實(shí)驗(yàn)表明，VANS在事件預(yù)測準(zhǔn)確性與視頻生成質(zhì)量兩方面均達(dá)到最先進(jìn)水平。

參考文獻(xiàn)

[1] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

原文標(biāo)題 : 告別文字想象！快手可靈團(tuán)隊(duì)開源VANS：實(shí)現(xiàn)從“語言描述”到“動態(tài)演示”跨越，多項(xiàng)SOTA