訂閱
糾錯
加入自媒體

ICCV`25 | 視頻交互“隨心所欲”!復(fù)旦&通義萬相等開源DreamRelation:讓想象力從此無邊界

作者:Yujie Wei等

解讀:AI生成未來

亮點(diǎn)直擊

首個關(guān)系導(dǎo)向的視頻定制框架:本工作首次嘗試解決“關(guān)系視頻定制”任務(wù),即基于少量樣本視頻,生成具有特定交互關(guān)系(如握手、擁抱)但主體不同的新視頻。

可解釋的模型設(shè)計:通過深入分析 MM-DiT 架構(gòu)中 Query (Q)、Key (K) 和 Value (V) 的特征,發(fā)現(xiàn)了它們在關(guān)系與外觀表征上的不同作用,并據(jù)此設(shè)計了最優(yōu)的 LoRA 注入策略。

創(chuàng)新的解耦與增強(qiáng)機(jī)制:提出了“關(guān)系 LoRA 三元組”(Relation LoRA Triplet)和“混合掩碼訓(xùn)練策略”來解耦關(guān)系與外觀;提出了“時空關(guān)系對比損失”來增強(qiáng)動態(tài)關(guān)系的建模。

解決的問題

現(xiàn)有的視頻生成和定制方法主要集中在主體外觀(Subject Appearance)或單物體運(yùn)動(Single-object Motion)的定制上。然而,這些方法在處理 復(fù)雜的交互關(guān)系(如兩個主體之間的互動)時面臨巨大挑戰(zhàn):

復(fù)雜性:關(guān)系包含復(fù)雜的空間排列、布局變化和細(xì)微的時間動態(tài)。

糾纏問題:現(xiàn)有模型往往過度關(guān)注無關(guān)的視覺細(xì)節(jié)(如衣服、背景),而無法準(zhǔn)確捕捉核心的交互邏輯。

泛化性差:通用文生視頻模型(如 Mochi)即使有詳細(xì)的提示詞,也難以生成反直覺的交互(例如“熊擁抱老虎”)。圖 2. (a) 即使有詳細(xì)描述,Mochi等一般視頻 DiT 模型也往往難以生成非常規(guī)或反直覺的交互關(guān)系。(b) 我們的方法可以根據(jù)特定關(guān)系生成新主題的視頻。

圖 2. (a) 即使有詳細(xì)描述,Mochi等一般視頻 DiT 模型也往往難以生成非常規(guī)或反直覺的交互關(guān)系。(b) 我們的方法可以根據(jù)特定關(guān)系生成新主題的視頻。

提出的方案

本工作提出了 DreamRelation,通過兩個并發(fā)過程來解決上述問題:

關(guān)系解耦學(xué)習(xí)(Relational Decoupling Learning):利用設(shè)計的“關(guān)系 LoRA 三元組”將關(guān)系信息與主體外觀信息分離。通過分析 MM-DiT 的注意力機(jī)制,確定了 LoRA 組件的最佳放置位置。

關(guān)系動態(tài)增強(qiáng)(Relational Dynamics Enhancement):引入“時空關(guān)系對比損失”,通過拉近同類關(guān)系的動態(tài)特征并推遠(yuǎn)單幀外觀特征,強(qiáng)制模型關(guān)注關(guān)系動態(tài)而非靜態(tài)外觀。

應(yīng)用的技術(shù)

MM-DiT 架構(gòu):基于 Mochi(一種非對稱擴(kuò)散 Transformer)作為基礎(chǔ)模型。

Relation LoRA Triplet:一組復(fù)合 LoRA,包括用于捕捉關(guān)系的 Relation LoRAs(注入 Q 和 K 矩陣)和用于捕捉外觀的 Subject LoRAs(注入 V 矩陣)。

Hybrid Mask Training (HMT) :利用 Grounding DINO 和 SAM 生成掩碼,指導(dǎo)不同 LoRA 關(guān)注特定區(qū)域。

Space-Time Relational Contrastive Loss (RCL) :一種基于 InfoNCE 的對比損失函數(shù),利用幀差分提取動態(tài)特征。

達(dá)到的效果

定性效果:能夠生成具有特定交互關(guān)系的視頻,并成功泛化到新穎的主體(如“動物模仿人類交互”),且背景泄露更少,關(guān)系表達(dá)更準(zhǔn)確。

定量指標(biāo):在構(gòu)建的包含 26 種人類交互的數(shù)據(jù)集上,DreamRelation 在關(guān)系準(zhǔn)確度(Relation Accuracy)、文本對齊度(CLIP-T)和視頻質(zhì)量(FVD)方面均優(yōu)于現(xiàn)有最先進(jìn)方法(包括 Mochi 原生模型、MotionInversion 等)。

用戶評價:在人工評估中,DreamRelation 在關(guān)系對齊、文本對齊和整體質(zhì)量上均獲得了最高的用戶偏好。

DreamRelation 架構(gòu)方法

本工作旨在根據(jù)少量樣本視頻中表達(dá)的指定關(guān)系,生成符合文本提示且包含該關(guān)系的視頻,如圖 4 所示。

圖 4.DreamRelation 的整體框架。我們的方法將關(guān)系視頻定制分解為兩個并發(fā)過程。(1) 在關(guān)系解耦學(xué)習(xí)中,關(guān)系 LoRA 三元組中的關(guān)系 LoRA 捕捉關(guān)系信息,而主體 LoRA 則側(cè)重于主體外觀。這一解耦過程由基于相應(yīng)掩碼的混合掩碼訓(xùn)練策略指導(dǎo)。(2) 在關(guān)系動態(tài)增強(qiáng)中,所提出的時空關(guān)系對比損失將關(guān)系動態(tài)特征(錨特征和正特征)從成對差異中拉近,同時將其從單幀輸出的外觀特征(負(fù)特征)中推開。在推理過程中,主體 LoRA 會被排除,以防止引入不希望出現(xiàn)的表象并增強(qiáng)泛化效果。

圖 4.DreamRelation 的整體框架。我們的方法將關(guān)系視頻定制分解為兩個并發(fā)過程。(1) 在關(guān)系解耦學(xué)習(xí)中,關(guān)系 LoRA 三元組中的關(guān)系 LoRA 捕捉關(guān)系信息,而主體 LoRA 則側(cè)重于主體外觀。這一解耦過程由基于相應(yīng)掩碼的混合掩碼訓(xùn)練策略指導(dǎo)。(2) 在關(guān)系動態(tài)增強(qiáng)中,所提出的時空關(guān)系對比損失將關(guān)系動態(tài)特征(錨特征和正特征)從成對差異中拉近,同時將其從單幀輸出的外觀特征(負(fù)特征)中推開。在推理過程中,主體 LoRA 會被排除,以防止引入不希望出現(xiàn)的表象并增強(qiáng)泛化效果。

視頻 DiT 預(yù)備知識

由于文本到視頻擴(kuò)散 Transformer(DiTs)能夠生成高保真、多樣化且長時長的視頻,其受到的關(guān)注日益增加。當(dāng)前的視頻 DiTs(如 Mochi, CogVideoX)主要采用帶有全注意力機(jī)制(Full Attention)的 MM-DiT 架構(gòu),并在 3D VAE 的潛在空間中執(zhí)行擴(kuò)散過程。給定潛在代碼 (源自視頻數(shù)據(jù) )及其文本提示 ,優(yōu)化過程定義為:

其中  是來自高斯分布的隨機(jī)噪聲, 是基于  和預(yù)定義噪聲調(diào)度在時間步  的噪聲潛在代碼。本工作選擇 Mochi 作為基礎(chǔ)視頻 DiT 模型。

關(guān)系解耦學(xué)習(xí)

關(guān)系 LoRA 三元組 (Relation LoRA triplet)為了定制主體之間復(fù)雜的關(guān)系,本工作將樣本視頻中的關(guān)系模式分解為強(qiáng)調(diào)主體外觀和關(guān)系的獨(dú)立組件。形式上,給定展示兩個主體互動的少量視頻,將其關(guān)系模式表示為一個三元組 主體關(guān)系主體,簡記為 ,其中  和  是兩個主體, 是關(guān)系。

為了區(qū)分關(guān)系模式中的關(guān)系與主體外觀,本工作引入了 關(guān)系 LoRA 三元組,這是一組復(fù)合 LoRA 集合,包含用于建模關(guān)系信息的 Relation LoRAs 和兩個用于捕捉外觀信息的 Subject LoRAs(如圖 4 所示)。具體而言,本工作將 Relation LoRAs 注入到 MM-DiT 全注意力的 Query (Q) 和 Key (K) 矩陣中。同時,設(shè)計了兩個對應(yīng)于關(guān)系中涉及的兩個主體的 Subject LoRAs,并將它們注入到 Value (V) 矩陣中。這一設(shè)計通過實(shí)證發(fā)現(xiàn)得到了支撐:Q、K 和 V 矩陣在 MM-DiT 全注意力中扮演著不同的角色。此外,還設(shè)計了一個 FFN LoRA 來優(yōu)化 Relation 和 Subject LoRAs 的輸出,并將其注入到全注意力的線性層中。需要注意的是,MM-DiT 中的文本和視覺 Token 分支由不同的 LoRA 組處理。

混合掩碼訓(xùn)練策略 (Hybrid mask training strategy)為了實(shí)現(xiàn)關(guān)系 LoRA 三元組中關(guān)系與外觀信息的解耦,本工作提出了混合掩碼訓(xùn)練策略(HMT),利用相應(yīng)的掩碼引導(dǎo) Relation 和 Subject LoRAs 關(guān)注指定區(qū)域。首先使用 Grounding DINO 和 SAM 提取視頻中兩個個體的掩碼,標(biāo)記為主體掩碼  和 。受代表性關(guān)系檢測方法的啟發(fā)(這些方法利用最小外接矩形來描繪主體-客體交互區(qū)域),本工作將關(guān)系掩碼  定義為兩個主體掩碼的并集,以指示關(guān)系區(qū)域。由于視頻 DiT 中的 3D VAE 在時間維度上進(jìn)行了  因子的壓縮,因此對每  幀的掩碼進(jìn)行平均以表示潛在掩碼。

隨后,本工作設(shè)計了 LoRA 選擇策略和基于掩碼的增強(qiáng)擴(kuò)散損失,以便在訓(xùn)練期間更好地進(jìn)行解耦。具體來說,在每次訓(xùn)練迭代中,隨機(jī)選擇 更新 Relation LoRAs 或其中一種 Subject LoRAs。當(dāng)選擇 Relation LoRAs 時,兩個 Subject LoRAs 會同時進(jìn)行訓(xùn)練以提供外觀線索,協(xié)助 Relation LoRAs 專注于關(guān)系信息。這一過程促進(jìn)了關(guān)系與外觀信息的解耦。FFN LoRAs 在整個訓(xùn)練過程中始終參與,以優(yōu)化所選 Relation 或 Subject LoRAs 的輸出。

在 LoRA 選擇之后,應(yīng)用相應(yīng)的掩碼來放大關(guān)注區(qū)域內(nèi)的損失權(quán)重,定義如下:

其中  指示所選的掩碼類型, 是掩碼權(quán)重。通過采用 LoRA 選擇策略和增強(qiáng)擴(kuò)散損失,鼓勵 Relation 和 Subject LoRAs 專注于其指定區(qū)域,從而促進(jìn)有效的關(guān)系定制并提高泛化能力。

推理階段 (Inference)在推理過程中,為了防止引入不期望的外觀并增強(qiáng)泛化能力,本工作 排除 Subject LoRAs,僅將 Relation LoRAs 和 FFN LoRAs 注入到基礎(chǔ)視頻 DiT 中,以保持學(xué)習(xí)到的關(guān)系。

關(guān)于 Query、Key 和 Value 特征的分析

為了確定最佳的模型設(shè)計,本文通過可視化和奇異值分解(SVD)分析了 MM-DiT 全注意力機(jī)制(full attention)中的 query、key 和 value 特征及矩陣,揭示了它們對關(guān)系視頻定制化的影響。

可視化分析。本文從兩類視頻入手:一個包含多種屬性的單主體視頻,以及一個雙主體交互視頻,如圖 5(a) 所示。本文計算了第 60 時間步所有層和注意力頭中與視覺 token 相關(guān)的 query、key 和 value 的平均特征。隨后將這些特征重塑為  的格式,并將所有幀的特征進(jìn)行平均,以可視化形狀為  的特征圖。基于圖 5(a) 的觀察,本文得出兩個結(jié)論:

1) 不同視頻中的 Value 特征包含了豐富的“外觀信息”,而“關(guān)系信息”往往與這些外觀線索交織在一起。 例如,在單主體視頻中,高 Value 特征響應(yīng)出現(xiàn)在“藍(lán)色眼鏡”和“生日帽”等位置。在雙主體視頻中,在關(guān)系區(qū)域(如握手)和外觀區(qū)域(如人臉和衣物)均觀察到了高數(shù)值,這表明關(guān)系信息與外觀信息在特征中是糾纏在一起的。

2) Query 和 Key 特征表現(xiàn)出高度抽象但相似的模式,與 Value 特征截然不同。 與 Value 特征中明顯的外觀信息不同,Query 和 Key 特征在不同視頻間表現(xiàn)出同質(zhì)性(homogeneity),明顯區(qū)別于 Value 特征。為了進(jìn)一步驗(yàn)證這一觀點(diǎn),本文從定量角度對 query、key 和 value 矩陣進(jìn)行了分析。

子空間相似度分析。本文進(jìn)一步分析了由基礎(chǔ)視頻 DiT 模型 Mochi 的 query、key 和 value 矩陣權(quán)重及其奇異向量所張成的子空間的相似度。這種相似度反映了兩個矩陣所包含信息的重疊程度。對于 query 和 key 矩陣,本文應(yīng)用奇異值分解獲得左奇異酉矩陣  和 。遵循文獻(xiàn) [32, 52],本文選取  和  的前  個奇異向量,并基于 Grassmann 距離測量它們的歸一化子空間相似度,計算公式為 。其他相似度的計算方式與之類似。圖 5(b) 中的結(jié)果表明,query 和 key 矩陣的子空間高度相似,而它們與 value 矩陣的相似度極低。這表明 MM-DiT 中的 query 和 key 矩陣共享更多的公共信息,同時在很大程度上保持與 value 矩陣的獨(dú)立性。換言之,query 和 key 矩陣與 value 矩陣表現(xiàn)出強(qiáng)烈的非重疊(non-overlapping)關(guān)系,這有利于解耦學(xué)習(xí)的設(shè)計。這一觀察結(jié)果與圖 5(a) 中的可視化結(jié)果一致。為了進(jìn)一步驗(yàn)證該發(fā)現(xiàn)的泛化性,本文對多種模型進(jìn)行了類似分析,例如 HunyuanVideo 和 Wan2.1。圖 5(b) 的結(jié)果表明,query 和 key 矩陣之間較高的相似度在不同的 MM-DiT 模型和其他 DiT 架構(gòu)(如基于交叉注意力的 DiT)中是一致存在的。

基于這些觀察,本文從經(jīng)驗(yàn)上認(rèn)為 query、key 和 value 矩陣在關(guān)系視頻定制化任務(wù)中扮演著不同的角色,這也是本文設(shè)計 Relation LoRA triplet(關(guān)系 LoRA 三元組) 的動機(jī)。具體而言,鑒于 value 特征富含外觀信息,本文將 Subject LoRAs(主體 LoRA) 注入 value 矩陣,以專注于學(xué)習(xí)外觀。相比之下,由于在 query 和 key 特征中觀察到的同質(zhì)性及其與 value 矩陣的非重疊性質(zhì)有利于解耦學(xué)習(xí),本文將 Relation LoRAs(關(guān)系 LoRA) 同時注入 query 和 key 矩陣,以將關(guān)系從外觀中解耦出來。表 3 中的結(jié)果證實(shí)了本文的分析,顯示該設(shè)計實(shí)現(xiàn)了最佳性能。本文相信這些發(fā)現(xiàn)能夠推動基于 DiT 架構(gòu)的視頻定制化研究。

關(guān)系動態(tài)增強(qiáng)

為了顯式地增強(qiáng)關(guān)系動態(tài)的學(xué)習(xí),本文提出了一種新穎的 時空關(guān)系對比損失 (Space-time Relational Contrastive Loss, RCL) ,該損失在訓(xùn)練過程中強(qiáng)調(diào)關(guān)系動態(tài),同時減少對細(xì)節(jié)外觀的關(guān)注。具體而言,在每個時間步 ,本文計算模型輸出沿幀維度的成對差分(pairwise differences),記為 。然后,通過在空間維度上對這些差分進(jìn)行平均來減少對像素級信息的依賴,從而得到一維關(guān)系動態(tài)特征 ,將其作為錨點(diǎn)特征(anchor features)。

隨后,本文從表現(xiàn)相同關(guān)系的其他視頻中采樣  個一維關(guān)系動態(tài)特征作為正樣本 。對于  中的每一幀,本文從單幀模型輸出  中采樣  個一維特征作為負(fù)樣本 ,這些特征捕獲了外觀信息但排除了關(guān)系動態(tài)。

本文的目標(biāo)是學(xué)習(xí)包含關(guān)系動態(tài)的表征,方法是將描繪相同關(guān)系的不同視頻的成對差分拉近,同時將它們推離單幀輸出的空間特征,以減輕外觀和背景的泄露。遵循 InfoNCE損失,本文將提出的損失公式化為:

其中  是溫度超參數(shù)。

此外,本文維護(hù)一個記憶庫  來存儲和更新正負(fù)樣本,這些樣本均隨機(jī)選自當(dāng)前批次視頻和先前見過的視頻的 1D 特征。這種在線動態(tài)更新策略可以擴(kuò)充正負(fù)樣本的數(shù)量,增強(qiáng)對比學(xué)習(xí)的效果和訓(xùn)練穩(wěn)定性。在每次迭代中,本文將當(dāng)前所有的錨點(diǎn)特征  和  的 1D 特征存入 。記憶庫采用先進(jìn)先出(First In, First Out)隊列實(shí)現(xiàn)。

總體而言,訓(xùn)練損失  由重建損失和對比學(xué)習(xí)損失組成,定義如下:

其中  是損失平衡權(quán)重。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:從 NTU RGB+D 動作識別數(shù)據(jù)集中篩選了 26 種人類交互關(guān)系(如握手、擁抱)。

評估方案:設(shè)計了 40 個包含不同尋常主體交互(例如“狗與貓握手”)的文本提示,以評估模型向新領(lǐng)域的泛化能力。

基線模型

Mochi(基礎(chǔ)模型)。

直接 LoRA 微調(diào)(Direct LoRA finetuning)。

ReVersion(針對視頻任務(wù)復(fù)現(xiàn)/調(diào)整的關(guān)系圖像定制方法)。MotionInversion(針對 Mochi 架構(gòu)調(diào)整的運(yùn)動定制方法)。

評估指標(biāo)

關(guān)系準(zhǔn)確度:利用先進(jìn)的 VLM (Qwen-VL-Max) 判斷生成視頻是否符合指定關(guān)系。

文本對齊:計算圖像-文本相似度。

時間一致性。視頻質(zhì)量(FVD) 。

實(shí)驗(yàn)結(jié)果

定量比較:DreamRelation 在所有指標(biāo)上均優(yōu)于基線方法。特別是關(guān)系準(zhǔn)確度達(dá)到 44.52%,顯著高于 MotionInversion (31.51%) 和 ReVersion (27.14%)。FVD 分?jǐn)?shù)最低(越低越好),表明視頻質(zhì)量最佳。

定性比較:Mochi 和 ReVersion 往往生成靜態(tài)場景或錯誤的交互,且經(jīng)常出現(xiàn)嚴(yán)重的主體外觀混淆。MotionInversion 存在明顯的背景和外觀泄露問題。DreamRelation 能夠生成自然、準(zhǔn)確的交互,并且成功將關(guān)系遷移到完全不同的主體(如動物)上。

注意力圖可視化:DreamRelation 的注意力圖清晰地聚焦于交互區(qū)域(如手部接觸點(diǎn)),而基礎(chǔ)模型的注意力圖則較為雜亂。

用戶研究:15 位評估者對 180 組視頻進(jìn)行盲測,結(jié)果顯示 DreamRelation 在關(guān)系對齊、文本對齊和整體質(zhì)量上均最受用戶青睞。

消融實(shí)驗(yàn)

組件有效性:移除混合掩碼訓(xùn)練策略 (HMT) 會導(dǎo)致背景泄露;移除時空關(guān)系對比損失 (RCL) 會降低關(guān)系準(zhǔn)確度。兩者結(jié)合效果最好。

LoRA 位置:實(shí)驗(yàn)證實(shí),將 Relation LoRAs 放置在 Q 和 K 矩陣中效果最好。若放在 V 矩陣中,準(zhǔn)確度顯著下降,證實(shí)了 V 矩陣主要包含外觀信息的假設(shè)。

RCL 的通用性:將 RCL 應(yīng)用于 MotionInversion 方法中,也能提升其性能,證明了該損失函數(shù)的通用價值。

結(jié)論

DreamRelation,一種新穎的關(guān)系視頻定制方法,該方法通過利用少量的樣本視頻,能夠準(zhǔn)確地建模復(fù)雜的關(guān)系并將其泛化到新的主體上。通過基于 MM-DiT 架構(gòu)的分析,本工作揭示了 Query、Key 和 Value 矩陣的不同角色,從而指導(dǎo)了 關(guān)系 LoRA 三元組 (Relation LoRA triplet) 的設(shè)計,以實(shí)現(xiàn)關(guān)系和外觀的解耦。此外,本工作引入了 **時空關(guān)系對比損失 (Space-Time Relational Contrastive Loss)**,通過強(qiáng)調(diào)關(guān)系動態(tài)來增強(qiáng)對關(guān)系的理解。廣泛的實(shí)驗(yàn)結(jié)果證明了本工作所提方法的優(yōu)越性。本工作希望 DreamRelation 能為理解和生成復(fù)雜的現(xiàn)實(shí)世界交互提供有價值的見解。

參考文獻(xiàn)

[1] DreamRelation: Relation-Centric Video Customization

       原文標(biāo)題 : ICCV`25 | 視頻交互“隨心所欲”!復(fù)旦&通義萬相等開源DreamRelation:讓想象力從此無邊界

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號