訂閱
糾錯(cuò)
加入自媒體

多模態(tài)理解生成“大一統(tǒng)”!Meta&港大等重磅發(fā)布Tuna:統(tǒng)一視覺(jué)表征,性能碾壓Show-o2

作者:Zhiheng Liu等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

Tuna,一個(gè)采用統(tǒng)一視覺(jué)表示的原生統(tǒng)一多模態(tài)模型,在一個(gè)單一框架內(nèi)實(shí)現(xiàn)了圖像/視頻理解、圖像/視頻生成和圖像編輯。

廣泛的實(shí)驗(yàn)表明,Tuna 的統(tǒng)一視覺(jué)表示非常有效,在多個(gè)多模態(tài)理解和生成任務(wù)中實(shí)現(xiàn)了SOTA性能。

全面的消融研究證明了本文的統(tǒng)一視覺(jué)表示設(shè)計(jì)優(yōu)于現(xiàn)有方法,如Show-o2和其他采用解耦表示的模型。圖1 展示了Tuna,這是一個(gè)基于統(tǒng)一視覺(jué)表示的原生統(tǒng)一多模態(tài)模型,支持多樣的多模態(tài)理解與生成能力,如圖像和視頻理解、圖像與視頻生成以及圖像編輯。圖1 展示了Tuna,這是一個(gè)基于統(tǒng)一視覺(jué)表示的原生統(tǒng)一多模態(tài)模型,支持多樣的多模態(tài)理解與生成能力,如圖像和視頻理解、圖像與視頻生成以及圖像編輯。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有統(tǒng)一多模態(tài)模型(UMMs)的性能不足:當(dāng)前的 UMMs 采用單一類(lèi)型的視覺(jué)編碼器(如 VQ-VAE、MAR 編碼器)來(lái)處理理解和生成任務(wù),這往往犧牲其中一個(gè)任務(wù)的性能,導(dǎo)致其表現(xiàn)不如解耦(decoupled)的模型。

視覺(jué)表示的統(tǒng)一與平衡挑戰(zhàn):如何將視覺(jué)輸入編碼成一種單一、統(tǒng)一、且能兼顧理解(側(cè)重語(yǔ)義)和生成(側(cè)重細(xì)節(jié))任務(wù)需求的視覺(jué)表示,是開(kāi)發(fā)原生 UMMs 的核心挑戰(zhàn)。

提出的方案

提出模型:Tuna,一個(gè)采用統(tǒng)一視覺(jué)表示的原生統(tǒng)一多模態(tài)模型(native UMM)。

核心設(shè)計(jì):通過(guò)直接連接一個(gè) VAE 編碼器(負(fù)責(zé)細(xì)節(jié)/生成)和一個(gè)表示編碼器(Representation Encoder,負(fù)責(zé)語(yǔ)義/理解)。

目的:獲得足夠富有表現(xiàn)力的統(tǒng)一表示,以同時(shí)適用于各種多模態(tài)任務(wù)。

處理流程:將這些統(tǒng)一的視覺(jué)特征與文本 tokens 融合,然后由一個(gè) LLM 解碼器進(jìn)行處理,通過(guò)自回歸的下一詞元預(yù)測(cè)和流匹配(flow matching)來(lái)生成新的文本 tokens 和去噪圖像。

應(yīng)用的技術(shù)

統(tǒng)一視覺(jué)表示:Tuna 的核心技術(shù),通過(guò)將 VAE 編碼器(如 VAE)與表示編碼器(如 SigLIP)直接連接起來(lái)。

LLM 解碼器:用于處理融合后的文本和視覺(jué)特征。

自回歸下一詞元預(yù)測(cè): 用于生成新的文本 tokens。

流匹配:用于生成去噪圖像(denoised images)。

三階段訓(xùn)練:采用特定的三階段訓(xùn)練流程來(lái)優(yōu)化模型性能。

達(dá)到的效果

功能統(tǒng)一性:Tuna 在單一框架內(nèi)實(shí)現(xiàn)了圖像和視頻的理解、圖像和視頻的生成以及圖像編輯等多種任務(wù)。

性能提升:在多模態(tài)理解和生成基準(zhǔn)測(cè)試中達(dá)到了SOTA

理解基準(zhǔn):在 MMStar 上達(dá)到 61.2% 。

生成基準(zhǔn):在 GenEval上達(dá)到 0.90 。

方法:Tuna

本節(jié)介紹 Tuna,這是一種原生的統(tǒng)一多模態(tài)模型,在所有多模態(tài)理解和生成任務(wù)中采用統(tǒng)一的視覺(jué)表示。首先概述模型設(shè)計(jì)的關(guān)鍵動(dòng)機(jī),隨后詳細(xì)描述 Tuna 的架構(gòu)和訓(xùn)練流程。整體框架概覽如下圖 2 所示。

動(dòng)機(jī)與設(shè)計(jì)原則

自回歸 vs. 擴(kuò)散:文本生成和圖像/視頻生成既可以通過(guò)自回歸模型實(shí)現(xiàn),也可以通過(guò)擴(kuò)散模型實(shí)現(xiàn)。在實(shí)踐中,領(lǐng)先的純理解模型通常采用自回歸模型進(jìn)行文本生成。另一方面,最先進(jìn)的圖像和視頻生成器則采用帶有流匹配(flow matching)的(隱空間)擴(kuò)散模型。

連續(xù) vs. 離散視覺(jué)表示:觀察發(fā)現(xiàn),在連續(xù)(例如 KL 正則化)VAE 隱空間中運(yùn)行的圖像和視頻生成模型,其表現(xiàn)優(yōu)于使用離散表示的模型,因?yàn)殡x散化會(huì)導(dǎo)致信息丟失并降低保真度。同樣,多模態(tài)理解模型通常依賴(lài)連續(xù)的語(yǔ)義特征(如 CLIP 特征),這表明連續(xù)視覺(jué)表示對(duì)于理解和生成任務(wù)本質(zhì)上更為有效。

語(yǔ)義表示有益于視覺(jué)生成:最近的研究表明語(yǔ)義特征可以增強(qiáng)視覺(jué)生成。例如,REPA 證明了擴(kuò)散 Transformer 受益于中間特征與預(yù)訓(xùn)練表示編碼器(如 DINOv2)的對(duì)齊。與本工作同期的 RAE 研究使用凍結(jié)的表示編碼器將圖像編碼為隱空間表示,表明僅憑預(yù)訓(xùn)練的語(yǔ)義特征就能有效地重建輸入圖像。

VAE 隱空間變量可以支持理解任務(wù):本工作觀察到,最初為視覺(jué)重建設(shè)計(jì)的離散和連續(xù) VAE 隱空間變量也能支持語(yǔ)義理解任務(wù)。最近的方法如 UniTok 和 TokLIP 通過(guò)對(duì)比學(xué)習(xí)增強(qiáng)了 VQ-VAE 隱空間變量的語(yǔ)義理解能力。其他工作探索了基于連續(xù) VAE 隱空間變量的擴(kuò)散模型用于語(yǔ)義理解和密集預(yù)測(cè)任務(wù),包括語(yǔ)義分割、目標(biāo)識(shí)別和圖像檢索。

基于這些觀察,Tuna 的設(shè)計(jì)具有以下關(guān)鍵特征:

Tuna 集成了用于文本生成的自回歸模型和用于圖像/視頻生成的流匹配模型。

Tuna 將其統(tǒng)一視覺(jué)表示建立在連續(xù)的 VAE 隱空間變量之上,因?yàn)檫@些隱空間變量有效地支持理解和生成任務(wù)。

為了進(jìn)一步提升性能,Tuna 采用表示編碼器從 VAE 隱空間變量中提取更高級(jí)別的特征,從而提高理解和生成的質(zhì)量。

模型架構(gòu)

統(tǒng)一視覺(jué)表示如前面圖 2 所示,Tuna 使用一個(gè) VAE 編碼器和一個(gè)表示編碼器來(lái)構(gòu)建其統(tǒng)一視覺(jué)表示。給定輸入圖像或視頻 ,應(yīng)用 Wan 2.2 中的 3D 因果 VAE 編碼器,該編碼器在空間上進(jìn)行  下采樣,在時(shí)間上進(jìn)行  下采樣,產(chǎn)生隱空間變量 。然后,生成一個(gè)噪聲隱空間變量 ,其中  是采樣的時(shí)間步,。

接著,使用 SigLIP 2 視覺(jué)編碼器 (Patch 大小為 16,預(yù)訓(xùn)練分辨率為 512)從 VAE 隱空間變量中提取語(yǔ)義特征。由于 VAE 編碼器具有  下采樣,本工作將 SigLIP 2 原始的  Patch 嵌入層替換為隨機(jī)初始化的  Patch 嵌入層,形成修改后的編碼器 。這確保了  和  的 Token 序列長(zhǎng)度一致。最后,應(yīng)用一個(gè)兩層的 MLP 連接器來(lái)獲得統(tǒng)一視覺(jué)表示 。在訓(xùn)練期間,對(duì)于視覺(jué)生成任務(wù),在  之間隨機(jī)采樣 ;對(duì)于多模態(tài)理解任務(wù),固定 ,使得  始終對(duì)應(yīng)于干凈的隱空間變量。

對(duì)于視頻輸入,其中 ( 為批次大小, 為潛在幀數(shù), 分別為通道、高度和寬度),為了防止表示編碼器  處理過(guò)長(zhǎng)的序列,本工作沒(méi)有將所有潛在幀展平為單個(gè)序列,而是通過(guò)將幀維度重塑(reshape)到批次維度中來(lái)應(yīng)用基于窗口的注意力機(jī)制。使用 einops 符號(hào),統(tǒng)一視覺(jué)表示  可以表示為:

其中  是視頻 Token 的隱藏維度。此操作有效地允許  獨(dú)立地在每個(gè) 4 幀窗口上操作,從而顯著提高了處理視頻 Token 時(shí)的效率。

LLM 解碼器和流匹配頭

在獲得統(tǒng)一視覺(jué)表示  后,在其前面添加一個(gè)表示采樣時(shí)間步  的時(shí)間步 Token,將此視覺(jué) Token 序列與語(yǔ)言 Token 拼接,并將組合后的序列輸入到 LLM 解碼器(Qwen-2.5)中進(jìn)行聯(lián)合多模態(tài)處理。遵循標(biāo)準(zhǔn) UMM 實(shí)踐,如圖 3 所示,在 LLM 解碼器層內(nèi)對(duì)語(yǔ)言 Token 應(yīng)用因果注意力掩碼(causal attention mask),對(duì)視覺(jué) Token 應(yīng)用雙向注意力掩碼(bidirectional attention mask)。

對(duì)于多模態(tài)理解任務(wù),LLM 解碼器的輸出通過(guò)語(yǔ)言建模頭(language modeling head)以生成文本 Token 預(yù)測(cè)。對(duì)于視覺(jué)生成和圖像編輯,將完整的 Token 序列輸入到一個(gè)隨機(jī)初始化的流匹配頭(flow matching head)以預(yù)測(cè)流匹配的速度(velocity)。該頭共享 LLM 解碼器架構(gòu),并通過(guò) AdaLN-Zero 添加時(shí)間步條件,遵循 Show-o2 和 DiT 的做法。對(duì)于生成和編輯任務(wù),在拼接的文本-視覺(jué)序列上采用多模態(tài) 3D-RoPE,以處理交錯(cuò)的指令和視覺(jué)內(nèi)容。

訓(xùn)練流程

為了有效地訓(xùn)練該統(tǒng)一模型,本工作采用三階段訓(xùn)練策略,逐步使每個(gè)模型組件適應(yīng)理解和生成任務(wù)。

第一階段:統(tǒng)一表示和流匹配頭預(yù)訓(xùn)練

在第一個(gè)訓(xùn)練階段,目標(biāo)是調(diào)整語(yǔ)義表示編碼器以生成統(tǒng)一視覺(jué)表示,并為流匹配頭建立穩(wěn)健的初始化。為此,在凍結(jié) LLM 解碼器的同時(shí)訓(xùn)練表示編碼器和流匹配頭,使用兩個(gè)目標(biāo):圖像描述(image captioning)和文本到圖像生成。

圖像描述目標(biāo)與強(qiáng)語(yǔ)義編碼器(如 SigLIP 2 和 Qwen2.5-VL 視覺(jué)編碼器)的預(yù)訓(xùn)練目標(biāo)一致。圖像描述已被證明可以提供與對(duì)比學(xué)習(xí)相當(dāng)?shù)恼Z(yǔ)義豐富性,從而增強(qiáng)統(tǒng)一表示的視覺(jué)理解能力。同時(shí),文本到圖像生成目標(biāo)訓(xùn)練流匹配頭從文本條件生成圖像,為后續(xù)的圖像編輯和文本到視頻生成任務(wù)奠定基礎(chǔ)。此外,該目標(biāo)允許生成梯度反向傳播到表示編碼器,進(jìn)一步使統(tǒng)一視覺(jué)表示與理解和生成任務(wù)對(duì)齊。

第二階段:全模型持續(xù)預(yù)訓(xùn)練

在第二個(gè)訓(xùn)練階段,解凍 LLM 解碼器,并使用與第一階段相同的圖像描述和文本到圖像生成目標(biāo)對(duì)整個(gè)模型進(jìn)行預(yù)訓(xùn)練。在第二階段的后期訓(xùn)練步驟中,進(jìn)一步引入圖像指令跟隨(image instruction-following)、圖像編輯和視頻描述數(shù)據(jù)集,以擴(kuò)展模型的能力。這一階段使 Tuna 能夠執(zhí)行更復(fù)雜的多模態(tài)推理和生成任務(wù),彌合了基本視覺(jué)-文本對(duì)齊與更高級(jí)的指令驅(qū)動(dòng)的多模態(tài)理解和生成之間的差距。

第三階段:監(jiān)督微調(diào) (SFT)最后,在第三階段,使用圖像編輯、圖像/視頻指令跟隨和高質(zhì)量圖像/視頻生成數(shù)據(jù)集的組合進(jìn)行監(jiān)督微調(diào)(SFT),并使用降低的學(xué)習(xí)率進(jìn)行訓(xùn)練。這一階段進(jìn)一步細(xì)化了 Tuna 的能力,提高了其在不同多模態(tài)理解和生成任務(wù)中的性能和泛化能力。

實(shí)驗(yàn)

本部分對(duì) Tuna 在各類(lèi)多模態(tài)任務(wù)上的性能進(jìn)行了全面評(píng)估。

實(shí)驗(yàn)設(shè)置

Tuna 基于兩個(gè)不同規(guī)模的 LLM 構(gòu)建:Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct。訓(xùn)練過(guò)程分為三個(gè)階段,涉及從表示編碼器、投影層到全模型的優(yōu)化。使用了包括圖像描述、文本生成圖像、圖像編輯及視頻相關(guān)的數(shù)據(jù)集。

主要結(jié)果

圖像理解本工作在 MME、GQA、MMMU 等 9 個(gè)基準(zhǔn)上評(píng)估了 Tuna。如下表 1所示,無(wú)論是 1.5B 還是 7B 版本,Tuna 幾乎在所有基準(zhǔn)測(cè)試中都達(dá)到了最先進(jìn)(SOTA)的結(jié)果。Tuna 不僅與純理解模型相比具有競(jìng)爭(zhēng)力,而且優(yōu)于許多復(fù)合型 UMM 和更大規(guī)模的 UMM,證明了統(tǒng)一表示的有效性。

圖像生成在 GenEval、DPG-Bench 和 OneIG-Bench 三個(gè)基準(zhǔn)上評(píng)估了 Tuna。結(jié)果如下表 2和下表 3所示。Tuna 始終優(yōu)于包括 Janus-Pro、BAGEL 和 Mogao 在內(nèi)的現(xiàn)有方法。特別是在 OneIG-Bench 中,Tuna 在文本渲染質(zhì)量方面表現(xiàn)出顯著優(yōu)勢(shì),這表明其在處理包含視覺(jué)文本信息的復(fù)雜指令時(shí)具有強(qiáng)大的語(yǔ)義理解能力。

圖像編輯使用 ImgEdit-Bench 和 GEdit-Bench 進(jìn)行評(píng)估。如下表 4所示,Tuna 在 ImgEdit-Bench 上取得了 4.31 的總分,在所有 UMM 中排名最高,且與 FLUX.1 等純生成模型相當(dāng)。在 GEdit-Bench 上,Tuna 在所有統(tǒng)一模型中得分最高。下圖 7 展示了定性結(jié)果,Tuna 能夠準(zhǔn)確執(zhí)行風(fēng)格遷移、環(huán)境更改和對(duì)象替換等操作。

視頻理解在 MVBench、Video-MME 等四個(gè)視頻基準(zhǔn)上的評(píng)估結(jié)果如下表 5所示。Tuna 在 MVBench 和 Video-MME 上優(yōu)于 Show-o2,并在其他基準(zhǔn)上表現(xiàn)出競(jìng)爭(zhēng)力。即使是 1.5B 參數(shù)的模型,其性能也能與更大的純理解模型相媲美。

視頻生成在 VBench 上的評(píng)估結(jié)果如下表 6所示,Tuna 實(shí)現(xiàn)了 SOTA 性能,超越了所有現(xiàn)有的具備視頻生成能力的 UMM,同時(shí)僅使用了 1.5B 參數(shù)的 LLM 解碼器。定性結(jié)果如下圖 8所示,展示了 Tuna 生成高保真視頻的能力。

消融實(shí)驗(yàn):視覺(jué)表示設(shè)計(jì)

本工作通過(guò)一系列消融實(shí)驗(yàn)(如下表7所示)驗(yàn)證了架構(gòu)和訓(xùn)練策略的有效性:

統(tǒng)一表示 vs. 解耦表示:結(jié)果表明,Tuna 的統(tǒng)一表示在理解和生成任務(wù)上均優(yōu)于解耦設(shè)置(即理解和生成使用不同的編碼器)。解耦設(shè)計(jì)在理解任務(wù)上會(huì)導(dǎo)致性能顯著下降。

表示編碼器的選擇:更強(qiáng)的表示編碼器(如 SigLIP 2 vs. SigLIP)能帶來(lái)更好的性能。SigLIP 2 在保持較小模型尺寸的同時(shí),提供了優(yōu)于 DINOv3 的生成質(zhì)量。

理解-生成協(xié)同效應(yīng):聯(lián)合訓(xùn)練使得 Tuna 在理解任務(wù)上超過(guò)了僅使用理解數(shù)據(jù)訓(xùn)練的模型,在生成任務(wù)上也超過(guò)了僅使用生成數(shù)據(jù)訓(xùn)練的模型。這證明了統(tǒng)一視覺(jué)表示設(shè)計(jì)實(shí)現(xiàn)了任務(wù)間的相互增強(qiáng)。

與 Show-o2 的比較:Tuna 的統(tǒng)一表示(直接從 VAE 隱空間變量提取特征)在所有基準(zhǔn)上均優(yōu)于 Show-o2 采用的后期融合策略。

討論:統(tǒng)一表示分析

通過(guò) CKNNA 分?jǐn)?shù)分析(如下圖 5所示),本工作發(fā)現(xiàn) Show-o2 的特征嚴(yán)重偏向語(yǔ)義理解,而與生成模型的特征相關(guān)性較弱。相比之下,Tuna 的統(tǒng)一表示與 SD3-Medium(強(qiáng)生成模型)的中間特征具有更高的一致性,表明 Tuna 學(xué)習(xí)到了更平衡的、適用于理解和生成的統(tǒng)一表示。

定性結(jié)果

下圖 6展示了 Tuna 在圖像生成上的優(yōu)勢(shì),特別是在組合性生成和文本渲染方面(例如正確拼寫(xiě)單詞、按指示放置物體)。相比之下,其他模型經(jīng)常出現(xiàn)拼寫(xiě)錯(cuò)誤或物體遺漏。

結(jié)論

Tuna,一種原生的統(tǒng)一多模態(tài)模型,它通過(guò)級(jí)聯(lián) VAE 編碼器和表示編碼器構(gòu)建了統(tǒng)一的視覺(jué)表示空間。本工作在此統(tǒng)一表示的基礎(chǔ)上訓(xùn)練了一個(gè) LLM 解碼器和一個(gè)流匹配頭,在圖像和視頻理解、圖像和視頻生成以及圖像編輯方面均取得了強(qiáng)大的性能。

Tuna不僅超越了之前的 UMM 基線模型,而且與領(lǐng)先的純理解和純生成模型相比也具有競(jìng)爭(zhēng)力。消融研究進(jìn)一步表明:(1) Tuna 的統(tǒng)一表示空間優(yōu)于 Show-o2 風(fēng)格的統(tǒng)一表示和解耦表示設(shè)計(jì);(2) 在該框架內(nèi),更強(qiáng)的預(yù)訓(xùn)練表示編碼器始終能帶來(lái)更好的性能;(3) 這種統(tǒng)一視覺(jué)表示設(shè)計(jì)實(shí)現(xiàn)了理解和生成之間的相互增強(qiáng)。

參考文獻(xiàn)

[1] Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models

       原文標(biāo)題 : 多模態(tài)理解生成“大一統(tǒng)”!Meta&港大等重磅發(fā)布Tuna:統(tǒng)一視覺(jué)表征,性能碾壓Show-o2

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)