訂閱
糾錯
加入自媒體

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質(zhì)量超越SD3、OmniGen2等

作者:Zehong Ma等

解讀:AI生成未來

亮點直擊

DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級像素解碼器重建高頻信號。

創(chuàng)新頻率感知損失函數(shù):通過DCT轉(zhuǎn)換至頻域;基于JPEG量化表分配自適應(yīng)權(quán)重;強化視覺顯著頻率,抑制高頻噪聲。

DeCo在像素擴散模型中取得領(lǐng)先性能:ImageNet上FID得分1.62(256×256)和2.22(512×512),縮小了與兩階段潛在擴散方法的差距。本文預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級評估中同樣在GenEval(0.86)和DPG-Bench(81.4)上獲得SOTA結(jié)果。

通過架構(gòu)級解耦實現(xiàn)專業(yè)化分工,為像素擴散模型提供了新的設(shè)計范式,同時保持端到端訓(xùn)練的優(yōu)勢。

總結(jié)速覽

解決的問題

核心矛盾:像素擴散模型需要在一個單一的擴散Transformer中同時建模高頻信號(細(xì)節(jié)、噪聲)和低頻語義(結(jié)構(gòu)、內(nèi)容),導(dǎo)致模型負(fù)擔(dān)過重、效率低下且生成質(zhì)量受損。

具體弊端

高頻噪聲會干擾DiT對低頻語義的學(xué)習(xí)。

單一模型難以在巨大像素空間中兼顧兩種不同特性的任務(wù)。

傳統(tǒng)方法導(dǎo)致訓(xùn)練和推理速度慢,輸出圖像存在噪聲且質(zhì)量下降。

提出的方案

核心框架:提出名為DeCo的頻率解耦像素擴散框架。

核心思想:將高低頻組分的生成進行解耦,讓不同組件各司其職。

具體措施

DiT專注于低頻語義建模,使用下采樣輸入。

引入一個輕量級像素解碼器,在DiT提供的語義引導(dǎo)下,專門負(fù)責(zé)重建高頻信號。

提出一種頻率感知流匹配損失函數(shù),以優(yōu)化訓(xùn)練。

應(yīng)用的技術(shù)

架構(gòu)解耦:采用DiT作為語義主干,配合輕量級像素解碼器的雙路徑架構(gòu)。

頻率感知損失:利用離散余弦變換將信號轉(zhuǎn)換到頻域,并基于JPEG量化表先驗為不同頻率分量分配自適應(yīng)權(quán)重,以強調(diào)視覺顯著頻率、抑制高頻噪聲。

端到端訓(xùn)練:保持像素擴散端到端訓(xùn)練的優(yōu)勢,同時通過解耦設(shè)計提升效率。

達到的效果

性能領(lǐng)先:在ImageNet上取得了像素擴散模型中卓越的性能,F(xiàn)ID達到1.62(256×256)和2.22(512×512),顯著縮小了與主流潛在擴散方法的差距

全面優(yōu)異:預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級評估中,于GenEval(0.86)和DPG-Bench(81.4)上獲得領(lǐng)先成績。

質(zhì)量提升:通過解耦設(shè)計和頻率感知損失,有效提升了視覺保真度,并緩解了高頻噪聲的干擾。

驗證有效:實驗結(jié)果驗證了在像素擴散中解耦高低頻組分建模這一思路的有效性。

方法

概述

本節(jié)首先回顧基線像素擴散中的條件流匹配,隨后介紹本文提出的頻率解耦像素擴散框架。

條件流匹配。 條件流匹配提供了一個連續(xù)時間生成建?蚣,其通過學(xué)習(xí)速度場,將樣本從簡單先驗分布(如高斯分布)傳輸?shù)揭詷?biāo)簽和時間為條件的數(shù)據(jù)分布。給定通過干凈圖像與噪聲間插值構(gòu)建的前向軌跡,條件流匹配的目標(biāo)是將模型預(yù)測速度與真實速度進行匹配:

其中軌跡  的線性插值定義為:

真實速度  可通過  對時間的導(dǎo)數(shù)  推導(dǎo)得出:

在像素擴散基線中,軌跡  通常首先通過補丁嵌入層(而非VAE)進行令牌化處理以實現(xiàn)圖像下采樣。在本文的基線及DeCo實驗中,本文對DiT輸入統(tǒng)一采用16×16的補丁尺寸;方法將補丁化后的軌跡  輸入DiT,通過解補丁層預(yù)測像素速度。該方案要求DiT同時建模高頻信號與低頻語義,而高頻信號(特別是高頻噪聲)難以建模,會干擾DiT對低頻語義的學(xué)習(xí)。

DeCo框架。 為實現(xiàn)高頻生成與低頻語義建模的分離,本文提出頻率解耦框架DeCo。如下圖3所示:

DiT被用于從下采樣的低分辨率輸入  中生成低頻語義 ,具體過程如下:

其中  為時間, 為標(biāo)簽或文本提示。如后文所述,輕量級像素解碼器隨后以DiT輸出的低頻語義  為條件,結(jié)合全分辨率密集輸入  生成額外高頻細(xì)節(jié),最終預(yù)測的像素速度如下所示:

該新范式利用像素解碼器生成高頻細(xì)節(jié),使DiT能專注于語義建模。這種解耦機制將不同頻率的建模任務(wù)分離到不同模塊,從而加速訓(xùn)練并提升視覺保真度。

為進一步強化視覺顯著頻率并忽略不重要的高頻分量,本文引入了頻率感知流匹配損失函數(shù) 。該損失函數(shù)通過源自JPEG感知先驗的自適應(yīng)權(quán)重對不同頻率分量進行重新加權(quán)。結(jié)合基線中的標(biāo)準(zhǔn)像素級流匹配損失與REPA對齊損失,最終目標(biāo)函數(shù)可表示為:

像素解碼器

如上圖3所示,像素解碼器是一個輕量級無注意力網(wǎng)絡(luò),由個線性解碼塊和若干線性投影層構(gòu)成。所有操作均為局部線性運算,可在無需自注意力計算開銷的前提下實現(xiàn)高效的高頻建模。

稠密查詢構(gòu)建。 像素解碼器直接以全分辨率含噪圖像作為輸入(不進行下采樣)。所有含噪像素與其對應(yīng)的位置編碼拼接后,通過線性投影形成稠密查詢向量:

其中 , 和  分別表示原始圖像的高度和寬度(例如256), 代表像素解碼器的隱藏維度(例如32)。相關(guān)消融實驗參見下表4(c)和(d)。

解碼器塊。 對于每個解碼器塊,DiT輸出經(jīng)過線性上采樣并調(diào)整形狀以匹配的空間分辨率,得到。隨后通過MLP生成自適應(yīng)層歸一化的調(diào)制參數(shù):

其中  為 SiLU 激活函數(shù)。本文采用 AdaLN-Zero [43] 對每個模塊中的稠密解碼器查詢進行如下調(diào)制:

其中 MLP 包含兩個帶有 SiLU的線性層。

速度預(yù)測。 最后,通過線性投影及重排操作將解碼器輸出映射至像素空間,得到預(yù)測速度 。該速度包含像素解碼器生成的高頻細(xì)節(jié)以及來自 DiT 的語義信息。

頻率感知 FM 損失

為進一步促使像素解碼器聚焦于感知重要的頻率并抑制無關(guān)噪聲,本文引入了頻率感知流匹配損失。

空間-頻率變換。 本文首先將預(yù)測的和真實的像素速度從空間域轉(zhuǎn)換到頻域。具體流程為:將色彩空間轉(zhuǎn)換為 YCbCr 后,按照 JPEG標(biāo)準(zhǔn)執(zhí)行分塊 8×8 離散余弦變換。將該變換記為 ,則有:

感知加權(quán)。 為強化視覺顯著頻率并抑制次要頻率,本文采用JPEG量化表作為視覺先驗生成自適應(yīng)權(quán)重。量化間隔越小的頻率具有越高的感知重要性。因此,本文使用質(zhì)量等級下縮放量化表的歸一化倒數(shù)作為自適應(yīng)權(quán)重,即。當(dāng)質(zhì)量等級介于50至100之間時,可根據(jù)JPEG預(yù)設(shè)規(guī)則獲取對應(yīng)的縮放量化表:

其中  表示 JPEG 標(biāo)準(zhǔn)中定義的基礎(chǔ)量化表;谧赃m應(yīng)權(quán)重 ,頻率感知流匹配損失定義如下:

實證分析

為驗證DeCo有效實現(xiàn)頻率解耦,本文分析了DiT輸出與像素速度的DCT能量譜(下圖4)。

相較于基線方法,本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時,DeCo中DiT輸出的高頻能量顯著低于基線,表明高頻組分已從DiT轉(zhuǎn)移至像素解碼器。這些觀測證實DeCo實現(xiàn)了有效的頻率解耦。上表4(c)(d)的結(jié)果進一步表明,這一成功解耦得益于兩項關(guān)鍵架構(gòu)設(shè)計:

多尺度輸入策略。 多尺度輸入策略至關(guān)重要:通過該策略,像素解碼器可在高分辨率原始輸入上輕松建模高頻信號,同時使DiT能夠從高頻信號已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是,本方案DiT采用16×16的補丁尺寸,顯著大于PixelFlow[6]的4×4補丁,使其更適用于語義捕獲而非細(xì)節(jié)重建。

基于AdaLN的交互機制。 自適應(yīng)層歸一化為DiT與像素解碼器提供了強大的交互機制。在本框架中,DiT的作用類似于傳統(tǒng)文生圖模型中的文本編碼器,提供穩(wěn)定的低頻語義條件。AdaLN層隨后以DiT輸出為條件,對像素解碼器中的稠密查詢特征進行調(diào)制。實驗證實,該調(diào)制機制在融合低頻語義與高頻信號方面,比UNet等采用上采樣疊加低頻特征的簡單方法更為有效。

實驗

本文在ImageNet 256×256數(shù)據(jù)集上進行了消融實驗與基線對比。針對類別到圖像生成任務(wù),本文在ImageNet 256×256和512×512分辨率上提供詳細(xì)對比,并報告FID、sFID、IS、精確度與召回率;針對文本到圖像生成任務(wù),本文報告在GenEval和DPG-Bench上的結(jié)果。

基線對比

實驗設(shè)置。 基線對比中所有擴散模型均在ImageNet 256×256分辨率下訓(xùn)練20萬步,采用大型DiT變體。相較于基線的核心架構(gòu)改進是將最后兩個DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導(dǎo)。本文對比了需要VAE的兩階段DiT-L/2,以及PixelFlow、PixNerd等近期像素擴散模型,同時將DDT適配為像素擴散基線PixDDT,并集成JiT到本文的基線中(結(jié)合REPA)以進行公平對比。

詳細(xì)對比。 如下表1所示,本文的DeCo框架在參數(shù)量更少的情況下,所有指標(biāo)均顯著超越基線,同時保持相當(dāng)?shù)挠?xùn)練與推理成本。值得注意的是,僅通過頻率解耦架構(gòu),DeCo(未使用)即可將FID從61.10降至34.12,IS從16.81提升至46.44;結(jié)合頻率感知FM損失后,DeCo進一步將FID降低至31.35并在其他指標(biāo)上持續(xù)提升。相較于兩階段DiT-L/2,本文的無VAE DeCo模型在達到相當(dāng)性能的同時顯著降低了訓(xùn)練與推理開銷。相比其他像素擴散方法:DeCo比多尺度級聯(lián)模型PixelFlow更高效且性能更優(yōu);比基于單尺度注意力的PixDDT表現(xiàn)更卓越;相較近期PixNerd在取得更優(yōu)FID的同時降低了訓(xùn)練與推理成本。

JiT指出高維噪聲會干擾有限容量模型對低維數(shù)據(jù)的學(xué)習(xí),通過預(yù)測干凈圖像并將生成過程錨定在低維數(shù)據(jù)流形,成功將FID從61.10降至39.06(上表1)。本文的DeCo具有相似動機——防止含高維噪聲的高頻信號干擾DiT學(xué)習(xí)低頻語義的能力,但提出了架構(gòu)層面的解決方案:引入輕量級像素解碼器專注建模高頻信號,解放DiT學(xué)習(xí)低頻語義。DeCo還能緩解干凈圖像中高頻噪聲(如相機噪聲)的負(fù)面影響,因此實現(xiàn)了優(yōu)于JiT的FID(31.35對39.06)。

類別到圖像生成

實驗設(shè)置。 在ImageNet上的類別到圖像生成實驗中,本文首先在256×256分辨率下訓(xùn)練320輪,隨后在512×512分辨率下微調(diào)20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導(dǎo)間隔[29],在單張A800 GPU上測量推理延遲。

主要結(jié)果。 本文的DeCo在ImageNet 256×256和512×512上分別達到領(lǐng)先的FID 1.62和2.22。在256×256分辨率下,DeCo展現(xiàn)出卓越的推理效率:僅需1.05秒即可生成圖像(100推理步),而RDM需38.4秒、PixelFlow需9.78秒。訓(xùn)練效率方面(表1),單次迭代僅需0.24秒,遠(yuǎn)低于PixelFlow的1.61秒。在相同320輪訓(xùn)練后,本模型FID(1.90)顯著低于基線的2.79,并超越近期PixelFlow與PixNerd。如下圖5所示,DeCo僅用80輪(40萬步)即達到FID 2.57,超越基線800輪的表現(xiàn),實現(xiàn)10倍訓(xùn)練效率提升。經(jīng)過800輪訓(xùn)練后,DeCo在像素擴散模型中以250采樣步數(shù)達到最優(yōu)FID 1.62,甚至可與兩階段潛在擴散模型媲美。使用相同heun采樣器與50步推理在600輪時,DeCo達到FID 1.69,以更少參數(shù)量和FLOPs超越JiT的FID 1.86。在512×512分辨率下,DeCo顯著優(yōu)于現(xiàn)有基于像素的擴散方法,創(chuàng)下領(lǐng)先的FID 2.22。此外,按照PixNerd方法將ImageNet 256×256模型在320輪后微調(diào)20輪,本文的FID和IS可與DiT-XL/2及SiT-XL/2經(jīng)過600輪訓(xùn)練后的結(jié)果相媲美。

文本到圖像生成

實驗設(shè)置。 針對文本到圖像生成任務(wù),本文在BLIP3o [5]數(shù)據(jù)集上訓(xùn)練模型(包含約3600萬預(yù)訓(xùn)練圖像和6萬高質(zhì)量指令微調(diào)數(shù)據(jù)),采用Qwen3-1.7B [65]作為文本編碼器。完整訓(xùn)練在8×H800 GPU上耗時約6天。

主要結(jié)果。 相較于兩階段潛在擴散方法,本文的DeCo在GenEval基準(zhǔn)測試中獲得0.86的綜合評分,超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統(tǒng)一模型。值得注意的是,盡管使用與BLIP3o相同的訓(xùn)練數(shù)據(jù),本模型仍實現(xiàn)更優(yōu)性能。在DPG-Bench上,DeCo取得與兩階段潛在擴散方法相當(dāng)?shù)母偁幜ζ骄帧O啾绕渌说蕉讼袼財U散方法,DeCo較PixelFlow和PixNerd具有顯著性能優(yōu)勢。這些結(jié)果表明,通過DeCo實現(xiàn)的端到端像素擴散能以有限訓(xùn)練/推理成本達到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。

進一步消融實驗

本節(jié)針對像素解碼器設(shè)計、DiT與像素解碼器交互機制、頻率感知FM損失超參數(shù)進行消融研究,所有實驗均遵循前文設(shè)置。

像素解碼器隱藏維度。 如上表4(a)所示,當(dāng)隱藏維度時DeCo性能最優(yōu):過小維度限制模型能力,更大維度未帶來增益。故默認(rèn)采用隱藏維度32。

像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳:單層能力不足,6層可能引發(fā)優(yōu)化困難。采用32隱藏維與3層結(jié)構(gòu)時,本文的無注意力解碼器僅含850萬參數(shù),能高效處理高分辨率輸入。

像素解碼器補丁尺寸。 上表4(c)表明當(dāng)解碼器補丁尺寸為1(直接處理全分辨率輸入)時性能最優(yōu)。對解碼器輸入進行補丁化會降低效果,當(dāng)采用與DiT相同的16大補丁時性能最差,這驗證了多尺度輸入策略的有效性。所有對比實驗均保持相近參數(shù)量與計算成本。

DiT與像素解碼器交互機制。 上表4(d)顯示,采用UNet [46]式的簡單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導(dǎo)速度預(yù)測,提供了更有效的交互機制。

損失權(quán)重。 上表4(e)表明當(dāng)損失權(quán)重為1時結(jié)果最優(yōu),故設(shè)為默認(rèn)值。

中的JPEG質(zhì)量因子。上表4(f)研究了JPEG質(zhì)量因子影響:質(zhì)量為100(無損壓縮)時所有頻率等權(quán)處理,所得FID為33.84(與未使用的34.12接近);常用質(zhì)量85表現(xiàn)最佳,在強調(diào)重要頻率同時適度弱化次要頻率以實現(xiàn)最優(yōu)平衡;質(zhì)量降至50會過度抑制高頻信號,輕微損害性能。因此所有實驗采用JPEG質(zhì)量85。

結(jié)論

DeCo——一種面向像素擴散的頻率解耦創(chuàng)新框架。通過使用DiT建模低頻語義、輕量級像素解碼器建模高頻信號,DeCo顯著提升了生成質(zhì)量與效率。提出的頻率感知FM損失通過優(yōu)先處理感知重要頻率進一步優(yōu)化視覺質(zhì)量。DeCo在類別到圖像與文本到圖像生成基準(zhǔn)測試中均達到像素擴散領(lǐng)先性能,縮小了與兩階段潛在擴散方法的差距。

參考文獻

[1] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

       原文標(biāo)題 : 端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質(zhì)量超越SD3、OmniGen2等

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號