日本成人在线色图,女人被添全过程a片免费视频,91精品人妻一区二区

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

端到端像素擴散天降外掛！北大&華為等開源DeCo：生圖質(zhì)量超越SD3、OmniGen2等

2025-11-26 16:37

AI生成未來

關(guān)注

作者：Zehong Ma等

解讀：AI生成未來

亮點直擊

DeCo解耦框架：DiT專注低頻語義建模（采用下采樣輸入）；輕量級像素解碼器重建高頻信號。

創(chuàng)新頻率感知損失函數(shù)：通過DCT轉(zhuǎn)換至頻域；基于JPEG量化表分配自適應(yīng)權(quán)重；強化視覺顯著頻率，抑制高頻噪聲。

DeCo在像素擴散模型中取得領(lǐng)先性能：ImageNet上FID得分1.62（256×256）和2.22（512×512），縮小了與兩階段潛在擴散方法的差距。本文預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級評估中同樣在GenEval（0.86）和DPG-Bench（81.4）上獲得SOTA結(jié)果。

通過架構(gòu)級解耦實現(xiàn)專業(yè)化分工，為像素擴散模型提供了新的設(shè)計范式，同時保持端到端訓(xùn)練的優(yōu)勢。

總結(jié)速覽

解決的問題

核心矛盾：像素擴散模型需要在一個單一的擴散Transformer中同時建模高頻信號（細(xì)節(jié)、噪聲）和低頻語義（結(jié)構(gòu)、內(nèi)容），導(dǎo)致模型負(fù)擔(dān)過重、效率低下且生成質(zhì)量受損。

具體弊端：

高頻噪聲會干擾DiT對低頻語義的學(xué)習(xí)。

單一模型難以在巨大像素空間中兼顧兩種不同特性的任務(wù)。

傳統(tǒng)方法導(dǎo)致訓(xùn)練和推理速度慢，輸出圖像存在噪聲且質(zhì)量下降。

提出的方案

核心框架：提出名為DeCo的頻率解耦像素擴散框架。

核心思想：將高低頻組分的生成進行解耦，讓不同組件各司其職。

具體措施：

讓DiT專注于低頻語義建模，使用下采樣輸入。

引入一個輕量級像素解碼器，在DiT提供的語義引導(dǎo)下，專門負(fù)責(zé)重建高頻信號。

提出一種頻率感知流匹配損失函數(shù)，以優(yōu)化訓(xùn)練。

應(yīng)用的技術(shù)

架構(gòu)解耦：采用DiT作為語義主干，配合輕量級像素解碼器的雙路徑架構(gòu)。

頻率感知損失：利用離散余弦變換將信號轉(zhuǎn)換到頻域，并基于JPEG量化表先驗為不同頻率分量分配自適應(yīng)權(quán)重，以強調(diào)視覺顯著頻率、抑制高頻噪聲。

端到端訓(xùn)練：保持像素擴散端到端訓(xùn)練的優(yōu)勢，同時通過解耦設(shè)計提升效率。

達到的效果

性能領(lǐng)先：在ImageNet上取得了像素擴散模型中卓越的性能，F(xiàn)ID達到1.62（256×256）和2.22（512×512），顯著縮小了與主流潛在擴散方法的差距。

全面優(yōu)異：預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級評估中，于GenEval（0.86）和DPG-Bench（81.4）上獲得領(lǐng)先成績。

質(zhì)量提升：通過解耦設(shè)計和頻率感知損失，有效提升了視覺保真度，并緩解了高頻噪聲的干擾。

驗證有效：實驗結(jié)果驗證了在像素擴散中解耦高低頻組分建模這一思路的有效性。

方法

概述

本節(jié)首先回顧基線像素擴散中的條件流匹配，隨后介紹本文提出的頻率解耦像素擴散框架。

條件流匹配。 條件流匹配提供了一個連續(xù)時間生成建�？蚣�，其通過學(xué)習(xí)速度場，將樣本從簡單先驗分布（如高斯分布）傳輸?shù)揭詷?biāo)簽和時間為條件的數(shù)據(jù)分布。給定通過干凈圖像與噪聲間插值構(gòu)建的前向軌跡，條件流匹配的目標(biāo)是將模型預(yù)測速度與真實速度進行匹配：

其中軌跡的線性插值定義為：

真實速度可通過對時間的導(dǎo)數(shù) 推導(dǎo)得出：

在像素擴散基線中，軌跡通常首先通過補丁嵌入層（而非VAE）進行令牌化處理以實現(xiàn)圖像下采樣。在本文的基線及DeCo實驗中，本文對DiT輸入統(tǒng)一采用16×16的補丁尺寸�；€方法將補丁化后的軌跡輸入DiT，通過解補丁層預(yù)測像素速度。該方案要求DiT同時建模高頻信號與低頻語義，而高頻信號（特別是高頻噪聲）難以建模，會干擾DiT對低頻語義的學(xué)習(xí)。

DeCo框架。 為實現(xiàn)高頻生成與低頻語義建模的分離，本文提出頻率解耦框架DeCo。如下圖3所示：

DiT被用于從下采樣的低分辨率輸入中生成低頻語義，具體過程如下：

其中為時間，為標(biāo)簽或文本提示。如后文所述，輕量級像素解碼器隨后以DiT輸出的低頻語義為條件，結(jié)合全分辨率密集輸入生成額外高頻細(xì)節(jié)，最終預(yù)測的像素速度如下所示：

該新范式利用像素解碼器生成高頻細(xì)節(jié)，使DiT能專注于語義建模。這種解耦機制將不同頻率的建模任務(wù)分離到不同模塊，從而加速訓(xùn)練并提升視覺保真度。

為進一步強化視覺顯著頻率并忽略不重要的高頻分量，本文引入了頻率感知流匹配損失函數(shù) 。該損失函數(shù)通過源自JPEG感知先驗的自適應(yīng)權(quán)重對不同頻率分量進行重新加權(quán)。結(jié)合基線中的標(biāo)準(zhǔn)像素級流匹配損失與REPA對齊損失，最終目標(biāo)函數(shù)可表示為：

像素解碼器

如上圖3所示，像素解碼器是一個輕量級無注意力網(wǎng)絡(luò)，由個線性解碼塊和若干線性投影層構(gòu)成。所有操作均為局部線性運算，可在無需自注意力計算開銷的前提下實現(xiàn)高效的高頻建模。

稠密查詢構(gòu)建。 像素解碼器直接以全分辨率含噪圖像作為輸入（不進行下采樣）。所有含噪像素與其對應(yīng)的位置編碼拼接后，通過線性投影形成稠密查詢向量：

其中，和分別表示原始圖像的高度和寬度（例如256），代表像素解碼器的隱藏維度（例如32）。相關(guān)消融實驗參見下表4(c)和(d)。

解碼器塊。 對于每個解碼器塊，DiT輸出經(jīng)過線性上采樣并調(diào)整形狀以匹配的空間分辨率，得到。隨后通過MLP生成自適應(yīng)層歸一化的調(diào)制參數(shù)：

其中為 SiLU 激活函數(shù)。本文采用 AdaLN-Zero [43] 對每個模塊中的稠密解碼器查詢進行如下調(diào)制：

其中 MLP 包含兩個帶有 SiLU的線性層。

速度預(yù)測。 最后，通過線性投影及重排操作將解碼器輸出映射至像素空間，得到預(yù)測速度。該速度包含像素解碼器生成的高頻細(xì)節(jié)以及來自 DiT 的語義信息。

頻率感知 FM 損失

為進一步促使像素解碼器聚焦于感知重要的頻率并抑制無關(guān)噪聲，本文引入了頻率感知流匹配損失。

空間-頻率變換。 本文首先將預(yù)測的和真實的像素速度從空間域轉(zhuǎn)換到頻域。具體流程為：將色彩空間轉(zhuǎn)換為 YCbCr 后，按照 JPEG標(biāo)準(zhǔn)執(zhí)行分塊 8×8 離散余弦變換。將該變換記為，則有：

感知加權(quán)。 為強化視覺顯著頻率并抑制次要頻率，本文采用JPEG量化表作為視覺先驗生成自適應(yīng)權(quán)重。量化間隔越小的頻率具有越高的感知重要性。因此，本文使用質(zhì)量等級下縮放量化表的歸一化倒數(shù)作為自適應(yīng)權(quán)重，即。當(dāng)質(zhì)量等級介于50至100之間時，可根據(jù)JPEG預(yù)設(shè)規(guī)則獲取對應(yīng)的縮放量化表：

其中表示 JPEG 標(biāo)準(zhǔn)中定義的基礎(chǔ)量化表�；谧赃m應(yīng)權(quán)重，頻率感知流匹配損失定義如下：

實證分析

為驗證DeCo有效實現(xiàn)頻率解耦，本文分析了DiT輸出與像素速度的DCT能量譜（下圖4）。

相較于基線方法，本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時，DeCo中DiT輸出的高頻能量顯著低于基線，表明高頻組分已從DiT轉(zhuǎn)移至像素解碼器。這些觀測證實DeCo實現(xiàn)了有效的頻率解耦。上表4(c)(d)的結(jié)果進一步表明，這一成功解耦得益于兩項關(guān)鍵架構(gòu)設(shè)計：

多尺度輸入策略。 多尺度輸入策略至關(guān)重要：通過該策略，像素解碼器可在高分辨率原始輸入上輕松建模高頻信號，同時使DiT能夠從高頻信號已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是，本方案DiT采用16×16的補丁尺寸，顯著大于PixelFlow[6]的4×4補丁，使其更適用于語義捕獲而非細(xì)節(jié)重建。

基于AdaLN的交互機制。 自適應(yīng)層歸一化為DiT與像素解碼器提供了強大的交互機制。在本框架中，DiT的作用類似于傳統(tǒng)文生圖模型中的文本編碼器，提供穩(wěn)定的低頻語義條件。AdaLN層隨后以DiT輸出為條件，對像素解碼器中的稠密查詢特征進行調(diào)制。實驗證實，該調(diào)制機制在融合低頻語義與高頻信號方面，比UNet等采用上采樣疊加低頻特征的簡單方法更為有效。

實驗

本文在ImageNet 256×256數(shù)據(jù)集上進行了消融實驗與基線對比。針對類別到圖像生成任務(wù)，本文在ImageNet 256×256和512×512分辨率上提供詳細(xì)對比，并報告FID、sFID、IS、精確度與召回率；針對文本到圖像生成任務(wù)，本文報告在GenEval和DPG-Bench上的結(jié)果。

基線對比

實驗設(shè)置。 基線對比中所有擴散模型均在ImageNet 256×256分辨率下訓(xùn)練20萬步，采用大型DiT變體。相較于基線的核心架構(gòu)改進是將最后兩個DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導(dǎo)。本文對比了需要VAE的兩階段DiT-L/2，以及PixelFlow、PixNerd等近期像素擴散模型，同時將DDT適配為像素擴散基線PixDDT，并集成JiT到本文的基線中（結(jié)合REPA）以進行公平對比。

詳細(xì)對比。 如下表1所示，本文的DeCo框架在參數(shù)量更少的情況下，所有指標(biāo)均顯著超越基線，同時保持相當(dāng)?shù)挠?xùn)練與推理成本。值得注意的是，僅通過頻率解耦架構(gòu)，DeCo（未使用）即可將FID從61.10降至34.12，IS從16.81提升至46.44；結(jié)合頻率感知FM損失后，DeCo進一步將FID降低至31.35并在其他指標(biāo)上持續(xù)提升。相較于兩階段DiT-L/2，本文的無VAE DeCo模型在達到相當(dāng)性能的同時顯著降低了訓(xùn)練與推理開銷。相比其他像素擴散方法：DeCo比多尺度級聯(lián)模型PixelFlow更高效且性能更優(yōu)；比基于單尺度注意力的PixDDT表現(xiàn)更卓越；相較近期PixNerd在取得更優(yōu)FID的同時降低了訓(xùn)練與推理成本。

JiT指出高維噪聲會干擾有限容量模型對低維數(shù)據(jù)的學(xué)習(xí)，通過預(yù)測干凈圖像并將生成過程錨定在低維數(shù)據(jù)流形，成功將FID從61.10降至39.06（上表1）。本文的DeCo具有相似動機——防止含高維噪聲的高頻信號干擾DiT學(xué)習(xí)低頻語義的能力，但提出了架構(gòu)層面的解決方案：引入輕量級像素解碼器專注建模高頻信號，解放DiT學(xué)習(xí)低頻語義。DeCo還能緩解干凈圖像中高頻噪聲（如相機噪聲）的負(fù)面影響，因此實現(xiàn)了優(yōu)于JiT的FID（31.35對39.06）。

類別到圖像生成

實驗設(shè)置。 在ImageNet上的類別到圖像生成實驗中，本文首先在256×256分辨率下訓(xùn)練320輪，隨后在512×512分辨率下微調(diào)20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導(dǎo)間隔[29]，在單張A800 GPU上測量推理延遲。

主要結(jié)果。 本文的DeCo在ImageNet 256×256和512×512上分別達到領(lǐng)先的FID 1.62和2.22。在256×256分辨率下，DeCo展現(xiàn)出卓越的推理效率：僅需1.05秒即可生成圖像（100推理步），而RDM需38.4秒、PixelFlow需9.78秒。訓(xùn)練效率方面（表1），單次迭代僅需0.24秒，遠(yuǎn)低于PixelFlow的1.61秒。在相同320輪訓(xùn)練后，本模型FID（1.90）顯著低于基線的2.79，并超越近期PixelFlow與PixNerd。如下圖5所示，DeCo僅用80輪（40萬步）即達到FID 2.57，超越基線800輪的表現(xiàn)，實現(xiàn)10倍訓(xùn)練效率提升。經(jīng)過800輪訓(xùn)練后，DeCo在像素擴散模型中以250采樣步數(shù)達到最優(yōu)FID 1.62，甚至可與兩階段潛在擴散模型媲美。使用相同heun采樣器與50步推理在600輪時，DeCo達到FID 1.69，以更少參數(shù)量和FLOPs超越JiT的FID 1.86。在512×512分辨率下，DeCo顯著優(yōu)于現(xiàn)有基于像素的擴散方法，創(chuàng)下領(lǐng)先的FID 2.22。此外，按照PixNerd方法將ImageNet 256×256模型在320輪后微調(diào)20輪，本文的FID和IS可與DiT-XL/2及SiT-XL/2經(jīng)過600輪訓(xùn)練后的結(jié)果相媲美。

文本到圖像生成

實驗設(shè)置。 針對文本到圖像生成任務(wù)，本文在BLIP3o [5]數(shù)據(jù)集上訓(xùn)練模型（包含約3600萬預(yù)訓(xùn)練圖像和6萬高質(zhì)量指令微調(diào)數(shù)據(jù)），采用Qwen3-1.7B [65]作為文本編碼器。完整訓(xùn)練在8×H800 GPU上耗時約6天。

主要結(jié)果。 相較于兩階段潛在擴散方法，本文的DeCo在GenEval基準(zhǔn)測試中獲得0.86的綜合評分，超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統(tǒng)一模型。值得注意的是，盡管使用與BLIP3o相同的訓(xùn)練數(shù)據(jù)，本模型仍實現(xiàn)更優(yōu)性能。在DPG-Bench上，DeCo取得與兩階段潛在擴散方法相當(dāng)?shù)母偁幜ζ骄帧Ｏ啾绕渌说蕉讼袼財U散方法，DeCo較PixelFlow和PixNerd具有顯著性能優(yōu)勢。這些結(jié)果表明，通過DeCo實現(xiàn)的端到端像素擴散能以有限訓(xùn)練/推理成本達到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。

進一步消融實驗

本節(jié)針對像素解碼器設(shè)計、DiT與像素解碼器交互機制、頻率感知FM損失超參數(shù)進行消融研究，所有實驗均遵循前文設(shè)置。

像素解碼器隱藏維度。 如上表4(a)所示，當(dāng)隱藏維度時DeCo性能最優(yōu)：過小維度限制模型能力，更大維度未帶來增益。故默認(rèn)采用隱藏維度32。

像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳：單層能力不足，6層可能引發(fā)優(yōu)化困難。采用32隱藏維與3層結(jié)構(gòu)時，本文的無注意力解碼器僅含850萬參數(shù)，能高效處理高分辨率輸入。

像素解碼器補丁尺寸。 上表4(c)表明當(dāng)解碼器補丁尺寸為1（直接處理全分辨率輸入）時性能最優(yōu)。對解碼器輸入進行補丁化會降低效果，當(dāng)采用與DiT相同的16大補丁時性能最差，這驗證了多尺度輸入策略的有效性。所有對比實驗均保持相近參數(shù)量與計算成本。

DiT與像素解碼器交互機制。 上表4(d)顯示，采用UNet [46]式的簡單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導(dǎo)速度預(yù)測，提供了更有效的交互機制。

損失權(quán)重。 上表4(e)表明當(dāng)損失權(quán)重為1時結(jié)果最優(yōu)，故設(shè)為默認(rèn)值。

中的JPEG質(zhì)量因子。上表4(f)研究了JPEG質(zhì)量因子影響：質(zhì)量為100（無損壓縮）時所有頻率等權(quán)處理，所得FID為33.84（與未使用的34.12接近）；常用質(zhì)量85表現(xiàn)最佳，在強調(diào)重要頻率同時適度弱化次要頻率以實現(xiàn)最優(yōu)平衡；質(zhì)量降至50會過度抑制高頻信號，輕微損害性能。因此所有實驗采用JPEG質(zhì)量85。

結(jié)論

DeCo——一種面向像素擴散的頻率解耦創(chuàng)新框架。通過使用DiT建模低頻語義、輕量級像素解碼器建模高頻信號，DeCo顯著提升了生成質(zhì)量與效率。提出的頻率感知FM損失通過優(yōu)先處理感知重要頻率進一步優(yōu)化視覺質(zhì)量。DeCo在類別到圖像與文本到圖像生成基準(zhǔn)測試中均達到像素擴散領(lǐng)先性能，縮小了與兩階段潛在擴散方法的差距。

參考文獻

[1] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

原文標(biāo)題 : 端到端像素擴散天降外掛！北大&華為等開源DeCo：生圖質(zhì)量超越SD3、OmniGen2等