訂閱
糾錯(cuò)
加入自媒體

給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細(xì)粒度量表馴服大模型,指哪改哪!

作者:Xuelu Feng等

解讀:AI生成未來

亮點(diǎn)直擊

提出通用化基于量規(guī)的獎(jiǎng)勵(lì)設(shè)計(jì)方案,可同時(shí)適用于擴(kuò)散模型與自回歸文生圖模型;

構(gòu)建提示詞自適應(yīng)、可分解的監(jiān)督框架,顯著提升模型訓(xùn)練的可解釋性與組合能力;

設(shè)計(jì)用戶可控可審計(jì)的交互接口,使強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制具備透明度與易擴(kuò)展性。

通過動(dòng)態(tài)生成包含明確視覺標(biāo)準(zhǔn)的評估量規(guī)來實(shí)現(xiàn)對齊目標(biāo),RubricRL讓文生圖強(qiáng)化學(xué)習(xí)訓(xùn)練過程變得更具可解釋性、可擴(kuò)展性與用戶引導(dǎo)性,為視覺生成與人類意圖的對齊提供了統(tǒng)一基礎(chǔ)。

總結(jié)速覽

解決的問題

獎(jiǎng)勵(lì)機(jī)制不透明:現(xiàn)有方法依賴“黑箱”式的單一標(biāo)量獎(jiǎng)勵(lì)或固定權(quán)重復(fù)合指標(biāo),導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練過程可解釋性差。

獎(jiǎng)勵(lì)設(shè)計(jì)不靈活:固定的獎(jiǎng)勵(lì)權(quán)重或標(biāo)準(zhǔn)缺乏靈活性,難以適應(yīng)不同提示詞的多樣化要求,也限制了用戶控制和調(diào)整的能力。

提出的方案

核心框架:提出 RubricRL,一個(gè)基于評估量規(guī) 的獎(jiǎng)勵(lì)設(shè)計(jì)框架。

核心機(jī)制動(dòng)態(tài)結(jié)構(gòu)化量規(guī):為每個(gè)提示詞動(dòng)態(tài)生成一個(gè)可分解的、細(xì)粒度的視覺標(biāo)準(zhǔn)清單(如物體、屬性、OCR、真實(shí)感)。

適應(yīng)權(quán)重:根據(jù)提示詞內(nèi)容自適應(yīng)地調(diào)整各標(biāo)準(zhǔn)的重要性權(quán)重。

可解釋與用戶可控:提供模塊化的監(jiān)督信號和允許用戶調(diào)整獎(jiǎng)勵(lì)維度的接口。

應(yīng)用的技術(shù)

多模態(tài)大模型作為評判器(如o4-mini):用于對量規(guī)中的各項(xiàng)細(xì)粒度標(biāo)準(zhǔn)進(jìn)行獨(dú)立、自動(dòng)化的評估打分。

提示詞自適應(yīng)加權(quán)機(jī)制:動(dòng)態(tài)計(jì)算并突出與當(dāng)前提示詞最相關(guān)的評估維度。

強(qiáng)化學(xué)習(xí)策略優(yōu)化算法(如GRPO或PPO):利用RubricRL生成的可分解獎(jiǎng)勵(lì)信號來訓(xùn)練和優(yōu)化生成模型。

達(dá)到的效果

提升模型性能:有效提升了生成圖像在提示詞遵循度、視覺細(xì)節(jié)和模型泛化能力方面的表現(xiàn)。

增強(qiáng)訓(xùn)練透明度:通過可分解的量規(guī)清單,使強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)的來源變得可解釋、可審計(jì),訓(xùn)練過程不再是一個(gè)“黑箱”。

實(shí)現(xiàn)用戶控制:提供了一個(gè)靈活、可擴(kuò)展的基礎(chǔ)框架,允許用戶根據(jù)需要直接干預(yù)和調(diào)整獎(jiǎng)勵(lì)的維度,實(shí)現(xiàn)了用戶引導(dǎo)的對齊。

保證通用性:該方案被設(shè)計(jì)為通用框架,可同時(shí)適用于擴(kuò)散模型和自回歸文本到圖像模型。

方法

本文采用自回歸文生圖模型驗(yàn)證RubricRL框架有效性,該框架同樣適用于擴(kuò)散模型。本節(jié)首先介紹RubricRL整體架構(gòu),隨后詳述基于量規(guī)的獎(jiǎng)勵(lì)設(shè)計(jì)、RL訓(xùn)練方法及動(dòng)態(tài)滾輪采樣。

整體架構(gòu)

如下圖3所示,給定文本提示,我們首先將其令牌化為文本令牌序列,輸入自回歸文生圖模型以預(yù)測圖像令牌序列,隨后通過預(yù)訓(xùn)練凍結(jié)的VQ解碼器生成最終圖像。

本文重點(diǎn)研究對進(jìn)行后RL微調(diào)以提升輸出質(zhì)量,其核心挑戰(zhàn)在于設(shè)計(jì)有效、可靠且可解釋的獎(jiǎng)勵(lì)函數(shù),F(xiàn)有方法通常采用單一或多個(gè)專業(yè)模型評估圖像質(zhì)量的不同維度,例如基于CLIP的圖文語義對齊獎(jiǎng)勵(lì)、OCR準(zhǔn)確率及真實(shí)感等。但該方法存在顯著缺陷:(1) 部署多個(gè)專業(yè)模型計(jì)算成本高且難以擴(kuò)展至新維度;(2) 需要精細(xì)的獎(jiǎng)勵(lì)校準(zhǔn)與權(quán)重調(diào)整。近期研究嘗試從成對人類偏好數(shù)據(jù)學(xué)習(xí)單一獎(jiǎng)勵(lì)模型,雖簡化了優(yōu)化過程,但因標(biāo)注成本高且可解釋性差而擴(kuò)展性有限。

受現(xiàn)代多模態(tài)大語言模型(如GPT-5)強(qiáng)大多模態(tài)理解能力啟發(fā),我們提出基于量規(guī)的簡易統(tǒng)一獎(jiǎng)勵(lì)模型。該模型使用具備推理能力的視覺語言模型替代多任務(wù)評估器集合,通過自動(dòng)構(gòu)建可解釋的、提示詞自適應(yīng)的評估標(biāo)準(zhǔn)(稱為“量規(guī)”)來捕捉每個(gè)特定提示的質(zhì)量要求核心維度。

具體而言,給定文本提示,量規(guī)生成模型(通過大語言模型實(shí)現(xiàn))會(huì)生成一組評估量規(guī):

其中  定義了  個(gè)針對特定提示的標(biāo)準(zhǔn),涵蓋物體數(shù)量、屬性準(zhǔn)確性、文本/OCR保真度、空間關(guān)系、美學(xué)質(zhì)量及風(fēng)格一致性等維度。這確保了評估標(biāo)準(zhǔn)能動(dòng)態(tài)適應(yīng)每個(gè)輸入提示的語義與粒度要求。

在強(qiáng)化學(xué)習(xí)中,其目標(biāo)是調(diào)整模型參數(shù)  以在提示分布上最大化基于量規(guī)的期望獎(jiǎng)勵(lì):

其中  表示提示詞集合。一個(gè) rollout 對應(yīng)從  中根據(jù)  采樣生成的單張圖像,其提供的獎(jiǎng)勵(lì)信號用于指導(dǎo)策略更新。相較于多模型獎(jiǎng)勵(lì)系統(tǒng),我們的基于量規(guī)的公式具有三大優(yōu)勢:(1) 簡潔性:無需部署多個(gè)任務(wù)專用評估器;(2) 自適應(yīng)性:為每個(gè)提示詞動(dòng)態(tài)生成量規(guī),確保與多樣化用戶意圖的相關(guān)性;(3) 可解釋性:每個(gè)獎(jiǎng)勵(lì)組分均對應(yīng)可讀的評估標(biāo)準(zhǔn),支持透明的模型診斷與可控的優(yōu)化過程。

基于量規(guī)的獎(jiǎng)勵(lì)

基于量規(guī)的獎(jiǎng)勵(lì)函數(shù)分兩階段執(zhí)行:首先,量規(guī)生成模型  解析用戶提示  并生成候選評估量規(guī)集合 ;其次,多模態(tài)LLM評分器實(shí)施基于量規(guī)的獎(jiǎng)勵(lì) ,針對  中的每個(gè)量規(guī)對生成圖像  進(jìn)行評分。本文采用 GPT-o4-mini 同時(shí)承擔(dān)這兩個(gè)角色,既生成提示詞專用量規(guī),又提供逐準(zhǔn)則判斷以聚合為標(biāo)量獎(jiǎng)勵(lì)。

量規(guī)構(gòu)建。 給定用戶提示 ,要求 GPT-o4-mini 生成量規(guī)列表。每個(gè)量規(guī)條目包含針對特定維度(如OCR對齊度、物體數(shù)量、空間關(guān)系、美學(xué)質(zhì)量)的評估關(guān)鍵詞,以及對應(yīng)圖像檢查要點(diǎn)的簡明描述。為促進(jìn)多樣性并減少量規(guī)生成時(shí)的位置偏差,我們在生成指令中隨機(jī)排列評估維度,并對 GPT-o4-mini 進(jìn)行多輪查詢。每輪模型生成一組量規(guī)(每次查詢要求10條;由于一個(gè)提示詞可能描述多個(gè)物體或?qū)傩,模型可能為同一評估關(guān)鍵詞輸出多條量規(guī)以確保充分覆蓋)。我們將所有有效的關(guān)鍵詞-準(zhǔn)則對跨輪次聚合為統(tǒng)一量規(guī)池,剔除模糊或格式異常的條目。最后,為消除冗余并聚焦關(guān)鍵信號,我們要求 GPT-o4-mini 選擇與用戶提示  關(guān)聯(lián)最緊密的10條核心準(zhǔn)則。

量規(guī)引導(dǎo)的獎(jiǎng)勵(lì)。 給定生成圖像 、對應(yīng)文本提示  及量規(guī)池 ,我們再次要求 GPT-o4-mini 為每條準(zhǔn)則輸出單一評分 ,以反映生成圖像是否完全滿足該量規(guī)要求( 表示滿足, 表示不滿足)。整體量規(guī)獎(jiǎng)勵(lì)通過以下歸一化均值計(jì)算:

基于GRPO的強(qiáng)化學(xué)習(xí)

為將自回歸圖像生成器與基于量規(guī)的獎(jiǎng)勵(lì)對齊,我們采用分組相對策略優(yōu)化(GRPO)——一種專為分組滾輪采樣穩(wěn)定優(yōu)化設(shè)計(jì)的PPO變體。對于每個(gè)提示詞,生成的滾輪采樣集合構(gòu)成一個(gè)分組,每個(gè)滾輪的獎(jiǎng)勵(lì)會(huì)相對于組內(nèi)其他結(jié)果進(jìn)行歸一化處理,以降低方差并改進(jìn)信用分配。具體而言,令表示當(dāng)前策略,表示分組中第個(gè)滾輪的量規(guī)獎(jiǎng)勵(lì)。GRPO通過以下公式計(jì)算相對優(yōu)勢度:

并通過優(yōu)化類似PPO的剪切目標(biāo)函數(shù)來更新策略:

其中 , 和  分別表示對應(yīng)于第  個(gè)軌跡的采樣動(dòng)作與狀態(tài), 是 PPO 剪切參數(shù)。通過利用這種分組相對優(yōu)勢度,GRPO 穩(wěn)定了跨提示詞的訓(xùn)練過程,使模型對異構(gòu)的獎(jiǎng)勵(lì)量綱和噪聲評估具備魯棒性。結(jié)合我們基于量規(guī)的獎(jiǎng)勵(lì)機(jī)制及下文將介紹的動(dòng)態(tài)軌跡選擇策略,我們發(fā)現(xiàn) GRPO 能有效引導(dǎo)生成模型產(chǎn)出既符合人類偏好又具備高質(zhì)量的輸出圖像。

動(dòng)態(tài)軌跡采樣

如上所述,GRPO 中的目標(biāo)策略模型  通過采樣多條軌跡來探索生成空間,每條軌跡產(chǎn)生一個(gè)用于計(jì)算優(yōu)勢度的獎(jiǎng)勵(lì) 。在原始 GRPO 設(shè)計(jì)中,同一提示詞生成的所有  條軌跡被歸為一組進(jìn)行策略更新,即 。后續(xù)研究引入了過采樣與過濾策略以提升訓(xùn)練效率。例如,DAPO采用提示詞級過采樣方法:它為每個(gè)提示詞生成  條軌跡,并丟棄所有軌跡獎(jiǎng)勵(lì)均為 1 或 0 的提示詞,從而僅保留難度適中的提示詞用于策略優(yōu)化。形式化而言,DAPO 選擇性采樣用于訓(xùn)練的提示詞,同時(shí)仍使用每個(gè)保留提示詞的全部軌跡進(jìn)行 RL 更新。

本文提出一種新的軌跡級動(dòng)態(tài)采樣機(jī)制,該機(jī)制在單個(gè)提示詞的軌跡內(nèi)部進(jìn)行選擇,而非過濾整個(gè)提示詞。具體來說,給定一個(gè)文本提示詞,我們并非只采樣  條軌跡,而是過采樣  條軌跡(),并選擇性使用其中  條具代表性的軌跡子集進(jìn)行策略更新。為平衡質(zhì)量與多樣性,采用混合選擇策略:選取獎(jiǎng)勵(lì)最高的前  條軌跡,并從其余軌跡中隨機(jī)采樣剩下的  條以促進(jìn)多樣性。形式化而言,軌跡組  按以下方式構(gòu)建:

其中  表示隨機(jī)采樣。實(shí)驗(yàn)表明該混合設(shè)計(jì)在穩(wěn)定性與多樣性間取得更優(yōu)平衡,從而提升模型質(zhì)量。因此,公式5的損失計(jì)算基于更具代表性且信息量更大的軌跡子集,相較于原始GRPO與DAPO的提示詞級過濾方案,能實(shí)現(xiàn)更穩(wěn)定高效的學(xué)習(xí)。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

遵循SimpleAR方案,從JourneyDB與Synthetic dataset-1M選取11,000張圖像,使用GPT-o4-mini重寫描述以生成不同長度的提示詞并在訓(xùn)練中隨機(jī)選用。網(wǎng)絡(luò)架構(gòu)方面,采用經(jīng)SFT訓(xùn)練的兩個(gè)LLM作為骨干網(wǎng)絡(luò)(Phi3-3.8B與Qwen2.5-0.5B),并分別使用LlamaGen的VQ解碼器與Cosmos-Tokenizer作為視覺解碼器。RL訓(xùn)練基于TRL框架實(shí)施,學(xué)習(xí)率設(shè)為,預(yù)熱比例0.1。默認(rèn)批次大小為28,訓(xùn)練3輪。兩骨干網(wǎng)絡(luò)的輸出圖像分辨率分別為512與1024。動(dòng)態(tài)軌跡采樣中,每個(gè)提示詞從16條軌跡中篩選4條候選。推理階段采用無分類器引導(dǎo)基于條件與非條件邏輯值指導(dǎo)圖像生成。所有實(shí)驗(yàn)在8張NVIDIA A100 GPU上完成。

與前沿方法對比

我們在DPG-Bench與GenEval基準(zhǔn)上,將RubricRL與多種獎(jiǎng)勵(lì)模型在兩類文生圖SFT模型上進(jìn)行對比。對比獎(jiǎng)勵(lì)方法按設(shè)計(jì)理念分為:1) 單一專用獎(jiǎng)勵(lì)模型(CLIPScore、HPSv2、Unified Reward、LLaVA-Reward-Phi);2) 固定權(quán)重復(fù)合獎(jiǎng)勵(lì)指標(biāo)(AR-GRPO與X-Omni)。為公平比較,通過復(fù)現(xiàn)其方法獲取基線數(shù)據(jù),并采用相同RL框架(GRPO)與設(shè)置,僅獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)存在差異。為更好理解RL帶來的增益,還報(bào)告了初始SFT模型性能(各RL獎(jiǎng)勵(lì)均基于此獨(dú)立應(yīng)用);赑hi3與Qwen2.5骨干網(wǎng)絡(luò)的量化結(jié)果分別呈現(xiàn)在下表1與下表2中。

在GenEval上,遵循[10]采用提示詞重寫以確保評估一致性。結(jié)果顯示:所有經(jīng)過RL后訓(xùn)練的方法均持續(xù)超越SFT基線,證實(shí)了強(qiáng)化學(xué)習(xí)對圖像生成質(zhì)量的提升作用;且RubricRL取得最佳性能,在兩個(gè)LLM骨干網(wǎng)絡(luò)上均以約4%優(yōu)勢超越X-Omni,凸顯了我們基于量規(guī)的獎(jiǎng)勵(lì)機(jī)制的有效性與泛化性。

消融實(shí)驗(yàn)

本節(jié)開展多組消融分析,默認(rèn)實(shí)驗(yàn)基于Phi3并在GenEval基準(zhǔn)上評估。

動(dòng)態(tài)軌跡采樣策略。 為探究動(dòng)態(tài)軌跡采樣中不同選擇策略的影響,對比四種方法:未使用動(dòng)態(tài)采樣的RubricRL(原始版本)、FFKC-1D、DAPO及我們提出的混合策略,結(jié)果記錄于下表3。具體而言,F(xiàn)FKC-1D同樣過采樣更多軌跡,隨后通過先選取中位數(shù)軌跡(獎(jiǎng)勵(lì)最接近中位數(shù)的軌跡),再貪婪添加與已選軌跡獎(jiǎng)勵(lì)差異最大的樣本來保持多樣性。相較于我們的混合策略,F(xiàn)FKC-1D過度關(guān)注多樣性而忽略了高質(zhì)量軌跡的重要性。下表3顯示我們的混合采樣策略持續(xù)取得最佳性能,超越FFKC-1D、DAPO及直接使用四條軌跡而無動(dòng)態(tài)選擇的原始基線。值得注意的是,F(xiàn)FKC-1D與DAPO未能超越原始基線,表明其動(dòng)態(tài)提示詞采樣與純軌跡多樣性驅(qū)動(dòng)的采樣策略未能為RL提供額外有效信號。相比之下,我們的混合策略有效平衡了對高獎(jiǎng)勵(lì)軌跡的利用與多樣候選的探索,使策略模型能同時(shí)利用更高質(zhì)量與多樣性的樣本,從而產(chǎn)生更有效的RL信號。

優(yōu)勢度歸一化范圍。 公式4中GRPO使用的優(yōu)勢度通過對組內(nèi)軌跡獎(jiǎng)勵(lì)進(jìn)行歸一化(使用均值與標(biāo)準(zhǔn)差)計(jì)算。在我們的動(dòng)態(tài)采樣策略下,僅保留個(gè)候選中的條軌跡。這引發(fā)關(guān)鍵設(shè)計(jì)選擇:歸一化統(tǒng)計(jì)量(均值與標(biāo)準(zhǔn)差)應(yīng)基于全部條軌跡計(jì)算,還是僅基于保留的條?我們將這兩種變體分別記為“全局歸一化”與“局部歸一化”。下表4顯示“局部歸一化”產(chǎn)生更優(yōu)性能,這是因?yàn)樵诒A糇蛹瘍?nèi)歸一化能更好反映指導(dǎo)學(xué)習(xí)的實(shí)際獎(jiǎng)勵(lì)分布,防止高方差或低質(zhì)量軌跡扭曲梯度方向。

RubricRL vs 采用Best-of-N采樣的SFT。 我們進(jìn)一步將提出的RubricRL與在推理階段采用Best-of-N采樣策略()的SFT模型對比——該策略在先前研究X-Omni中被視為RL方法在語言任務(wù)中的“性能上限”。具體而言,對GenEval中每個(gè)提示詞,我們首先生成量規(guī),隨后從SFT模型采樣8條軌跡,每條軌跡使用基于量規(guī)的獎(jiǎng)勵(lì)評分,并選取前4條在GenEval上評估。下表5顯示,盡管Best-of-N采樣能顯著獲得更高分?jǐn)?shù),RubricRL仍實(shí)現(xiàn)明顯提升,以超過5%的優(yōu)勢超越前者。該結(jié)果與X-Omni的觀察一致,再次證實(shí)強(qiáng)化學(xué)習(xí)提供更有效的優(yōu)化范式。

失敗案例分析。 作為評分器,盡管GPT-o4-mini在評估生成圖像質(zhì)量方面具備高度通用性與強(qiáng)大能力,我們觀察到其可能給出錯(cuò)誤評分(如低估或高估物體數(shù)量,尤其在基礎(chǔ)模型生成質(zhì)量較差時(shí))。下圖4展示了GenEval計(jì)數(shù)子類中的若干典型失敗案例,如交通燈附近冗余的立柱、交織的自行車及重疊的斑馬。這些挑戰(zhàn)性場景常誤導(dǎo)GPT-o4-mini導(dǎo)致計(jì)數(shù)不準(zhǔn)。但當(dāng)基礎(chǔ)模型生成更高質(zhì)量圖像時(shí),該問題顯著緩解。這解釋了為何以Qwen2.5-0.5B為基礎(chǔ)模型時(shí),RubricRL在GenEval“計(jì)數(shù)”子類及DPG-Bench“其他”子類(均包含大量計(jì)數(shù)案例)的表現(xiàn)差于SFT基線;而使用Phi3-3.8B時(shí)該問題幾乎消失,使RubricRL在計(jì)數(shù)相關(guān)類別中實(shí)現(xiàn)大幅性能提升。

可視化結(jié)果

下圖5中進(jìn)一步呈現(xiàn)RubricRL與其他基線方法的全面視覺對比。如圖所示,經(jīng)RubricRL訓(xùn)練的模型持續(xù)生成不僅更具美學(xué)吸引力、且與給定輸入提示詞語義對齊更佳的圖像。為輔助解讀,生成圖像中未對齊或缺失的元素在圖中通過加粗文本強(qiáng)調(diào)。例如下圖5第三行中,SFT模型未能完整渲染黑色高頂禮帽,而多個(gè)基于RL的方法出現(xiàn)部分未對齊:LLaVA-Reward-Phi與Unified Reward生成的圖像中黑色手提包未正確手持,甚至在某些案例中雙爪描繪兩個(gè)手提包卻完全遺漏木質(zhì)手杖。這些定性觀察印證了RubricRL在增強(qiáng)模型遵循復(fù)雜細(xì)粒度指令及生成高質(zhì)量提示一致圖像方面的有效性。

結(jié)論

RubricRL——一個(gè)基于量規(guī)獎(jiǎng)勵(lì)的RL框架,為文生圖任務(wù)提供提示詞自適應(yīng)、可分解的監(jiān)督機(jī)制。通過顯式構(gòu)建可配置的視覺標(biāo)準(zhǔn)(如計(jì)數(shù)、屬性、OCR保真度、真實(shí)感)并獨(dú)立評分,RubricRL產(chǎn)生可解釋的模塊化信號,無縫集成于標(biāo)準(zhǔn)RL策略優(yōu)化。實(shí)驗(yàn)結(jié)果表明RubricRL在增強(qiáng)文生圖性能方面超越現(xiàn)有基于RL的方法。

參考文獻(xiàn)

[1] RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

       原文標(biāo)題 : 給圖像生成配“閱卷老師”!RubricRL拒絕黑盒瞎蒙,用細(xì)粒度量表馴服大模型,指哪改哪!

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號