国产最新上传97超碰无码,一区二区三区色色色色色,国产无人区码卡功能齐全

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

給圖像生成配“閱卷老師”！RubricRL拒絕黑盒瞎蒙，用細(xì)粒度量表馴服大模型，指哪改哪！

2025-12-01 18:08

AI生成未來

關(guān)注

作者：Xuelu Feng等

解讀：AI生成未來

亮點(diǎn)直擊

提出通用化基于量規(guī)的獎(jiǎng)勵(lì)設(shè)計(jì)方案，可同時(shí)適用于擴(kuò)散模型與自回歸文生圖模型；

構(gòu)建提示詞自適應(yīng)、可分解的監(jiān)督框架，顯著提升模型訓(xùn)練的可解釋性與組合能力；

設(shè)計(jì)用戶可控可審計(jì)的交互接口，使強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制具備透明度與易擴(kuò)展性。

通過動(dòng)態(tài)生成包含明確視覺標(biāo)準(zhǔn)的評估量規(guī)來實(shí)現(xiàn)對齊目標(biāo)，RubricRL讓文生圖強(qiáng)化學(xué)習(xí)訓(xùn)練過程變得更具可解釋性、可擴(kuò)展性與用戶引導(dǎo)性，為視覺生成與人類意圖的對齊提供了統(tǒng)一基礎(chǔ)。

總結(jié)速覽

解決的問題

獎(jiǎng)勵(lì)機(jī)制不透明：現(xiàn)有方法依賴“黑箱”式的單一標(biāo)量獎(jiǎng)勵(lì)或固定權(quán)重復(fù)合指標(biāo)，導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練過程可解釋性差。

獎(jiǎng)勵(lì)設(shè)計(jì)不靈活：固定的獎(jiǎng)勵(lì)權(quán)重或標(biāo)準(zhǔn)缺乏靈活性，難以適應(yīng)不同提示詞的多樣化要求，也限制了用戶控制和調(diào)整的能力。

提出的方案

核心框架：提出 RubricRL，一個(gè)基于評估量規(guī) 的獎(jiǎng)勵(lì)設(shè)計(jì)框架。

核心機(jī)制：動(dòng)態(tài)結(jié)構(gòu)化量規(guī)：為每個(gè)提示詞動(dòng)態(tài)生成一個(gè)可分解的、細(xì)粒度的視覺標(biāo)準(zhǔn)清單（如物體、屬性、OCR、真實(shí)感）。自

適應(yīng)權(quán)重：根據(jù)提示詞內(nèi)容自適應(yīng)地調(diào)整各標(biāo)準(zhǔn)的重要性權(quán)重。

可解釋與用戶可控：提供模塊化的監(jiān)督信號和允許用戶調(diào)整獎(jiǎng)勵(lì)維度的接口。

應(yīng)用的技術(shù)

多模態(tài)大模型作為評判器（如o4-mini）：用于對量規(guī)中的各項(xiàng)細(xì)粒度標(biāo)準(zhǔn)進(jìn)行獨(dú)立、自動(dòng)化的評估打分。

提示詞自適應(yīng)加權(quán)機(jī)制：動(dòng)態(tài)計(jì)算并突出與當(dāng)前提示詞最相關(guān)的評估維度。

強(qiáng)化學(xué)習(xí)策略優(yōu)化算法（如GRPO或PPO）：利用RubricRL生成的可分解獎(jiǎng)勵(lì)信號來訓(xùn)練和優(yōu)化生成模型。

達(dá)到的效果

提升模型性能：有效提升了生成圖像在提示詞遵循度、視覺細(xì)節(jié)和模型泛化能力方面的表現(xiàn)。

增強(qiáng)訓(xùn)練透明度：通過可分解的量規(guī)清單，使強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)的來源變得可解釋、可審計(jì)，訓(xùn)練過程不再是一個(gè)“黑箱”。

實(shí)現(xiàn)用戶控制：提供了一個(gè)靈活、可擴(kuò)展的基礎(chǔ)框架，允許用戶根據(jù)需要直接干預(yù)和調(diào)整獎(jiǎng)勵(lì)的維度，實(shí)現(xiàn)了用戶引導(dǎo)的對齊。

保證通用性：該方案被設(shè)計(jì)為通用框架，可同時(shí)適用于擴(kuò)散模型和自回歸文本到圖像模型。

方法

本文采用自回歸文生圖模型驗(yàn)證RubricRL框架有效性，該框架同樣適用于擴(kuò)散模型。本節(jié)首先介紹RubricRL整體架構(gòu)，隨后詳述基于量規(guī)的獎(jiǎng)勵(lì)設(shè)計(jì)、RL訓(xùn)練方法及動(dòng)態(tài)滾輪采樣。

整體架構(gòu)

如下圖3所示，給定文本提示，我們首先將其令牌化為文本令牌序列，輸入自回歸文生圖模型以預(yù)測圖像令牌序列，隨后通過預(yù)訓(xùn)練凍結(jié)的VQ解碼器生成最終圖像。

本文重點(diǎn)研究對進(jìn)行后RL微調(diào)以提升輸出質(zhì)量，其核心挑戰(zhàn)在于設(shè)計(jì)有效、可靠且可解釋的獎(jiǎng)勵(lì)函數(shù)�，F(xiàn)有方法通常采用單一或多個(gè)專業(yè)模型評估圖像質(zhì)量的不同維度，例如基于CLIP的圖文語義對齊獎(jiǎng)勵(lì)、OCR準(zhǔn)確率及真實(shí)感等。但該方法存在顯著缺陷：(1) 部署多個(gè)專業(yè)模型計(jì)算成本高且難以擴(kuò)展至新維度；(2) 需要精細(xì)的獎(jiǎng)勵(lì)校準(zhǔn)與權(quán)重調(diào)整。近期研究嘗試從成對人類偏好數(shù)據(jù)學(xué)習(xí)單一獎(jiǎng)勵(lì)模型，雖簡化了優(yōu)化過程，但因標(biāo)注成本高且可解釋性差而擴(kuò)展性有限。

受現(xiàn)代多模態(tài)大語言模型（如GPT-5）強(qiáng)大多模態(tài)理解能力啟發(fā)，我們提出基于量規(guī)的簡易統(tǒng)一獎(jiǎng)勵(lì)模型。該模型使用具備推理能力的視覺語言模型替代多任務(wù)評估器集合，通過自動(dòng)構(gòu)建可解釋的、提示詞自適應(yīng)的評估標(biāo)準(zhǔn)（稱為“量規(guī)”）來捕捉每個(gè)特定提示的質(zhì)量要求核心維度。

具體而言，給定文本提示，量規(guī)生成模型（通過大語言模型實(shí)現(xiàn)）會(huì)生成一組評估量規(guī)：

其中定義了個(gè)針對特定提示的標(biāo)準(zhǔn)，涵蓋物體數(shù)量、屬性準(zhǔn)確性、文本/OCR保真度、空間關(guān)系、美學(xué)質(zhì)量及風(fēng)格一致性等維度。這確保了評估標(biāo)準(zhǔn)能動(dòng)態(tài)適應(yīng)每個(gè)輸入提示的語義與粒度要求。

在強(qiáng)化學(xué)習(xí)中，其目標(biāo)是調(diào)整模型參數(shù) 以在提示分布上最大化基于量規(guī)的期望獎(jiǎng)勵(lì)：

其中表示提示詞集合。一個(gè) rollout 對應(yīng)從中根據(jù) 采樣生成的單張圖像，其提供的獎(jiǎng)勵(lì)信號用于指導(dǎo)策略更新。相較于多模型獎(jiǎng)勵(lì)系統(tǒng)，我們的基于量規(guī)的公式具有三大優(yōu)勢：(1) 簡潔性：無需部署多個(gè)任務(wù)專用評估器；(2) 自適應(yīng)性：為每個(gè)提示詞動(dòng)態(tài)生成量規(guī)，確保與多樣化用戶意圖的相關(guān)性；(3) 可解釋性：每個(gè)獎(jiǎng)勵(lì)組分均對應(yīng)可讀的評估標(biāo)準(zhǔn)，支持透明的模型診斷與可控的優(yōu)化過程。

基于量規(guī)的獎(jiǎng)勵(lì)

基于量規(guī)的獎(jiǎng)勵(lì)函數(shù)分兩階段執(zhí)行：首先，量規(guī)生成模型解析用戶提示并生成候選評估量規(guī)集合；其次，多模態(tài)LLM評分器實(shí)施基于量規(guī)的獎(jiǎng)勵(lì) ，針對中的每個(gè)量規(guī)對生成圖像進(jìn)行評分。本文采用 GPT-o4-mini 同時(shí)承擔(dān)這兩個(gè)角色，既生成提示詞專用量規(guī)，又提供逐準(zhǔn)則判斷以聚合為標(biāo)量獎(jiǎng)勵(lì)。

量規(guī)構(gòu)建。 給定用戶提示，要求 GPT-o4-mini 生成量規(guī)列表。每個(gè)量規(guī)條目包含針對特定維度（如OCR對齊度、物體數(shù)量、空間關(guān)系、美學(xué)質(zhì)量）的評估關(guān)鍵詞，以及對應(yīng)圖像檢查要點(diǎn)的簡明描述。為促進(jìn)多樣性并減少量規(guī)生成時(shí)的位置偏差，我們在生成指令中隨機(jī)排列評估維度，并對 GPT-o4-mini 進(jìn)行多輪查詢。每輪模型生成一組量規(guī)（每次查詢要求10條；由于一個(gè)提示詞可能描述多個(gè)物體或?qū)傩�，模型可能為同一評估關(guān)鍵詞輸出多條量規(guī)以確保充分覆蓋）。我們將所有有效的關(guān)鍵詞-準(zhǔn)則對跨輪次聚合為統(tǒng)一量規(guī)池，剔除模糊或格式異常的條目。最后，為消除冗余并聚焦關(guān)鍵信號，我們要求 GPT-o4-mini 選擇與用戶提示關(guān)聯(lián)最緊密的10條核心準(zhǔn)則。

量規(guī)引導(dǎo)的獎(jiǎng)勵(lì)。 給定生成圖像、對應(yīng)文本提示及量規(guī)池，我們再次要求 GPT-o4-mini 為每條準(zhǔn)則輸出單一評分，以反映生成圖像是否完全滿足該量規(guī)要求（表示滿足，表示不滿足）。整體量規(guī)獎(jiǎng)勵(lì)通過以下歸一化均值計(jì)算：

基于GRPO的強(qiáng)化學(xué)習(xí)

為將自回歸圖像生成器與基于量規(guī)的獎(jiǎng)勵(lì)對齊，我們采用分組相對策略優(yōu)化（GRPO）——一種專為分組滾輪采樣穩(wěn)定優(yōu)化設(shè)計(jì)的PPO變體。對于每個(gè)提示詞，生成的滾輪采樣集合構(gòu)成一個(gè)分組，每個(gè)滾輪的獎(jiǎng)勵(lì)會(huì)相對于組內(nèi)其他結(jié)果進(jìn)行歸一化處理，以降低方差并改進(jìn)信用分配。具體而言，令表示當(dāng)前策略，表示分組中第個(gè)滾輪的量規(guī)獎(jiǎng)勵(lì)。GRPO通過以下公式計(jì)算相對優(yōu)勢度：

并通過優(yōu)化類似PPO的剪切目標(biāo)函數(shù)來更新策略：

其中，和分別表示對應(yīng)于第個(gè)軌跡的采樣動(dòng)作與狀態(tài)，是 PPO 剪切參數(shù)。通過利用這種分組相對優(yōu)勢度，GRPO 穩(wěn)定了跨提示詞的訓(xùn)練過程，使模型對異構(gòu)的獎(jiǎng)勵(lì)量綱和噪聲評估具備魯棒性。結(jié)合我們基于量規(guī)的獎(jiǎng)勵(lì)機(jī)制及下文將介紹的動(dòng)態(tài)軌跡選擇策略，我們發(fā)現(xiàn) GRPO 能有效引導(dǎo)生成模型產(chǎn)出既符合人類偏好又具備高質(zhì)量的輸出圖像。

動(dòng)態(tài)軌跡采樣

如上所述，GRPO 中的目標(biāo)策略模型通過采樣多條軌跡來探索生成空間，每條軌跡產(chǎn)生一個(gè)用于計(jì)算優(yōu)勢度的獎(jiǎng)勵(lì) 。在原始 GRPO 設(shè)計(jì)中，同一提示詞生成的所有條軌跡被歸為一組進(jìn)行策略更新，即。后續(xù)研究引入了過采樣與過濾策略以提升訓(xùn)練效率。例如，DAPO采用提示詞級過采樣方法：它為每個(gè)提示詞生成條軌跡，并丟棄所有軌跡獎(jiǎng)勵(lì)均為 1 或 0 的提示詞，從而僅保留難度適中的提示詞用于策略優(yōu)化。形式化而言，DAPO 選擇性采樣用于訓(xùn)練的提示詞，同時(shí)仍使用每個(gè)保留提示詞的全部軌跡進(jìn)行 RL 更新。

本文提出一種新的軌跡級動(dòng)態(tài)采樣機(jī)制，該機(jī)制在單個(gè)提示詞的軌跡內(nèi)部進(jìn)行選擇，而非過濾整個(gè)提示詞。具體來說，給定一個(gè)文本提示詞，我們并非只采樣條軌跡，而是過采樣條軌跡（），并選擇性使用其中條具代表性的軌跡子集進(jìn)行策略更新。為平衡質(zhì)量與多樣性，采用混合選擇策略：選取獎(jiǎng)勵(lì)最高的前條軌跡，并從其余軌跡中隨機(jī)采樣剩下的條以促進(jìn)多樣性。形式化而言，軌跡組按以下方式構(gòu)建：

其中表示隨機(jī)采樣。實(shí)驗(yàn)表明該混合設(shè)計(jì)在穩(wěn)定性與多樣性間取得更優(yōu)平衡，從而提升模型質(zhì)量。因此，公式5的損失計(jì)算基于更具代表性且信息量更大的軌跡子集，相較于原始GRPO與DAPO的提示詞級過濾方案，能實(shí)現(xiàn)更穩(wěn)定高效的學(xué)習(xí)。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

遵循SimpleAR方案，從JourneyDB與Synthetic dataset-1M選取11,000張圖像，使用GPT-o4-mini重寫描述以生成不同長度的提示詞并在訓(xùn)練中隨機(jī)選用。網(wǎng)絡(luò)架構(gòu)方面，采用經(jīng)SFT訓(xùn)練的兩個(gè)LLM作為骨干網(wǎng)絡(luò)（Phi3-3.8B與Qwen2.5-0.5B），并分別使用LlamaGen的VQ解碼器與Cosmos-Tokenizer作為視覺解碼器。RL訓(xùn)練基于TRL框架實(shí)施，學(xué)習(xí)率設(shè)為，預(yù)熱比例0.1。默認(rèn)批次大小為28，訓(xùn)練3輪。兩骨干網(wǎng)絡(luò)的輸出圖像分辨率分別為512與1024。動(dòng)態(tài)軌跡采樣中，每個(gè)提示詞從16條軌跡中篩選4條候選。推理階段采用無分類器引導(dǎo)基于條件與非條件邏輯值指導(dǎo)圖像生成。所有實(shí)驗(yàn)在8張NVIDIA A100 GPU上完成。

與前沿方法對比

我們在DPG-Bench與GenEval基準(zhǔn)上，將RubricRL與多種獎(jiǎng)勵(lì)模型在兩類文生圖SFT模型上進(jìn)行對比。對比獎(jiǎng)勵(lì)方法按設(shè)計(jì)理念分為：1) 單一專用獎(jiǎng)勵(lì)模型（CLIPScore、HPSv2、Unified Reward、LLaVA-Reward-Phi）；2) 固定權(quán)重復(fù)合獎(jiǎng)勵(lì)指標(biāo)（AR-GRPO與X-Omni）。為公平比較，通過復(fù)現(xiàn)其方法獲取基線數(shù)據(jù)，并采用相同RL框架（GRPO）與設(shè)置，僅獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)存在差異。為更好理解RL帶來的增益，還報(bào)告了初始SFT模型性能（各RL獎(jiǎng)勵(lì)均基于此獨(dú)立應(yīng)用）�；赑hi3與Qwen2.5骨干網(wǎng)絡(luò)的量化結(jié)果分別呈現(xiàn)在下表1與下表2中。

在GenEval上，遵循[10]采用提示詞重寫以確保評估一致性。結(jié)果顯示：所有經(jīng)過RL后訓(xùn)練的方法均持續(xù)超越SFT基線，證實(shí)了強(qiáng)化學(xué)習(xí)對圖像生成質(zhì)量的提升作用；且RubricRL取得最佳性能，在兩個(gè)LLM骨干網(wǎng)絡(luò)上均以約4%優(yōu)勢超越X-Omni，凸顯了我們基于量規(guī)的獎(jiǎng)勵(lì)機(jī)制的有效性與泛化性。

消融實(shí)驗(yàn)

本節(jié)開展多組消融分析，默認(rèn)實(shí)驗(yàn)基于Phi3并在GenEval基準(zhǔn)上評估。

動(dòng)態(tài)軌跡采樣策略。 為探究動(dòng)態(tài)軌跡采樣中不同選擇策略的影響，對比四種方法：未使用動(dòng)態(tài)采樣的RubricRL（原始版本）、FFKC-1D、DAPO及我們提出的混合策略，結(jié)果記錄于下表3。具體而言，F(xiàn)FKC-1D同樣過采樣更多軌跡，隨后通過先選取中位數(shù)軌跡（獎(jiǎng)勵(lì)最接近中位數(shù)的軌跡），再貪婪添加與已選軌跡獎(jiǎng)勵(lì)差異最大的樣本來保持多樣性。相較于我們的混合策略，F(xiàn)FKC-1D過度關(guān)注多樣性而忽略了高質(zhì)量軌跡的重要性。下表3顯示我們的混合采樣策略持續(xù)取得最佳性能，超越FFKC-1D、DAPO及直接使用四條軌跡而無動(dòng)態(tài)選擇的原始基線。值得注意的是，F(xiàn)FKC-1D與DAPO未能超越原始基線，表明其動(dòng)態(tài)提示詞采樣與純軌跡多樣性驅(qū)動(dòng)的采樣策略未能為RL提供額外有效信號。相比之下，我們的混合策略有效平衡了對高獎(jiǎng)勵(lì)軌跡的利用與多樣候選的探索，使策略模型能同時(shí)利用更高質(zhì)量與多樣性的樣本，從而產(chǎn)生更有效的RL信號。

優(yōu)勢度歸一化范圍。 公式4中GRPO使用的優(yōu)勢度通過對組內(nèi)軌跡獎(jiǎng)勵(lì)進(jìn)行歸一化（使用均值與標(biāo)準(zhǔn)差）計(jì)算。在我們的動(dòng)態(tài)采樣策略下，僅保留個(gè)候選中的條軌跡。這引發(fā)關(guān)鍵設(shè)計(jì)選擇：歸一化統(tǒng)計(jì)量（均值與標(biāo)準(zhǔn)差）應(yīng)基于全部條軌跡計(jì)算，還是僅基于保留的條？我們將這兩種變體分別記為“全局歸一化”與“局部歸一化”。下表4顯示“局部歸一化”產(chǎn)生更優(yōu)性能，這是因?yàn)樵诒Ａ糇蛹瘍?nèi)歸一化能更好反映指導(dǎo)學(xué)習(xí)的實(shí)際獎(jiǎng)勵(lì)分布，防止高方差或低質(zhì)量軌跡扭曲梯度方向。

RubricRL vs 采用Best-of-N采樣的SFT。 我們進(jìn)一步將提出的RubricRL與在推理階段采用Best-of-N采樣策略（）的SFT模型對比——該策略在先前研究X-Omni中被視為RL方法在語言任務(wù)中的“性能上限”。具體而言，對GenEval中每個(gè)提示詞，我們首先生成量規(guī)，隨后從SFT模型采樣8條軌跡，每條軌跡使用基于量規(guī)的獎(jiǎng)勵(lì)評分，并選取前4條在GenEval上評估。下表5顯示，盡管Best-of-N采樣能顯著獲得更高分?jǐn)?shù)，RubricRL仍實(shí)現(xiàn)明顯提升，以超過5%的優(yōu)勢超越前者。該結(jié)果與X-Omni的觀察一致，再次證實(shí)強(qiáng)化學(xué)習(xí)提供更有效的優(yōu)化范式。

失敗案例分析。 作為評分器，盡管GPT-o4-mini在評估生成圖像質(zhì)量方面具備高度通用性與強(qiáng)大能力，我們觀察到其可能給出錯(cuò)誤評分（如低估或高估物體數(shù)量，尤其在基礎(chǔ)模型生成質(zhì)量較差時(shí)）。下圖4展示了GenEval計(jì)數(shù)子類中的若干典型失敗案例，如交通燈附近冗余的立柱、交織的自行車及重疊的斑馬。這些挑戰(zhàn)性場景常誤導(dǎo)GPT-o4-mini導(dǎo)致計(jì)數(shù)不準(zhǔn)。但當(dāng)基礎(chǔ)模型生成更高質(zhì)量圖像時(shí)，該問題顯著緩解。這解釋了為何以Qwen2.5-0.5B為基礎(chǔ)模型時(shí)，RubricRL在GenEval“計(jì)數(shù)”子類及DPG-Bench“其他”子類（均包含大量計(jì)數(shù)案例）的表現(xiàn)差于SFT基線；而使用Phi3-3.8B時(shí)該問題幾乎消失，使RubricRL在計(jì)數(shù)相關(guān)類別中實(shí)現(xiàn)大幅性能提升。

可視化結(jié)果

下圖5中進(jìn)一步呈現(xiàn)RubricRL與其他基線方法的全面視覺對比。如圖所示，經(jīng)RubricRL訓(xùn)練的模型持續(xù)生成不僅更具美學(xué)吸引力、且與給定輸入提示詞語義對齊更佳的圖像。為輔助解讀，生成圖像中未對齊或缺失的元素在圖中通過加粗文本強(qiáng)調(diào)。例如下圖5第三行中，SFT模型未能完整渲染黑色高頂禮帽，而多個(gè)基于RL的方法出現(xiàn)部分未對齊：LLaVA-Reward-Phi與Unified Reward生成的圖像中黑色手提包未正確手持，甚至在某些案例中雙爪描繪兩個(gè)手提包卻完全遺漏木質(zhì)手杖。這些定性觀察印證了RubricRL在增強(qiáng)模型遵循復(fù)雜細(xì)粒度指令及生成高質(zhì)量提示一致圖像方面的有效性。

結(jié)論

RubricRL——一個(gè)基于量規(guī)獎(jiǎng)勵(lì)的RL框架，為文生圖任務(wù)提供提示詞自適應(yīng)、可分解的監(jiān)督機(jī)制。通過顯式構(gòu)建可配置的視覺標(biāo)準(zhǔn)（如計(jì)數(shù)、屬性、OCR保真度、真實(shí)感）并獨(dú)立評分，RubricRL產(chǎn)生可解釋的模塊化信號，無縫集成于標(biāo)準(zhǔn)RL策略優(yōu)化。實(shí)驗(yàn)結(jié)果表明RubricRL在增強(qiáng)文生圖性能方面超越現(xiàn)有基于RL的方法。

參考文獻(xiàn)

[1] RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

原文標(biāo)題 : 給圖像生成配“閱卷老師”！RubricRL拒絕黑盒瞎蒙，用細(xì)粒度量表馴服大模型，指哪改哪！