訂閱
糾錯(cuò)
加入自媒體

硬剛GPT-Image-1?蘋果最新UniGen-1.5強(qiáng)勢(shì)發(fā)布:一個(gè)模型搞定理解+生成+編輯!

作者:Rui Tian等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

推出UniGen-1.5統(tǒng)一多模態(tài)大模型,通過(guò)創(chuàng)新的架構(gòu)設(shè)計(jì)與訓(xùn)練流程,實(shí)現(xiàn)了先進(jìn)的圖像理解、生成與編輯能力融合。

開(kāi)創(chuàng)統(tǒng)一強(qiáng)化學(xué)習(xí)訓(xùn)練框架,借助共享獎(jiǎng)勵(lì)模型協(xié)同優(yōu)化圖像編輯與生成任務(wù),顯著提升雙任務(wù)性能表現(xiàn)。

提出后SFT階段的編輯指令對(duì)齊機(jī)制,通過(guò)強(qiáng)化編輯指令理解能力,大幅提升模型編輯效果。

UniGen-1.5在多項(xiàng)任務(wù)中達(dá)到業(yè)界領(lǐng)先水平:如下圖1所示,在圖像編輯任務(wù)(ImgEdit基準(zhǔn)測(cè)試與GPT-Image-1持平)、圖像生成任務(wù)(GenEval和DPG-Bench顯著超越BLIP3o)均取得競(jìng)爭(zhēng)優(yōu)勢(shì),同時(shí)在圖像理解任務(wù)也表現(xiàn)出色。

總結(jié)速覽

解決的問(wèn)題

能力割裂:需要一種能同時(shí)處理高級(jí)圖像理解、生成與編輯任務(wù)的統(tǒng)一模型,以克服傳統(tǒng)模型中這些能力相互割裂的局限。

協(xié)同優(yōu)化:如何協(xié)同優(yōu)化圖像生成與編輯這兩個(gè)密切相關(guān)但又存在技術(shù)差異的任務(wù),以避免獨(dú)立優(yōu)化帶來(lái)的效率低下和性能瓶頸。

指令理解:在圖像編輯任務(wù)中,模型對(duì)復(fù)雜、精細(xì)的編輯指令的理解精度不足,制約了最終編輯效果的成功率與質(zhì)量。

提出的方案

核心模型:推出UniGen-1.5統(tǒng)一多模態(tài)大語(yǔ)言模型,旨在融合圖像理解、生成與編輯三大能力。

訓(xùn)練框架:構(gòu)建統(tǒng)一強(qiáng)化學(xué)習(xí)訓(xùn)練框架,利用共享獎(jiǎng)勵(lì)模型同時(shí)優(yōu)化圖像生成和圖像編輯任務(wù)。

性能優(yōu)化:引入一個(gè)輕量級(jí)的后SFT(監(jiān)督微調(diào))編輯指令對(duì)齊階段,專門用于提升模型對(duì)編輯指令的精準(zhǔn)理解與執(zhí)行能力。

應(yīng)用的技術(shù)

多模態(tài)大語(yǔ)言模型架構(gòu):作為模型的基礎(chǔ)能力支撐。

統(tǒng)一強(qiáng)化學(xué)習(xí)策略:核心訓(xùn)練技術(shù),通過(guò)共享獎(jiǎng)勵(lì)實(shí)現(xiàn)生成與編輯任務(wù)的協(xié)同優(yōu)化。

編輯指令對(duì)齊機(jī)制:一種針對(duì)性的后訓(xùn)練技術(shù),用于微調(diào)并增強(qiáng)模型的指令遵循能力。

達(dá)到的效果

性能領(lǐng)先:在GenEval和ImgEdit等權(quán)威基準(zhǔn)測(cè)試中取得了具有競(jìng)爭(zhēng)力的分?jǐn)?shù)(分別為0.89和4.31),綜合性能超越了BAGEL等先進(jìn)開(kāi)源模型,并與GPT-Image-1等頂尖閉源模型性能相當(dāng)。

全面卓越:在圖像生成(顯著超越BLIP3o)、圖像編輯(與GPT-Image-1持平)和圖像理解(與Show-o2性能相當(dāng))多項(xiàng)任務(wù)上均展現(xiàn)出業(yè)界領(lǐng)先的競(jìng)爭(zhēng)力。

能力融合:成功在一個(gè)統(tǒng)一模型中解鎖并協(xié)同增強(qiáng)了圖像理解、生成與編輯三大核心能力。

方法

架構(gòu)

本文在預(yù)訓(xùn)練大語(yǔ)言模型Qwen2.5-7B基礎(chǔ)上構(gòu)建UniGen-1.5,并分別采用獨(dú)立的編碼器處理理解與生成任務(wù)。如下圖2所示,視覺(jué)生成任務(wù)使用離散視覺(jué)分詞器MAGViTv2 ,視覺(jué)理解任務(wù)則采用連續(xù)視覺(jué)編碼器SigLIP2。

對(duì)于圖像理解, 采用SigLIP2作為視覺(jué)編碼器。相比固定輸入分辨率(如384×384)的SigLIP,SigLIP2可接收任意寬高比的變尺寸輸入圖像,這對(duì)保持圖像原始信息至關(guān)重要。輸入圖像將根據(jù)其原始尺寸被映射為一組連續(xù)令牌。遵循LLaVA的工作流程,本文通過(guò)基于MLP的投影器將圖像與文本嵌入對(duì)齊至同一空間,隨后將視覺(jué)嵌入與文本嵌入共同輸入LLM,通過(guò)下一令牌預(yù)測(cè)生成響應(yīng)(上圖2(a))。

對(duì)于文本到圖像生成, 基本沿用UniGen的設(shè)置,以掩碼令牌預(yù)測(cè)作為訓(xùn)練目標(biāo)。對(duì)于每張圖像,本文通過(guò)生成分詞器將其編碼為離散令牌序列。模型訓(xùn)練目標(biāo)是根據(jù)文本提示生成目標(biāo)圖像令牌。訓(xùn)練過(guò)程中,根據(jù)掩碼調(diào)度函數(shù) 的掩碼率,本文為每個(gè)令牌隨機(jī)采樣二值掩碼。對(duì)于掩碼值為1的令牌,將其對(duì)應(yīng)的離散圖像令牌替換為特殊掩碼令牌[MASK]以形成最終輸入圖像序列。如上圖2(b)所示,LLM接收文本提示和掩碼后的圖像序列令牌作為輸入,并以預(yù)測(cè)被掩碼的視覺(jué)令牌為優(yōu)化目標(biāo)。推理階段,圖像生成從全掩碼令牌開(kāi)始,通過(guò)多輪掩碼令牌預(yù)測(cè)完成生成。圖像生成分辨率設(shè)置為384×384。

對(duì)于圖像編輯, 在監(jiān)督微調(diào)階段解鎖該能力。給定條件圖像和編輯文本提示,本文聯(lián)合使用理解編碼器和生成分詞器,分別獲取 和 ,以從條件圖像中提取連續(xù)(語(yǔ)義)特征和離散(底層)特征。本文將條件圖像調(diào)整為384×384進(jìn)行特征提取以確保捕獲足夠細(xì)節(jié)。通過(guò)MLP層將特征投影至聯(lián)合空間后,本文按序拼接語(yǔ)義視覺(jué)嵌入、文本嵌入和底層視覺(jué)嵌入(上圖2(c)),并將組裝后的序列作為圖像編輯條件輸入LLM。目標(biāo)是生成輸出圖像的離散視覺(jué)令牌,其中。與文本到圖像生成類似,本文采用掩碼令牌預(yù)測(cè)策略進(jìn)行圖像令牌預(yù)測(cè)。編輯任務(wù)生成分辨率設(shè)置為384×384。

預(yù)訓(xùn)練

在UniGen-1.5的預(yù)訓(xùn)練階段,旨在通過(guò)大規(guī)模對(duì)齊良好的圖文對(duì)數(shù)據(jù)建立基礎(chǔ)的視覺(jué)描述與生成能力。具體而言,本文采用UniGen包含細(xì)粒度標(biāo)注的預(yù)訓(xùn)練數(shù)據(jù),包括ImageNet、CC-3M、CC-12M和SAM-11M。同時(shí)引入少量RefinedWeb的純文本訓(xùn)練數(shù)據(jù)以保持LLM的基礎(chǔ)語(yǔ)言能力。為簡(jiǎn)化流程,本文僅設(shè)置單一預(yù)訓(xùn)練階段,并解凍除和外的所有參數(shù)。本階段包含圖像理解與文本到圖像生成任務(wù),生成與理解的圖像輸入分辨率均設(shè)為384×384。本文按3:2:1的比例從圖像生成、圖像理解和文本理解任務(wù)中采樣數(shù)據(jù)構(gòu)建訓(xùn)練批次。

監(jiān)督微調(diào)

在監(jiān)督微調(diào)階段,通過(guò)更強(qiáng)化的數(shù)據(jù)混合方案提升UniGen-1.5的生成與理解性能,并通過(guò)聯(lián)合訓(xùn)練激發(fā)其圖像編輯能力。

圖像生成與編輯。 采用前文中介紹的架構(gòu)進(jìn)行圖像生成與編輯。受前人工作的啟發(fā),本文通過(guò)添加BLIP-3o和ShareGPT-4o-Image提出的高質(zhì)量樣本擴(kuò)展訓(xùn)練數(shù)據(jù)。同時(shí),通過(guò)引入來(lái)自ShareGPT-4o-Image和GPT-Image-Edit-1.5M的圖像編輯數(shù)據(jù)解鎖編輯能力。

圖像理解。 采用SlowFast-LLaVA-1.5的圖像數(shù)據(jù)混合方案以增強(qiáng)圖像理解的指令遵循能力。為在保持訓(xùn)練效率的同時(shí)促進(jìn)模型感知輸入圖像的細(xì)微特征,本文按以下規(guī)則調(diào)整輸入圖像尺寸:(1) 寬度和高度需為16的倍數(shù)以確保與編碼器 patch 尺寸兼容;(2) 調(diào)整后圖像寬高比需最接近原始比例;(3) 在視覺(jué)令牌數(shù)的約束下最大化輸入分辨率(該令牌數(shù)約等于768×768圖像提取的令牌數(shù))。

聯(lián)合SFT訓(xùn)練。 與預(yù)訓(xùn)練階段類似,本文在每個(gè)訓(xùn)練步驟中同步優(yōu)化生成(文本到圖像生成或圖像編輯)、圖像理解和文本理解三項(xiàng)任務(wù),訓(xùn)練樣本比例設(shè)置為3:4:1。實(shí)踐中,本文交替使用文本到圖像生成和圖像編輯任務(wù)的輪詢采樣以提高訓(xùn)練穩(wěn)定性。經(jīng)過(guò)此聯(lián)合SFT訓(xùn)練后,UniGen-1.5即具備新的圖像編輯能力。

編輯指令對(duì)齊

在強(qiáng)化學(xué)習(xí)的初步實(shí)驗(yàn)中,發(fā)現(xiàn)對(duì)于具有挑戰(zhàn)性的編輯指令,模型生成的候選圖像往往全部無(wú)法滿足指令要求,導(dǎo)致獎(jiǎng)勵(lì)值的標(biāo)準(zhǔn)差過(guò)小。在此情況下,GRPO獲得的學(xué)習(xí)信號(hào)較弱,難以有效改進(jìn)策略。本文將此問(wèn)題歸因于模型對(duì)復(fù)雜編輯指令的理解能力不足,因而無(wú)法準(zhǔn)確推斷輸出圖像的語(yǔ)義內(nèi)容。

為緩解此問(wèn)題,本文引入編輯指令對(duì)齊作為后SFT階段,以增強(qiáng)編輯指令與期望輸出語(yǔ)義內(nèi)容之間的對(duì)齊。如下圖3所示,UniGen-1.5以條件圖像和編輯指令作為輸入,通過(guò)預(yù)測(cè)預(yù)期輸出圖像的文本描述進(jìn)行優(yōu)化——這構(gòu)成了通往最終視覺(jué)生成的關(guān)鍵橋梁。該過(guò)程使模型能更準(zhǔn)確地理解編輯意圖,從而在RL階段生成語(yǔ)義連貫且多樣化的候選圖像,并提供信息豐富的學(xué)習(xí)信號(hào)。

強(qiáng)化學(xué)習(xí)

本文通過(guò)采用分組相對(duì)策略優(yōu)化(GRPO)的強(qiáng)化學(xué)習(xí)階段來(lái)提升UniGen-1.5的整體視覺(jué)生成質(zhì)量。盡管系列研究已證明GRPO在提升文本到圖像生成性能方面的有效性,但其對(duì)更廣義視覺(jué)生成(如圖像編輯)的影響仍待探索。在UniGen-1.5中提出統(tǒng)一文本到圖像生成與圖像編輯的RL訓(xùn)練(下圖4)。具體而言,通過(guò)測(cè)量圖像與其對(duì)應(yīng)文本描述間的語(yǔ)義對(duì)齊度來(lái)評(píng)估兩類任務(wù)輸出圖像的質(zhì)量。

RL公式設(shè)定。 以后SFT模型為初始化,UniGen-1.5作為策略模型,接收不同條件輸入并生成對(duì)應(yīng)的視覺(jué)令牌序列。對(duì)于文本到圖像任務(wù),條件僅為提示詞的文本嵌入;對(duì)于編輯任務(wù),則基于、編輯文本嵌入和生成圖像。訓(xùn)練過(guò)程中,本文從采樣個(gè)序列作為輸出候選,每個(gè)候選將獲得標(biāo)量獎(jiǎng)勵(lì)。這些獎(jiǎng)勵(lì)用于計(jì)算如公式3.1所示的分組歸一化優(yōu)勢(shì)度。

本文策略模型的參數(shù)通過(guò)優(yōu)化公式3.2中的訓(xùn)練目標(biāo)進(jìn)行更新,其中  表示參考策略(初始策略), 代表重要性采樣比率, 表示更新前的舊策略。

共享獎(jiǎng)勵(lì)模型。 設(shè)計(jì)編輯獎(jiǎng)勵(lì)本質(zhì)上比設(shè)計(jì)文本到圖像生成的獎(jiǎng)勵(lì)更具挑戰(zhàn)性,因?yàn)橐曈X(jué)編輯通常具有細(xì)微性、局部性且高度依賴上下文。此外,訓(xùn)練專用的編輯獎(jiǎng)勵(lì)模型需要大量人工標(biāo)注成本來(lái)收集跨類別的大規(guī)模圖像編輯數(shù)據(jù),并獲取符合人類偏好的高質(zhì)量標(biāo)簽。這些挑戰(zhàn)使得大規(guī)模構(gòu)建可靠的編輯獎(jiǎng)勵(lì)極為困難。為此,本文提出利用穩(wěn)健成熟的文本到圖像獎(jiǎng)勵(lì)模型來(lái)評(píng)估編輯后圖像。

具體而言,通過(guò)評(píng)估兩項(xiàng)任務(wù)的質(zhì)量,引入圖像生成與編輯的統(tǒng)一強(qiáng)化學(xué)習(xí)公式,其中表示共享獎(jiǎng)勵(lì)函數(shù),指像素空間中的生成圖像,指預(yù)期輸出的文本描述。對(duì)于文本到圖像生成,本文直接使用真實(shí)文本提示作為;對(duì)于圖像編輯,則使用Qwen2.5-72B合成的文本描述。相信強(qiáng)大LLM能夠可靠反映視覺(jué)差異,在其描述中捕捉編輯圖像的細(xì)節(jié)與布局,無(wú)論修改幅度大小。受T2I-R1啟發(fā),本文采用集成多樣化視覺(jué)專家的方式實(shí)現(xiàn),為候選圖像分配獎(jiǎng)勵(lì)。本文的獎(jiǎng)勵(lì)模型包括CLIP-H、HPSv2、Unified-Reward-7B和ORM。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

本文使用預(yù)訓(xùn)練Qwen2.5-7B LLM初始化UniGen-1.5,采用來(lái)自Show-o的MAGVITv2作為離散視覺(jué)編碼器(輸入分辨率384×384),以及siglip2-so400mpatch16-naflex作為連續(xù)視覺(jué)編碼器以支持原生圖像分辨率。對(duì)于圖像生成和編輯,本文利用MAGVITv2解碼器將視覺(jué)令牌投影回像素空間。所有訓(xùn)練階段中離散與連續(xù)編碼器均保持凍結(jié)。

預(yù)訓(xùn)練階段使用96張H100-80G GPU,批次大小設(shè)為576,學(xué)習(xí)率設(shè)為。監(jiān)督微調(diào)階段使用64張H100-80G GPU,批次大小設(shè)為128,學(xué)習(xí)率設(shè)為。在編輯指令對(duì)齊階段,本文使用8張H100-80G GPU在收集的Edit-Align數(shù)據(jù)集上訓(xùn)練500步,批次大小為64。此階段學(xué)習(xí)率設(shè)為并采用余弦調(diào)度。為適配推理時(shí)的無(wú)分類器引導(dǎo),本文在文本到圖像和圖像編輯任務(wù)訓(xùn)練中隨機(jī)丟棄文本提示的概率為10%,而在圖像編輯訓(xùn)練樣本中丟棄和的概率分別為50%和10%。

GRPO階段本文遵循T2I-R1移除傳統(tǒng)比率裁剪,僅采用顯式KL懲罰正則化約束策略更新。使用8張B200 GPU進(jìn)行1500步GRPO訓(xùn)練,學(xué)習(xí)率設(shè)為,批次大小設(shè)為32。KL懲罰系數(shù)設(shè)為0.01,每個(gè)輸入生成個(gè)圖像候選。為在最小性能影響下加速訓(xùn)練,每個(gè)圖像候選僅使用16解碼步進(jìn)行采樣,并禁用無(wú)分類器引導(dǎo)。

推理階段遵循MaskGIT使用余弦掩碼調(diào)度,默認(rèn)生成步數(shù)設(shè)為50。此外,本文按照慣例采用無(wú)分類器引導(dǎo)尺度:文本到圖像生成的引導(dǎo)尺度設(shè)為5.0。對(duì)于圖像編輯,本文通過(guò)以下方式構(gòu)建帶無(wú)分類器引導(dǎo)的生成過(guò)程:

其中  表示 UniGen-1.5 的參數(shù), 表示空條件(丟棄條件), 指編輯指令的引導(dǎo)尺度, 指條件圖像的引導(dǎo)尺度。在 ImgEdit 基準(zhǔn)測(cè)試的評(píng)估中,本文分別將  和  設(shè)置為 3 和 1.5。

主要結(jié)果

本文在下表1、下表2和下表3中將 UniGen-1.5 與最先進(jìn)的統(tǒng)一 MLLM 進(jìn)行比較,并根據(jù)實(shí)驗(yàn)結(jié)果總結(jié)出以下發(fā)現(xiàn):

首先,UniGen-1.5 在圖像編輯基準(zhǔn)測(cè)試中獲得了有競(jìng)爭(zhēng)力的性能。如表1所示,UniGen-1.5 在 ImgEdit 上展示了最先進(jìn)的性能。在不借助外部擴(kuò)散模型的情況下,UniGen-1.5 以顯著優(yōu)勢(shì)領(lǐng)先該基準(zhǔn)測(cè)試,其總體得分大幅超過(guò) BAGEL 和 OmniGen2 等類似模型規(guī)模的最新模型。值得注意的是,UniGen-1.5 甚至取得了略優(yōu)于 GPT-Image-1 的性能。

其次,UniGen-1.5 在文本到圖像生成基準(zhǔn)測(cè)試中取得了優(yōu)異的性能。UniGen-1.5 在 GenEval 和 DPG-Bench 上的最終得分分別為 0.89 和 86.83。與 UniGen 相比,在 GenEval 上提高了 0.11,在 DPG-Bench 上提高了 1.6。UniGen-1.5 在 GenEval 上也擊敗了一系列最先進(jìn)的統(tǒng)一 MLLM,尤其是在"位置"類別上。例如,UniGen-1.5 在總分上顯著優(yōu)于 Show-o2、BLIP3-o 和 BAGEL,分別高出 0.13、0.05 和 0.07 分。在 DPG-Bench 上,UniGen-1.5 大幅超越 BLIP3-o 超過(guò) 5 分。

第三,UniGen-1.5 有效改進(jìn)了 UniGen 在理解基準(zhǔn)測(cè)試上的表現(xiàn)。如表3所示,UniGen-1.5 在所有基準(zhǔn)測(cè)試上均顯著提升了 UniGen 的性能。本文將這些改進(jìn)歸因于三個(gè)方面:1) 本文將模型規(guī)模擴(kuò)展到 7B,增強(qiáng)了統(tǒng)一 MLLM 的整體能力;2) 本文提高了輸入圖像的分辨率并保持原始寬高比,這有利于保留圖像的原始信息;3) 本文執(zhí)行了基于理解的預(yù)訓(xùn)練,緩解了生成和理解訓(xùn)練目標(biāo)之間的不匹配。當(dāng)與類似規(guī)模的其他強(qiáng)大統(tǒng)一 MLLM 比較時(shí),UniGen-1.5 仍然展現(xiàn)出有競(jìng)爭(zhēng)力的性能,在大多數(shù)基準(zhǔn)測(cè)試上取得了優(yōu)于 UniToken、MUSE-VL 和 MMaDA 的分?jǐn)?shù),并與 Show-o2 持平。

消融實(shí)驗(yàn)結(jié)果

統(tǒng)一 RL 的影響

RL(GRPO)階段顯著改善了圖像生成和編輯任務(wù)。對(duì)比下表4中第一行和最后一行,本文觀察到 RL 階段帶來(lái)了顯著提升,所有三個(gè)基準(zhǔn)測(cè)試均有明顯進(jìn)步(GenEval 從 0.85 提升至 0.89,DPG-Bench 從 84.19 提升至 86.83,ImgEdit 從 3.93 提升至 4.31)。本文在圖5中也展示了定性比較。對(duì)于文本到圖像任務(wù),UniGen-1.5 在計(jì)數(shù)(第一個(gè)示例)、位置(第二個(gè)示例)和形狀(第三個(gè)示例)等多種場(chǎng)景下,展示了文本提示與生成圖像之間更好的語(yǔ)義對(duì)齊。對(duì)于圖像編輯,本文觀察到 UniGen-1.5 在經(jīng)過(guò) GRPO 后對(duì)條件圖像實(shí)現(xiàn)了更精細(xì)的控制。例如,它成功實(shí)現(xiàn)了 GRPO 之前未能完成的"讓貓坐起來(lái)"(第一個(gè)示例)和"提取玻璃瓶"(最后一個(gè)示例)。此外,本文認(rèn)為 GRPO 并未導(dǎo)致理解性能下降。

在 RL 階段移除文本到圖像或圖像編輯任一任務(wù)均會(huì)導(dǎo)致性能顯著下降。當(dāng)在 RL 階段丟棄圖像編輯任務(wù)時(shí),圖像生成基準(zhǔn)測(cè)試(GenEval 和 DPG-Bench)的結(jié)果與完整 UniGen-1.5 相當(dāng),但 ImgEdit 基準(zhǔn)測(cè)試得分大幅下降(上表4第2行 vs 第4行)。當(dāng)在 RL 訓(xùn)練中移除文本到圖像任務(wù)時(shí),本文觀察到文本到圖像生成性能顯著下降。同時(shí)保留兩項(xiàng)任務(wù)可獲得最佳整體性能。

編輯指令對(duì)齊的影響

編輯指令對(duì)齊是RL階段的重要前置步驟。本文首先通過(guò)比較SFT階段的結(jié)果來(lái)評(píng)估添加此階段的效果。如下表5所示(第1行 vs 第2行),即使在RL階段之前,添加編輯指令對(duì)齊也能提升所有三個(gè)基準(zhǔn)測(cè)試的性能,這表明該階段具有普遍優(yōu)勢(shì)。

編輯指令對(duì)齊的影響在RL階段被放大。如上表5所示(第3行 vs 第4行),添加編輯指令對(duì)齊階段對(duì)RL后的圖像編輯至關(guān)重要。若無(wú)此階段,UniGen-1.5通過(guò)RL在ImgEdit上僅提升0.21分(第1行 vs 第3行)。受益于該階段帶來(lái)的精細(xì)化語(yǔ)義對(duì)齊,RL實(shí)現(xiàn)了0.38分的更大增益(第2行 vs 第4行)。

結(jié)論

UniGen-1.5 ——一個(gè)在圖像理解、生成與編輯任務(wù)中均取得競(jìng)爭(zhēng)力的統(tǒng)一MLLM;赨niGen框架,UniGen-1.5通過(guò)增強(qiáng)模型架構(gòu)擴(kuò)展至圖像編輯支持,并通過(guò)設(shè)計(jì)的編輯指令對(duì)齊階段進(jìn)一步優(yōu)化。本文還提出統(tǒng)一RL策略,通過(guò)共享獎(jiǎng)勵(lì)模型聯(lián)合優(yōu)化生成與編輯,在保真度與可控性上獲得顯著提升。大量實(shí)驗(yàn)表明,UniGen-1.5在圖像理解、文本到圖像生成和圖像編輯的廣泛基準(zhǔn)測(cè)試中達(dá)到最先進(jìn)水平,為推進(jìn)統(tǒng)一MLLM的未來(lái)研究建立了強(qiáng)大可擴(kuò)展的基線。

局限性。 首先,UniGen-1.5在渲染文本內(nèi)容方面能力不足(圖A首行)。本文的模型側(cè)重于改進(jìn)文本指令與離散視覺(jué)令牌間的語(yǔ)義對(duì)齊,且僅使用輕量級(jí)視覺(jué)解碼頭進(jìn)行圖像重建,這導(dǎo)致在生成文本(極度依賴保留細(xì)粒度結(jié)構(gòu)細(xì)節(jié))方面存在劣勢(shì)。本文相信在框架中集成基于擴(kuò)散的組件能有效解決此局限。其次,UniGen-1.5仍存在視覺(jué)不一致性問(wèn)題(圖A末行),這是圖像編輯任務(wù)的關(guān)鍵挑戰(zhàn)。需要在RL階段采用專用獎(jiǎng)勵(lì)模型來(lái)強(qiáng)化視覺(jué)一致性。

參考文獻(xiàn)

[1] UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

       原文標(biāo)題 : 硬剛GPT-Image-1?蘋果最新UniGen-1.5強(qiáng)勢(shì)發(fā)布:一個(gè)模型搞定理解+生成+編輯!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)