訂閱
糾錯(cuò)
加入自媒體

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案

作者:Wei Chow、Jiachun Pan等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

數(shù)據(jù)集創(chuàng)新:WEAVE-100k——首個(gè)面向多輪上下文感知圖像理解與生成的大規(guī)模數(shù)據(jù)集。包含10萬(wàn)個(gè)樣本、37萬(wàn)輪對(duì)話和50萬(wàn)張圖像,全面覆蓋圖像理解、編輯與生成三大任務(wù)。

評(píng)估體系構(gòu)建:WEAVEBench是首個(gè)面向交錯(cuò)式多模態(tài)理解與生成任務(wù)的人工標(biāo)注評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)包含100個(gè)精心設(shè)計(jì)的測(cè)試案例,并創(chuàng)新性地采用混合VLM評(píng)估框架,系統(tǒng)評(píng)估多輪生成、視覺(jué)記憶與世界知識(shí)推理能力。

實(shí)證研究突破:驗(yàn)證了基于WEAVE-100k的訓(xùn)練能顯著提升模型在傳統(tǒng)基準(zhǔn)測(cè)試中的性能,并有效激發(fā)視覺(jué)記憶能力的涌現(xiàn)。WEAVEBench評(píng)估結(jié)果揭示了現(xiàn)有模型在多輪上下文感知生成方面仍存在持續(xù)性的技術(shù)局限。

總結(jié)速覽

解決的問(wèn)題

核心局限:現(xiàn)有統(tǒng)一多模態(tài)模型的數(shù)據(jù)集和基準(zhǔn)測(cè)試主要針對(duì)單輪交互,無(wú)法支撐對(duì)多輪次、上下文關(guān)聯(lián)的真實(shí)世界圖像創(chuàng)作與編輯過(guò)程的研究與評(píng)估。

提出的方案

核心方案:推出名為WEAVE的全套解決方案,這是首個(gè)面向上下文交錯(cuò)式跨模態(tài)理解與生成的研究體系。

組成部分

WEAVE-100k:一個(gè)包含10萬(wàn)樣本、37萬(wàn)輪對(duì)話和50萬(wàn)圖像的大規(guī)模數(shù)據(jù)集,覆蓋需歷史上下文推理的理解、編輯與生成任務(wù)。

WEAVEBench:一個(gè)包含100項(xiàng)任務(wù)(基于480張圖像)的人工標(biāo)注基準(zhǔn)測(cè)試平臺(tái),用于系統(tǒng)評(píng)估模型能力。

應(yīng)用的技術(shù)

混合VLM評(píng)估框架:在WEAVEBench中,創(chuàng)新性地結(jié)合參考圖像及 “原圖+編輯指令” 的方式進(jìn)行綜合評(píng)估。

多任務(wù)數(shù)據(jù)集構(gòu)建:在WEAVE-100k數(shù)據(jù)集中,整合了理解、編輯和生成三大任務(wù)維度,并要求模型進(jìn)行歷史上下文推理

達(dá)到的效果

能力提升:基于WEAVE-100k的訓(xùn)練能有效提升模型的視覺(jué)理解、圖像編輯及理解-生成協(xié)同能力,并促進(jìn)視覺(jué)記憶這一新能力的涌現(xiàn)。

評(píng)估與發(fā)現(xiàn):WEAVEBench的評(píng)估揭示了當(dāng)前先進(jìn)模型在多輪上下文感知圖像生成與編輯方面仍存在持續(xù)的技術(shù)局限。

社區(qū)貢獻(xiàn):為多模態(tài)社區(qū)研究上下文交錯(cuò)式理解與生成提供了全新的視角和重要的基礎(chǔ)支撐。

WEAVE

為評(píng)估上下文交錯(cuò)式理解與生成能力,首先介紹WEAVE-100k和WEAVEBench的數(shù)據(jù)收集流程,隨后詳述評(píng)估設(shè)置與指標(biāo),并呈現(xiàn)WEAVE的核心統(tǒng)計(jì)數(shù)據(jù)。

數(shù)據(jù)收集

WEAVE-100k 為生成具備視覺(jué)記憶能力的豐富多樣數(shù)據(jù),本文構(gòu)建了如下圖3所示的數(shù)據(jù)流水線。該流水線包含四條獨(dú)立生成路徑,并經(jīng)過(guò)多輪過(guò)濾優(yōu)化階段以確保數(shù)據(jù)準(zhǔn)確性與質(zhì)量。為生成具有視覺(jué)記憶能力的多輪編輯數(shù)據(jù),本文實(shí)施了四種方法路徑:(i) 多圖像融合:通過(guò)融合編輯后或直接生成的圖像實(shí)現(xiàn)歷史迭代參照;(ii) 移除后復(fù)原:采用先移除/替換對(duì)象再重新添加的技術(shù),使系統(tǒng)能夠回憶先前刪除的視覺(jué)元素;(iii) 衍生想象與比較:在融合前引入推導(dǎo)替代方案或生成新圖像的衍生方法;(iv) 序列化流程:按照敘事進(jìn)程或結(jié)構(gòu)化編輯操作實(shí)施序列化編輯。

WEAVEBench 由具有STEM專(zhuān)業(yè)研究生學(xué)歷的人員進(jìn)行標(biāo)注。該基準(zhǔn)包含16個(gè)任務(wù)類(lèi)別的100個(gè)測(cè)試項(xiàng),既涵蓋需要視覺(jué)記憶的多輪編輯任務(wù),也包含需要世界知識(shí)(文化背景、物理現(xiàn)象與化學(xué)過(guò)程)的挑戰(zhàn)性任務(wù)。如下圖2所示,任務(wù)包括生成涉及東京塔的實(shí)例及展示對(duì)交通信號(hào)反應(yīng)的理解。所使用的圖像包含網(wǎng)絡(luò)采集內(nèi)容以及來(lái)自三個(gè)模型的合成生成圖像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。

評(píng)估設(shè)置與指標(biāo)

本文采用VLM-as-judge自動(dòng)評(píng)估框架。為實(shí)現(xiàn)聚焦評(píng)估,本文采用基于關(guān)鍵點(diǎn)的結(jié)構(gòu)化評(píng)分方法:通過(guò)混合策略指導(dǎo)VLM同時(shí)依據(jù)參考圖像及"原圖+編輯指令"組合進(jìn)行評(píng)估。如下圖5所示,評(píng)估器調(diào)用不同圖像作為參照,并根據(jù)預(yù)設(shè)關(guān)鍵點(diǎn)進(jìn)行評(píng)分。

本文的評(píng)估包含4項(xiàng)指標(biāo)(前三項(xiàng)適用于編輯任務(wù),末項(xiàng)適用于理解任務(wù)):

關(guān)鍵點(diǎn)正確性 (KP):衡量編輯后圖像是否滿足指定編輯要求。

視覺(jué)一致性 (VC):確保非目標(biāo)元素保持不變,保持與原始圖像的一致性(場(chǎng)景保留時(shí)未編輯區(qū)域完整保留;場(chǎng)景修改時(shí)編輯區(qū)域保持風(fēng)格協(xié)調(diào)),并評(píng)估編輯對(duì)象的身份保持度。

圖像質(zhì)量 (IQ):評(píng)估生成圖像的整體質(zhì)量。

準(zhǔn)確率 (Acc):衡量推理結(jié)果的正確性。

數(shù)據(jù)統(tǒng)計(jì)

對(duì)于WEAVE中的每個(gè)實(shí)例,本文提供文本提示、一張或多張初始圖像以及真實(shí)示例。測(cè)試集還包含正確輸出圖像必須滿足的關(guān)鍵信息。

附錄D提供了代表性數(shù)據(jù)集示例。下表4展示了訓(xùn)練集的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)。大多數(shù)實(shí)例包含超過(guò)五張圖像,每個(gè)實(shí)例平均有3.8輪對(duì)話。上圖5展示了訓(xùn)練集和測(cè)試集的類(lèi)別分布,顯示出跨數(shù)據(jù)類(lèi)型的相對(duì)均衡分布。

實(shí)驗(yàn)

首先評(píng)估了22個(gè)模型在WEAVEBench上的表現(xiàn),發(fā)現(xiàn)當(dāng)前模型在上下文交錯(cuò)生成方面存在困難,且隨著內(nèi)容長(zhǎng)度增加出現(xiàn)性能下降。隨后,本文通過(guò)微調(diào)Bagel驗(yàn)證了WEAVE-100k的高質(zhì)量特性。最后進(jìn)行了質(zhì)量分析并評(píng)估了評(píng)判器的有效性。

WEAVEBench

設(shè)置。 如下表2所示,本文在WEAVEBench上評(píng)估了4個(gè)LLM、7個(gè)編輯模型和11個(gè)UMM。評(píng)估在三種不同的上下文條件下進(jìn)行:(1) 無(wú)上下文(無(wú)上下文信息的單輪生成),(2) 部分上下文(僅使用自生成圖像及明確提及的視覺(jué)上下文,排除其他歷史交互),(3) 完整上下文(可見(jiàn)所有先前交互)。對(duì)于圖像放置,本文采用兩種配置:"首次提及"(圖像出現(xiàn)在首次提及位置)和"前置集中"(所有圖像整合在輸入開(kāi)頭),下表2報(bào)告了后者的結(jié)果。對(duì)于無(wú)法處理序列格式輸入的模型,本文按照先前工作[19,89]的方法實(shí)施了拼接方案。

根據(jù)表中結(jié)果,本文得出以下結(jié)論: 上下文圖像生成仍具挑戰(zhàn)性。測(cè)試模型中,表現(xiàn)最佳的編輯模型和UMM方法分別僅獲得0.68和0.767的最高分。此外觀察到顯著的領(lǐng)域偏差,創(chuàng)意圖像領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于科學(xué)和邏輯領(lǐng)域。這表明生成能力在有效整合世界知識(shí)方面仍有較大提升空間。

上下文使用至關(guān)重要 (a) 對(duì)于理解任務(wù),使用上下文信息相比無(wú)歷史上下文的基線條件帶來(lái)顯著性能提升。如下圖6(a)所示,QwenVL表現(xiàn)出163%的顯著提升,表明WEAVEBench成功將歷史信息納入模型評(píng)估。(b) 對(duì)于生成任務(wù),增加上下文內(nèi)容對(duì)不同模型類(lèi)型產(chǎn)生分化效應(yīng)。開(kāi)源模型隨著歷史上下文增加出現(xiàn)性能逐步下降——Qwen-Edit分別出現(xiàn)5.3%和8.6%的性能遞減。這表明受單輪編輯能力限制的開(kāi)源模型,在處理擴(kuò)展上下文信息時(shí)定位精度下降,因而無(wú)法有效利用上下文數(shù)據(jù)。相反,Nano等閉源模型表現(xiàn)出漸進(jìn)式改進(jìn),表明其成功利用了上下文信息。(c) WEAVEBench展現(xiàn)優(yōu)異圖像質(zhì)量。如下圖6(b)所示,采用WEAVEBench真實(shí)圖像作為上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表現(xiàn)出7.1%的顯著提升,這可能源于其生成能力相對(duì)nano-banana[21]固有較弱。

序列輸入優(yōu)勢(shì)。 如上圖6(c)所示,序列圖像輸入相比拼接輸入展現(xiàn)出顯著性能優(yōu)勢(shì)。該效應(yīng)在Bagel模型中尤為突出,拼接輸入導(dǎo)致10.3%的性能下降。這些發(fā)現(xiàn)凸顯了UMM作為有效編輯模型的潛力,特別是考慮到傳統(tǒng)編輯模型無(wú)法直接處理多圖像和歷史信息作為輸入。

WEAVE-100k訓(xùn)練

為驗(yàn)證數(shù)據(jù)的有效性,本文在Bagel上進(jìn)行實(shí)驗(yàn)。在四類(lèi)任務(wù)上實(shí)現(xiàn)性能提升: (i) 視覺(jué)理解。 本文的數(shù)據(jù)有效提升理解任務(wù)性能,尤其在MMMU上獲得9.8%的提升。(ii) 圖像編輯。如下表3所示,微調(diào)后的Bagel在GEditBench上總分提升4.8%。該模型在多數(shù)任務(wù)中超越基線版本,材質(zhì)變更和風(fēng)格變更類(lèi)別提升尤為顯著,分別達(dá)到13.4%和15.6%。(iii) 理解與生成協(xié)同。上表4顯示,微調(diào)后Bagel在RISE認(rèn)知任務(wù)中實(shí)現(xiàn)顯著提升。空間推理和邏輯推理任務(wù)均呈現(xiàn)100%的性能增長(zhǎng),表明微調(diào)后模型能更有效利用理解能力和世界知識(shí)來(lái)增強(qiáng)生成過(guò)程。這些發(fā)現(xiàn)印證了WEAVE-100k方法的高質(zhì)量特性。(iv) 交錯(cuò)式跨模態(tài)理解與生成。如表2所示,本文的微調(diào)模型在WEAVEBench上相比Bagel提升42.5%。在更具挑戰(zhàn)性的科學(xué)問(wèn)題上表現(xiàn)提升34.6%,表明使用本數(shù)據(jù)集訓(xùn)練顯著增強(qiáng)了模型的交錯(cuò)式跨模態(tài)理解與生成能力。

質(zhì)量分析

如下圖7所示,通過(guò)質(zhì)量結(jié)果分析本文得出以下結(jié)論:(i) 指令遵循能力仍需提升。例如圖中左側(cè)案例,OmniGen和Ovis未能正確執(zhí)行生成;右側(cè)案例第三列顯示Qwen-Image-Edit僅生成塔樓而未包含任何人像。(ii) 基于weave數(shù)據(jù)集的微調(diào)催生了視覺(jué)記憶能力。微調(diào)模型在左側(cè)案例中正確區(qū)分穿粉色和黃色衣服的主角,在右側(cè)案例中展現(xiàn)出先移除人像再重新整合的能力。

評(píng)判器使用的可靠性

為評(píng)估VLM-as-a-judge評(píng)分的可靠性,開(kāi)展了專(zhuān)家評(píng)估研究,邀請(qǐng)三位人類(lèi)專(zhuān)家對(duì)Nano-banana、Qwen-Image-Edit和SeeDream模型進(jìn)行交叉評(píng)估,每個(gè)模型分析100個(gè)實(shí)例。通過(guò)計(jì)算GPT-4.1評(píng)分與專(zhuān)家評(píng)分之間的皮爾遜相關(guān)系數(shù),并與Claude Opus 4.1評(píng)估結(jié)果進(jìn)行對(duì)比分析(上圖6)。結(jié)果表明:GPT-4.1與人類(lèi)評(píng)分的相關(guān)性持續(xù)超過(guò)0.8,而Claude評(píng)估則展現(xiàn)出強(qiáng)大的跨VLM一致性,這說(shuō)明VLM評(píng)估器的具體選擇對(duì)評(píng)估結(jié)果影響甚微。

結(jié)論

WEAVE——首個(gè)面向上下文交錯(cuò)式跨模態(tài)理解與生成的綜合套件。推出了包含10萬(wàn)樣本、37萬(wàn)對(duì)話輪次和50萬(wàn)圖像的大規(guī)模數(shù)據(jù)集WEAVE-100k,以及由100項(xiàng)任務(wù)(含480張圖像)構(gòu)成、配備混合VLM評(píng)判器評(píng)估框架的人工標(biāo)注基準(zhǔn)WEAVEBench。實(shí)驗(yàn)表明,基于WEAVE-100k的訓(xùn)練在多個(gè)權(quán)威基準(zhǔn)上取得顯著提升:MMMU提升9.8%,GEditBench提升4.8%,同時(shí)促進(jìn)了UMM中視覺(jué)記憶能力的涌現(xiàn)。與此同時(shí),WEAVEBench的廣泛評(píng)估揭示當(dāng)前模型在多輪上下文感知生成方面仍存在困難,尤其在內(nèi)容長(zhǎng)度增加時(shí)表現(xiàn)更為明顯。此外,這項(xiàng)挑戰(zhàn)性任務(wù)已被證明超出傳統(tǒng)編輯模型的能力范圍。WEAVE為上下文交錯(cuò)式多模態(tài)理解與生成研究奠定了基石,并凸顯了該領(lǐng)域發(fā)展的迫切必要性。

參考文獻(xiàn)

[1] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

       原文標(biāo)題 : 新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)