訂閱
糾錯
加入自媒體

圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!

2025-12-01 17:48
AI生成未來
關注

作者:Zhoujie Fu等

解讀:AI生成未來

亮點直擊

iMontage統(tǒng)一模型,能夠處理可變數量的輸入/輸出幀,有效銜接了視頻生成與高動態(tài)圖像生成領域。

構建任務無關的時序多樣化數據pipeline,結合多任務訓練范式,確保模型在異構任務與時間結構中的可學習性,實現強大的多對多泛化能力。

通過大量可變參數實驗驗證模型卓越性能,覆蓋主流圖像生成與編輯任務。海量可視化結果與綜合評估指標顯示,本模型在開源社區(qū)達到SOTA水平,部分效果甚至可與商業(yè)模型媲美。

總結速覽

解決的問題

動態(tài)范圍受限:預訓練視頻模型因其連續(xù)性訓練數據,生成內容的動態(tài)多樣性和豐富性不足。

能力壁壘:視頻生成模型與圖像生成/編輯任務之間存在鴻溝,缺乏一個能統(tǒng)一處理多輸入-多輸出圖像任務的框架。

先驗保持:在擴展模型能力至圖像領域時,如何不破壞其從視頻數據中學習到的寶貴時序先驗(運動一致性)。

提出的方案

核心框架:提出iMontage,一個統(tǒng)一的、可處理可變長度圖像集合輸入與輸出的框架。

核心方法:將強大的預訓練視頻模型重構為全能圖像生成器。

關鍵技術點

采用精巧且低侵入式的模型適配策略。

設計了任務無關的時序多樣化數據pipeline。

配合多任務訓練范式。

應用的技術

預訓練視頻模型:作為基礎,提供強大的時序連貫性先驗。

模型適配/微調技術:以低侵入方式將視頻模型的能力遷移到圖像任務。

多任務學習:在一個模型中統(tǒng)一學習多種圖像生成與編輯任務。

定制化數據構建:創(chuàng)建適用于訓練此統(tǒng)一模型的異構、時序多樣化的數據集。

達到的效果

卓越性能:在多項主流多輸入-多輸出任務上表現卓越,實現了強大的跨圖像上下文一致性

擴展動態(tài)范圍:生成的場景具有突破傳統(tǒng)界限的非凡動態(tài)張力,內容多樣性顯著提升。

強大泛化:通過多任務訓練和多樣化數據,模型具備了強大的多對多泛化能力。

業(yè)界領先:在開源社區(qū)達到SOTA水平,部分效果可與商業(yè)模型媲美。

方法

模型設計

網絡架構。 如下圖2所示,本文采用混合到單流的多模態(tài)擴散Transformer,配合用于圖像的3D VAE與用于文本指令的語言模型。所有組件均初始化自HunyuanVideo:MMDiT與3D VAE取自I2V檢查點,文本編碼器取自T2V檢查點。參考圖像經3D VAE分別編碼后patch化為token;文本指令通過語言模型編碼為文本token。遵循I2V范式,本文將干凈的參考圖像token與含噪目標token拼接后輸入圖像分支塊。通過在其圖像token上構建可變長度注意力圖,并輔以提示工程引導,本文訓練模型以適應可變數量的輸入/輸出幀。訓練期間凍結VAE與文本編碼器,僅全參數微調MMDiT。

位置編碼。 關鍵目標是在不干擾原始位置幾何的前提下使Transformer具備對多圖像的感知能力。本文采用簡潔有效的策略:將所有輸入/輸出圖像視為時間軸上的偽幀,為每幀分配唯一時間索引,同時保持其原生空間分辨率與2D位置編碼不變。具體而言,本文保留預訓練的空間RoPE,并引入具有每幀索引偏移的可分離時間RoPE,在維持空間分布不變的前提下提供跨圖像排序線索。受L-RoPE啟發(fā),本文將輸入圖像分配至較早時間位置,輸出圖像分配至較晚位置。實踐中,本文分配具有32個時間索引的3D RoPE,保留用于輸入,用于輸出,在二者間留出寬時間間隔。此首尾布局減少了輸入與目標間的位置干擾,經驗證可在保持時序連貫性的同時促進更多樣化的輸出內容。

提示工程。 本文采用由強大LLM編碼器驅動的純文本指令接口,無需掩碼或輔助視覺嵌入。為統(tǒng)一異構任務,本文將一組通用提示詞與任務特定模板配對。對于通用提示詞,本文(i)前置系統(tǒng)級引導語:"請根據指令輸出張圖像:";(ii)采用交錯多模態(tài)格式,通過文本占位符在提示詞中顯式標記圖像位置。

數據集構建

本文將數據構建分為兩個階段:預訓練數據集與監(jiān)督微調數據集。數據集構建概覽參見下圖3。

預訓練數據集

本文將預訓練數據劃分為兩個池:圖像編輯池與視頻幀對池,均源自內部語料庫。圖像編輯池覆蓋多數單圖像編輯任務,提供配對的(輸入,編輯后)圖像及指定操作的簡明細粒度指令。視頻幀對池包含從視頻中提取的高質量幀對(附帶關聯(lián)字幕),經嚴格質量篩選后收錄。本文通過以下過濾標準進一步優(yōu)化視頻幀對:

對于來自同一片段的幀對,本文采用光流估計器進行運動過濾:對每個樣本計算平均運動幅度,優(yōu)先保留或加權高運動實例以提升其占比。為增強動態(tài)多樣性,本文將同一源視頻的片段拼接后重新裁剪(不依賴運動或攝像機變化啟發(fā)式規(guī)則),從而生成跨過渡幀對并緩解準靜態(tài)內容偏好。

過濾后數據集包含500萬圖像編輯對與1500萬視頻幀對,為高動態(tài)內容生成與魯棒指令遵循提供監(jiān)督信號。

多任務數據集

本文的多任務數據集基于任務構建,涵蓋一對一至多對多任務。各任務的數據構建流程如下:

多條件參考。 本文爬取網絡帖子收集人物、物體及場景的參考圖像。通過檢測器將人物圖像過濾為單人鏡頭;物體/場景圖像無需額外過濾。VLM通過隨機組合源數據生成條件參考提示詞,GPT-4o生成對應圖像,再由VLM評分篩選候選樣本。該流程產出約9萬高質量樣本。

條件化參考。 與條件參考數據集不同,本文從開源數據集Echo-4o收集數據。本文對目標圖像應用經典ControlNet生成控制圖:使用OpenPose[5]生成組合圖像的人物姿態(tài),通過DepthAnything-V2生成目標圖像深度圖,并采用Lineart模型作為邊緣檢測器。本文將這些條件對添加至Echo-4o,創(chuàng)建約5萬樣本的新條件參考數據集。

風格參考。 本文參照條件參考方法構建風格參考數據:爬取人物帖子并通過VLM美學評分[1]篩選人物圖像作為內容參考,從開源資源收集手繪插畫作為風格參考。使用主體-風格模型隨機配對內容與風格生成圖像,再由VLM對輸出評分并檢查與內容圖像的身份一致性以防止風格泄露。此流程產出3.5萬樣本。

多輪編輯。 本任務要求根據指令同時生成多個響應,其中子步驟指令覆蓋預訓練圖像編輯數據集中的所有編輯任務。本文從內部數據集提取數據,收集約10萬樣本。

多視圖生成。 本文從開源3D語料庫MVImageNet V2構建多視圖數據集。對每個基礎樣本,隨機選擇1-4個附加視角,按連續(xù)順序使用GPT-4o描述相鄰圖像間的相對相機運動,為多視圖生成提供簡潔監(jiān)督。本文收集約9萬樣本。

故事板生成。 故事板生成與敘事生成設定密切相關,但更強調畫格間的高多樣性,例如劇烈的場景變化和跨圖像的角色動作差異。借助近期商業(yè)基礎模型Seedream4.0,本文通過其輸出蒸餾高質量監(jiān)督信號以構建指令-圖像序列用于訓練。本文從內部角色圖像數據集出發(fā),應用人臉檢測過濾器與NSFW過濾器獲取全臉角色參考圖像。隨后設計指令模板引導Seedream4o生成語義豐富、動態(tài)變化的場景與多畫格故事。生成圖像通過GPT-4o標注描述,產生簡潔的故事板(指令,圖像)對作為監(jiān)督信號。本文收集約2.9萬樣本。

訓練方案

本文采用三階段訓練策略,動態(tài)混合使用前述構建的數據集:包括大規(guī)模預訓練階段、監(jiān)督微調階段與高質量退火階段:

預訓練階段。 本階段使用預訓練數據集進行訓練,以灌輸指令遵循能力并使模型適應高動態(tài)內容。由于本文從預訓練骨干網絡初始化,因此摒棄漸進分辨率調度[7,16,18];轉而采用寬高比感知的分辨率分桶策略:對每個樣本,從37種標準分辨率集合中選擇最佳匹配尺寸并相應調整。本階段批次大小根據序列長度動態(tài)調整,均衡不同分辨率間的token預算,從而實現更平滑穩(wěn)定的優(yōu)化。

監(jiān)督微調階段。 本文在此階段探索統(tǒng)一具有巨大方差的多任務的最佳方案。本文的策略可總結如下: • 混合訓練: 全任務聯(lián)合訓練。在單一混合池中共同訓練所有任務。 • 分階段訓練:課程學習。 兩階段計劃:先訓練三個多對一任務,隨后加入三個多輸出任務繼續(xù)混合訓練。 • 雞尾酒式混合訓練: 按難度排序的微調。本文觀察到各任務存在顯著訓練難度差異,促使本文按難度進行混合訓練。實踐中從最簡單任務開始,隨后引入次簡單任務同時降低首任務采樣權重,持續(xù)每次添加一個更難任務并逐步調整混合權重,直至最難任務被納入并獲得最大訓練份額。

最終本文選擇雞尾酒式混合訓練策略,相關討論詳見消融研究。所有混合訓練中,本文根據各任務數據量施加權重,確保所有任務被平等對待。本階段允許輸入圖像采用不同分辨率,同時為便利性固定輸出分辨率。因輸入圖像分辨率可變,本文在整個監(jiān)督微調階段設置單GPU批次大小為1。

高質量階段。 在圖像與視頻生成中,普遍觀察到使用小批量高質量數據結束訓練可提升最終保真度[39,64,71]。本文采用該策略:通過人工審核與VLM輔助相結合,為每個任務篩選高質量子集,隨后在監(jiān)督微調后進行跨所有任務的簡短統(tǒng)一微調。此階段本文將學習率退火至零。

所有實驗均在64張NVIDIA H800 GPU上開展。各訓練階段均采用恒定學習率,訓練目標遵循流匹配。

實驗

作為統(tǒng)一模型,iMontage在各類任務中均展現強勁性能,即使與固定輸入/輸出模型相比亦不遜色。需注意本文的模型僅需一次推理,默認使用50擴散步數。為清晰起見,本文按輸入-輸出基數組織結果:分為一對一編輯、多對一生成與多對多生成。

一對一編輯

本文在基于指令的圖像編輯任務中報告具有競爭力的量化指標與引人注目的定性結果。本文對比了十二個強基線模型,包括原生圖像編輯模型、統(tǒng)一多模態(tài)大語言模型及強大閉源產品。在GEdit基準與ImgEdit基準上的平均指標見表1。除閉源模型與商業(yè)模型外,iMontage在兩個基準上均超越其他模型展現強勁性能。

本文同時在下表1中報告運動相關子任務的指標。本文方法展現出卓越的運動感知編輯能力,具有強時序一致性與運動先驗。這些增益符合預期:本文從大型預訓練視頻骨干網絡繼承強大的世界動態(tài)知識,并通過高動態(tài)視頻-幀語料庫的預訓練予以強化。一對一圖像編輯可視化結果見下圖6與下圖7。

多對一生成

多輸入的核心挑戰(zhàn)在于如何保留全部內容并實現和諧融合。在OmniContext基準上報告結果,該基準旨在全面評估模型上下文生成能力。本文對比七個基線模型的指標,詳細指標見下表2。本文在補充材料中可視化代表性結果,表明iMontage在保持源圖像上下文的同時處理多樣化任務。本文選取挑戰(zhàn)性案例以強調控制力與保真度:在多條件參考任務中,模型融合多參考線索而不改變核心內容,同時通過生成高細節(jié)背景忠實遵循復雜指令;在條件化參考任務中,模型尊重條件信號且保留人物細節(jié)(這對生成模型通常較難);在風格參考任務中,本文包含場景中心與人物/物體中心輸入以展示保持風格與身份的強風格遷移能力。

多對多生成

在保持一致性的同時生成多輸出極具挑戰(zhàn)性。本文通過要求跨輸出內容一致性與時序一致性進一步提高標準。為評估能力,本文考慮三個不同任務:

多視圖生成。 本文模擬攝像機旋轉,使用攝像機運動的自然語言描述從單參考圖像渲染新視角。此時序連續(xù)設定用于探查模型在視角變化時是否保持身份、幾何、材質及背景上下文。本文報告跨視圖的身份/結構一致性,并可視化長旋轉弧以強調連續(xù)性。所有可視化結果見下圖10。

多輪編輯。 多數圖像編輯器通過順序運行推理支持多輪流程,但常出現漂移問題(覆蓋非目標內容)。本文將多輪編輯視為內容保持任務:給定初始圖像與編輯指令序列,模型應定位變化同時維持其他部分。所有可視化結果見上圖7。

故事板生成。 這是本文最全面的設定:時序方面,模型需生成平滑連續(xù)的軌跡,同時處理高動態(tài)轉換(如硬切、大幅攝像機或主體運動及場景變化);空間方面,需通過保持所有輸出間的身份、布局與細粒度外觀來維持內容一致性。

如補充材料中可視化結果所示,iMontage在單次前向傳播中為所有三種設定生成連貫且高度多樣化的結果。據本文所知,這是首個在單一模型與單次推理中統(tǒng)一這些任務的模型。

為更好量化多輸出能力,本文在故事板設定下進行量化研究,對比本文的方法與兩個統(tǒng)一系統(tǒng)(OmniGen2和UNO)及一個敘事聚焦基線StoryDiffusion。本文聚焦兩個維度:身份保持與時序一致性。前者度量每個生成角色與參考身份的匹配度(特別是角色全身細節(jié),如衣物、膚色、發(fā)型),后者捕捉生成圖像間的跨畫格連貫性。評估中,被測的OmniGen2與UNO模型經UMO[11]優(yōu)化以改進身份保持等質量指標。指標方面,本文采用DINO與CLIP特征相似度及VLM評分系統(tǒng)。對比評分見下表3,可視化對比見下圖4。

此外,為更全面評估,本文開展含50位專業(yè)參與者的用戶研究。對比指標見下表4。本文的方法在指令遵循與身份保持上均獲最佳性能,顯著超越基線。

消融研究

RoPE策略。 本文首先消融RoPE策略設計:默認邊際RoPE將輸入分配至時間索引范圍首部、輸出分配至尾部,其間留有空隙;對照策略均勻RoPE將所有圖像均勻分布在時間軸。本文在預訓練數據集子集(僅少量數據)上使用相同設置進行消融研究。觀察到均勻RoPE在相同訓練步數下收斂較晚。下圖5展示了RoPE消融研究的可視化結果。

訓練方案。 如前文所述,本文消融三種監(jiān)督微調策略:混合訓練中訓練損失劇烈振蕩且不穩(wěn)定,經若干更新后模型即使采用逆尺寸重加權仍會漂移至更簡單任務;本文同步開展分階段訓練與雞尾酒式混合訓練實驗,前者按任務類型分組訓練,后者按任務難度組織計劃。雞尾酒式混合訓練在所有任務上均取得強勁結果,并在困難設定上展現明顯優(yōu)勢,顯著超越分階段訓練。本文在多條件參考任務上開展等訓練步數的對比實驗,結果顯示雞尾酒式混合訓練在OmniContext上獲得12.6%提升。

結論

iMontage——一個統(tǒng)一的多對多圖像生成模型,能在保持時序與內容一致性的同時創(chuàng)造高動態(tài)內容。充分實驗證明了iMontage在圖像生成上的卓越能力。

iMontage仍存在局限:首先受數據與算力限制,本文未探索長上下文多對多設定,模型當前在最多四輸入四輸出時呈現最佳質量;其次部分能力仍受限。在后文中提供詳細分類與失敗案例,并納入更多同期工作討論。下一步,本文將擴展長上下文監(jiān)督、提升數據質量及拓寬任務覆蓋范圍作為未來工作的主要方向。

參考文獻

[1] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

       原文標題 : 圖像生成開源界又出“王炸”!南洋理工&階躍星辰發(fā)布iMontage:解鎖“多對多”生成新玩法!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號