訂閱
糾錯
加入自媒體

昆侖萬維UniPic 2.0“小鋼炮”模型炸場,一個模型搞定理解+生成+編輯

圖片

文|魏琳華

編|王一粟

大模型又迎來新一波的迭代周期。

近日,從Open AI發(fā)布GPT-5,到國內(nèi)的昆侖萬維、商湯、百川智能、智譜等都陸續(xù)發(fā)布了自己的新模型。其中昆侖萬維更是一口氣開啟了技術(shù)周,連續(xù)5天每天發(fā)布一個新模型,而8月13日發(fā)布的,正是其本周發(fā)布的第三款模型——多模態(tài)統(tǒng)一模型UniPic 2.0。

UniPic 2.0主打的是,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力,這正是今年多模態(tài)技術(shù)攻克的熱門方向——理解、生成、編輯一體化。

目前多數(shù)AI生圖,生成之后就很難修改,經(jīng)常出現(xiàn)對二次指令理解不充分,讓圖片越改越離譜的情況。

然而我們在測試UniPic 2.0的修改圖片能力時,卻看到了驚喜。

最近流行的“基礎(chǔ)款不要搭基礎(chǔ)款,上身基礎(chǔ),下身不基礎(chǔ)”的玩梗,我們讓UniPic 2.0給下身換一個同色系但夸張的穿搭,它就把下身的褲子改成了一條紅色蓬蓬裙。

圖片

此模型在7月30日已經(jīng)開源,這次上線的2.0版本,延續(xù)了之前1.0版本的優(yōu)勢——“又快又好”。

圖片幾秒生成、一句話編輯,小身材高表現(xiàn)

當其他大模型需要花幾十秒生成一張圖片時,UniPic 2.0只用幾秒就畫了一張復雜的“玻璃貓”出來。

不同于市面上其他開源的統(tǒng)一架構(gòu)多模態(tài)模型動輒百億參數(shù)的大規(guī)格,UniPic 2.0的參數(shù)規(guī)格只有2B,這讓它響應生成的速度比起其他模型快了一個數(shù)量級。

圖片

雖然尺寸小,但UniPic 2.0在圖片生成、理解和編輯三個方面的表現(xiàn)力也依然在線,甚至在圖片編輯部分的部分指標分數(shù)打敗了多個規(guī)模在10B以上開源模型。

先從圖片生成說起,在生成能力方面,UniPic 2.0的統(tǒng)一架構(gòu)版本在GenEval(測試生成圖像和文本匹配程度)取得0.90,超過了一眾開源模型和閉源的GPT-4o(0.84)。可以看到,UniPic 2.0在小模型體量下依然能保持高性能的優(yōu)勢。

為了測試UniPic 2.0對于文本理解和生成匹配的情況,光錐智能讓它和Bagel各自生成一張“梵高風格的樹”,UniPic 2.0給出了一張完美切題的圖片,而Bagel的圖甚至還帶著圣誕樹的特征。

圖片

圖片編輯則是UniPic 2.0表現(xiàn)最亮眼的部分,在GEdit-EN和Imgedit這兩個關(guān)鍵的圖像編輯任務指標上,UniPic2 - SD3.5M - Kontext 分別拿到6.59和4.00的成績,UniPic2-Metaquery 系列模型的表現(xiàn)更好,最高拿到了7.10和4.06的分數(shù),超越了OmiGen2、Bagel在內(nèi)的多個開源模型,可以說直接追著閉源的GPT-4o而去。

圖片

在圖像補全、擦除、主體一致性、風格轉(zhuǎn)換上,光錐智能給出了多組提示詞分別測評。

圖片修改我們開頭已經(jīng)測試過,再給UniPic 2.0一張風景圖,讓它把相機視角向右旋轉(zhuǎn)40度,給出的圖片效果相當驚艷,甚至連陽光在墻上映出的影子都補全了。

圖片

日常比較實用的人物背景切換和圖片消除,光錐智能也給UniPic 2.0安排上了。這比較考驗大模型處理主體一致性的效果。

讓UniPic 2.0給前OpenAI的前首席科學家ilya換個純藍色底的背景圖,UniPic 2.0用5秒就把人物從色彩雜亂的背景中“摳”出來,換了個接近一寸照的純藍色背景。

圖片

再讓大模型給純色背景的人物P個沙灘海岸的背景圖,UniPic 2.0把海岸的沙灘、大海和椰子樹,都安排進了背景里。

圖片

嫌人物擋住拍攝的風景?我們給了UniPic 2.0一張被狗占據(jù)絕大部分的照片,讓它消除掉狗的部分,UniPic 2.0生成出來的圖片,基本做到了和原生背景一致。最上方的樹林和右下角的深色部分,也都被保留在新生成的圖片中。

圖片

風格轉(zhuǎn)換方面,UniPic 2.0也能對各種風格信手拈來。我們先是讓它生成了一張賽博朋克風格的圖片,再讓它做成吉卜力風,它也能把酷炫的機器人變成宮崎駿筆下的主角~

圖片

最重要的是,一個2B大小的模型,理論上已經(jīng)可以在人們的手機和電腦上運行起來,這意味著一個可用、好用的高質(zhì)量生成模型,距離真實落地已經(jīng)越來越近。

輕量級的一體化模型架構(gòu),是怎樣煉成的?

昆侖萬維Skywork UniPic 2.0的核心優(yōu)勢,在于把模型同時將生成架構(gòu)壓縮在2B參數(shù),在極少算力設(shè)備的情況下,也能負擔起模型的運轉(zhuǎn)。

從模型架構(gòu)上,昆侖萬維選擇了統(tǒng)一架構(gòu)的方式,把圖片編輯、生成和理解裝在了一個模型中完成。

而長期以來,AI領(lǐng)域在處理多模態(tài)任務時,多采用的是“模塊化”策略:圖像理解、文本生成圖像和圖像編輯等任務,往往由獨立的模型或模塊分別完成,再串聯(lián)起來。這樣分割的架構(gòu)導致各個模塊之間缺乏協(xié)同。

“各自為政”的后果是,一個專注于圖像生成的模型可能無法充分利用圖像理解的信息來優(yōu)化生成質(zhì)量,而一個圖像編輯模型也可能難以在編輯過程中兼顧文本指令的語義。這種“各自為政”的模式,最終導致各個參數(shù)的測試結(jié)果分數(shù)不高,難以形成強大的綜合能力。

相比之下,UniPic2.0采用的統(tǒng)一架構(gòu),實現(xiàn)了圖像理解、生成和編輯三大任務的深度融合。這種一體化的設(shè)計使得模型能夠進行協(xié)同訓練,形成更強大的多模態(tài)處理能力。

圖片

事實上,無論是堅持做原生多模態(tài),還是做理解生成一體化,都是今年業(yè)內(nèi)在探索多模態(tài)大模型的前沿方向:盡管在圖像生成領(lǐng)域,許多公司出于商業(yè)化考慮仍堅持單一架構(gòu),但學界和堅持基礎(chǔ)模型研究的廠商在近一年來都在積極探索理解統(tǒng)一生成和原生多模態(tài)方面的技術(shù)。

包括智源的OmniGen2、階躍星辰發(fā)布的多模態(tài)推理模型Step-3,還是字節(jié)跳動Seed團隊開源的BAGEL模型,都是通過原生多模態(tài)的框架或理解生成統(tǒng)一的機制,試圖提升模型生成能力的效果。

此外,在兼顧多個模塊性能優(yōu)勢的處理上,昆侖萬維這次采用了一個創(chuàng)新的多任務強化學習模式——“漸進式雙任務強化策略”。

針對傳統(tǒng)多任務強化學習,常陷入優(yōu)化一個任務會損害另一個任務的困境。對此,昆侖萬維先針對編輯任務進行專項強化,再在已對齊一致性編輯的基礎(chǔ)上,針對文生圖任務的指令遵循進行專項強化。在這種模式下,能夠確保文生圖和圖像編輯這兩種不同任務的強化學習過程互不干擾,并且能夠同時得到提升。

最終,和單一架構(gòu)的模型相比,新的統(tǒng)一架構(gòu)模型顯著提升了整體性能和泛化能力,讓生成質(zhì)量與編輯精度同時提升。

UniPic 2.0模型的生成模塊基于2B參數(shù)的SD3.5-Medium架構(gòu)進行訓練, 2B的參數(shù)規(guī)模使得UniPic 2.0模型非常“輕巧”,有望部署到各種硬件環(huán)境中,包括個人電腦、手機等端側(cè)設(shè)備,從而降低模型應用的門檻。

UniPic的1.0版本就已經(jīng)驗證了這種可能性。昆侖萬維表示,該模型可以在RTX 4090 消費級顯卡上流暢運行。

輕量化的模型,意味著更快的推理速度和更低的計算資源消耗。不僅讓用戶可以享受到秒級響應的生成和編輯體驗,還具備真正落地的成本和環(huán)境,成為一個真正能夠“跑起來”的多模態(tài)生成模型。

追SOTA,也要追落地

在平衡AGI和務實落地上,昆侖萬維一直是想得很清楚的一家公司。

追求SOTA帶來的技術(shù)紅利固然有限,但在模型競爭上,昆侖萬維通過卷性價比和堅持開源兩條策略,昆侖萬維在國內(nèi)巨頭林立的環(huán)境下,開辟出了一個獨有的舒適區(qū):保持技術(shù)優(yōu)勢的同時,在落地上一騎絕塵。

是不是感覺很熟悉?前兩天OpenAI發(fā)布的GPT-5也玩了一樣的策略,拿便宜1/10的價格,劍指海外的頂流Anthropic。

要想做到這些,首先,技術(shù)得過硬。UniPic 2.0做到了,它用僅2B的參數(shù)規(guī)模,性能卻反超了一批同樣架構(gòu)、參數(shù)卻更龐大的模型。

這樣做的好處是,2B參數(shù)的UniPic 2.0在推理時所需的計算資源大幅減少,讓模型能夠以秒級速度完成圖像生成和編輯任務,對于用戶來說,這個速度具有決定性的意義——很少有人愿意等AI跑個幾十秒甚至是幾分鐘。

更小的參數(shù),也意味著更低的訓練和推理成本,既能讓昆侖萬維在追求SOTA的路上少燒點錢,也能讓用戶每次使用的成本更低。對于目前將重心放在應用出海的昆侖萬維來說,UniPic 2.0無疑是一個更有性價比的選擇。

同時,一個更早做出的決策——開源,也支撐昆侖萬維在AI大模型訓練中跑得更快。

DeepSeek掀起的開源風暴讓人們看到開源對模型能力進化的重要性,而早在2022年底,昆侖萬維就意識到了開源的重要性。從最早AI圖像、音樂、文本和編程四大開源算法模型、百億參數(shù)的大語言模型Skywork-13B系列到各類多模態(tài)大模型,可以說,昆侖萬維在AI 2.0時代一直是堅定的開源選手。

開源,不僅能讓更多好想法匯集反哺模型的訓練,也能讓昆侖萬維通過模型吸引開發(fā)者和用戶,建立品牌影響力。

從結(jié)果看,昆侖萬維的這步棋走對了。

在國際知名開源社區(qū)HuggingFace的7月榜單中,和一眾大廠、“五小虎”并列的中國公司中,就出現(xiàn)了昆侖萬維的身影。在該榜單上,昆侖萬維共有兩個模型躋身海外模型引用的Top100,其中一個就是UniPic的1.0版本。

圖片

通過堅持開源和追逐SOTA并行,昆侖萬維避免了與大廠在資源上的硬碰硬,而是通過技術(shù)創(chuàng)新和生態(tài)建設(shè),找到了自己的生態(tài)位。

幾年追逐AGI的賽跑下來,昆侖萬維一直是那個嗅覺最敏銳的捕手。在大模型之戰(zhàn)越來越卷的情況下,他們正在通過集中資源的方式,追求垂類的領(lǐng)先。

在模型領(lǐng)域上,昆侖萬維做出了自己的取舍——比如,選擇專注多模態(tài)領(lǐng)域深耕。

DeepSeek的出現(xiàn),是昆侖萬維改變的契機之一。在采訪中,昆侖萬維董事長兼總經(jīng)理方漢提及,對于通用大模型,他們可能會選擇外采。但一些專有大模型,則要自己訓練。

這次,昆侖萬維持續(xù)5天的技術(shù)周,就是圍繞著多模態(tài)領(lǐng)域“秀肌肉”,展示他們持續(xù)深耕的成果。無論是能用在數(shù)字人上的音頻驅(qū)動人像視頻生成模型SkyReels-A3、還是當下大家更關(guān)注的具身智能大腦——世界模型Matrix-3D,都映射出這家公司的戰(zhàn)略考量:聚焦前沿,也不忘落地。

在大模型密集發(fā)布的8月,昆侖萬維成功找到了自己的位置。放在當下的中國AI生態(tài)圈里,能持續(xù)在牌桌上引人駐足的公司鳳毛麟角,這是昆侖萬維又一次靠策略勝利做到的以小博大。

       原文標題 : 昆侖萬維UniPic 2.0“小鋼炮”模型炸場,一個模型搞定理解+生成+編輯

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號