當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺(jué) > 正文

昆侖萬(wàn)維UniPic 2.0“小鋼炮”模型炸場(chǎng)，一個(gè)模型搞定理解+生成+編輯

2025-08-14 09:26

光錐智能

關(guān)注

文｜魏琳華

編｜王一粟

大模型又迎來(lái)新一波的迭代周期。

近日，從Open AI發(fā)布GPT-5，到國(guó)內(nèi)的昆侖萬(wàn)維、商湯、百川智能、智譜等都陸續(xù)發(fā)布了自己的新模型。其中昆侖萬(wàn)維更是一口氣開(kāi)啟了技術(shù)周，連續(xù)5天每天發(fā)布一個(gè)新模型，而8月13日發(fā)布的，正是其本周發(fā)布的第三款模型——多模態(tài)統(tǒng)一模型UniPic 2.0。

UniPic 2.0主打的是，在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力，這正是今年多模態(tài)技術(shù)攻克的熱門方向——理解、生成、編輯一體化。

目前多數(shù)AI生圖，生成之后就很難修改，經(jīng)常出現(xiàn)對(duì)二次指令理解不充分，讓圖片越改越離譜的情況。

然而我們?cè)跍y(cè)試UniPic 2.0的修改圖片能力時(shí)，卻看到了驚喜。

最近流行的“基礎(chǔ)款不要搭基礎(chǔ)款，上身基礎(chǔ)，下身不基礎(chǔ)”的玩梗，我們讓UniPic 2.0給下身?yè)Q一個(gè)同色系但夸張的穿搭，它就把下身的褲子改成了一條紅色蓬蓬裙。

此模型在7月30日已經(jīng)開(kāi)源，這次上線的2.0版本，延續(xù)了之前1.0版本的優(yōu)勢(shì)——“又快又好”。

圖片幾秒生成、一句話編輯，小身材高表現(xiàn)

當(dāng)其他大模型需要花幾十秒生成一張圖片時(shí)，UniPic 2.0只用幾秒就畫了一張復(fù)雜的“玻璃貓”出來(lái)。

不同于市面上其他開(kāi)源的統(tǒng)一架構(gòu)多模態(tài)模型動(dòng)輒百億參數(shù)的大規(guī)格，UniPic 2.0的參數(shù)規(guī)格只有2B，這讓它響應(yīng)生成的速度比起其他模型快了一個(gè)數(shù)量級(jí)。

雖然尺寸小，但UniPic 2.0在圖片生成、理解和編輯三個(gè)方面的表現(xiàn)力也依然在線，甚至在圖片編輯部分的部分指標(biāo)分?jǐn)?shù)打敗了多個(gè)規(guī)模在10B以上開(kāi)源模型。

先從圖片生成說(shuō)起，在生成能力方面，UniPic 2.0的統(tǒng)一架構(gòu)版本在GenEval（測(cè)試生成圖像和文本匹配程度）取得0.90，超過(guò)了一眾開(kāi)源模型和閉源的GPT-4o（0.84）。可以看到，UniPic 2.0在小模型體量下依然能保持高性能的優(yōu)勢(shì)。

為了測(cè)試UniPic 2.0對(duì)于文本理解和生成匹配的情況，光錐智能讓它和Bagel各自生成一張“梵高風(fēng)格的樹”，UniPic 2.0給出了一張完美切題的圖片，而Bagel的圖甚至還帶著圣誕樹的特征。

圖片編輯則是UniPic 2.0表現(xiàn)最亮眼的部分，在GEdit-EN和Imgedit這兩個(gè)關(guān)鍵的圖像編輯任務(wù)指標(biāo)上，UniPic2 - SD3.5M - Kontext 分別拿到6.59和4.00的成績(jī)，UniPic2-Metaquery 系列模型的表現(xiàn)更好，最高拿到了7.10和4.06的分?jǐn)?shù)，超越了OmiGen2、Bagel在內(nèi)的多個(gè)開(kāi)源模型，可以說(shuō)直接追著閉源的GPT-4o而去。

在圖像補(bǔ)全、擦除、主體一致性、風(fēng)格轉(zhuǎn)換上，光錐智能給出了多組提示詞分別測(cè)評(píng)。

圖片修改我們開(kāi)頭已經(jīng)測(cè)試過(guò)，再給UniPic 2.0一張風(fēng)景圖，讓它把相機(jī)視角向右旋轉(zhuǎn)40度，給出的圖片效果相當(dāng)驚艷，甚至連陽(yáng)光在墻上映出的影子都補(bǔ)全了。

日常比較實(shí)用的人物背景切換和圖片消除，光錐智能也給UniPic 2.0安排上了。這比較考驗(yàn)大模型處理主體一致性的效果。

讓UniPic 2.0給前OpenAI的前首席科學(xué)家ilya換個(gè)純藍(lán)色底的背景圖，UniPic 2.0用5秒就把人物從色彩雜亂的背景中“摳”出來(lái)，換了個(gè)接近一寸照的純藍(lán)色背景。

再讓大模型給純色背景的人物P個(gè)沙灘海岸的背景圖，UniPic 2.0把海岸的沙灘、大海和椰子樹，都安排進(jìn)了背景里。

嫌人物擋住拍攝的風(fēng)景？我們給了UniPic 2.0一張被狗占據(jù)絕大部分的照片，讓它消除掉狗的部分，UniPic 2.0生成出來(lái)的圖片，基本做到了和原生背景一致。最上方的樹林和右下角的深色部分，也都被保留在新生成的圖片中。

風(fēng)格轉(zhuǎn)換方面，UniPic 2.0也能對(duì)各種風(fēng)格信手拈來(lái)。我們先是讓它生成了一張賽博朋克風(fēng)格的圖片，再讓它做成吉卜力風(fēng)，它也能把酷炫的機(jī)器人變成宮崎駿筆下的主角~

最重要的是，一個(gè)2B大小的模型，理論上已經(jīng)可以在人們的手機(jī)和電腦上運(yùn)行起來(lái)，這意味著一個(gè)可用、好用的高質(zhì)量生成模型，距離真實(shí)落地已經(jīng)越來(lái)越近。

輕量級(jí)的一體化模型架構(gòu)，是怎樣煉成的？

昆侖萬(wàn)維Skywork UniPic 2.0的核心優(yōu)勢(shì)，在于把模型同時(shí)將生成架構(gòu)壓縮在2B參數(shù)，在極少算力設(shè)備的情況下，也能負(fù)擔(dān)起模型的運(yùn)轉(zhuǎn)。

從模型架構(gòu)上，昆侖萬(wàn)維選擇了統(tǒng)一架構(gòu)的方式，把圖片編輯、生成和理解裝在了一個(gè)模型中完成。

而長(zhǎng)期以來(lái)，AI領(lǐng)域在處理多模態(tài)任務(wù)時(shí)，多采用的是“模塊化”策略：圖像理解、文本生成圖像和圖像編輯等任務(wù)，往往由獨(dú)立的模型或模塊分別完成，再串聯(lián)起來(lái)。這樣分割的架構(gòu)導(dǎo)致各個(gè)模塊之間缺乏協(xié)同。

“各自為政”的后果是，一個(gè)專注于圖像生成的模型可能無(wú)法充分利用圖像理解的信息來(lái)優(yōu)化生成質(zhì)量，而一個(gè)圖像編輯模型也可能難以在編輯過(guò)程中兼顧文本指令的語(yǔ)義。這種“各自為政”的模式，最終導(dǎo)致各個(gè)參數(shù)的測(cè)試結(jié)果分?jǐn)?shù)不高，難以形成強(qiáng)大的綜合能力。

相比之下，UniPic2.0采用的統(tǒng)一架構(gòu)，實(shí)現(xiàn)了圖像理解、生成和編輯三大任務(wù)的深度融合。這種一體化的設(shè)計(jì)使得模型能夠進(jìn)行協(xié)同訓(xùn)練，形成更強(qiáng)大的多模態(tài)處理能力。

事實(shí)上，無(wú)論是堅(jiān)持做原生多模態(tài)，還是做理解生成一體化，都是今年業(yè)內(nèi)在探索多模態(tài)大模型的前沿方向：盡管在圖像生成領(lǐng)域，許多公司出于商業(yè)化考慮仍堅(jiān)持單一架構(gòu)，但學(xué)界和堅(jiān)持基礎(chǔ)模型研究的廠商在近一年來(lái)都在積極探索理解統(tǒng)一生成和原生多模態(tài)方面的技術(shù)。

包括智源的OmniGen2、階躍星辰發(fā)布的多模態(tài)推理模型Step-3，還是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)開(kāi)源的BAGEL模型，都是通過(guò)原生多模態(tài)的框架或理解生成統(tǒng)一的機(jī)制，試圖提升模型生成能力的效果。

此外，在兼顧多個(gè)模塊性能優(yōu)勢(shì)的處理上，昆侖萬(wàn)維這次采用了一個(gè)創(chuàng)新的多任務(wù)強(qiáng)化學(xué)習(xí)模式——“漸進(jìn)式雙任務(wù)強(qiáng)化策略”。

針對(duì)傳統(tǒng)多任務(wù)強(qiáng)化學(xué)習(xí)，常陷入優(yōu)化一個(gè)任務(wù)會(huì)損害另一個(gè)任務(wù)的困境。對(duì)此，昆侖萬(wàn)維先針對(duì)編輯任務(wù)進(jìn)行專項(xiàng)強(qiáng)化，再在已對(duì)齊一致性編輯的基礎(chǔ)上，針對(duì)文生圖任務(wù)的指令遵循進(jìn)行專項(xiàng)強(qiáng)化。在這種模式下，能夠確保文生圖和圖像編輯這兩種不同任務(wù)的強(qiáng)化學(xué)習(xí)過(guò)程互不干擾，并且能夠同時(shí)得到提升。

最終，和單一架構(gòu)的模型相比，新的統(tǒng)一架構(gòu)模型顯著提升了整體性能和泛化能力，讓生成質(zhì)量與編輯精度同時(shí)提升。

UniPic 2.0模型的生成模塊基于2B參數(shù)的SD3.5-Medium架構(gòu)進(jìn)行訓(xùn)練， 2B的參數(shù)規(guī)模使得UniPic 2.0模型非常“輕巧”，有望部署到各種硬件環(huán)境中，包括個(gè)人電腦、手機(jī)等端側(cè)設(shè)備，從而降低模型應(yīng)用的門檻。

UniPic的1.0版本就已經(jīng)驗(yàn)證了這種可能性。昆侖萬(wàn)維表示，該模型可以在RTX 4090 消費(fèi)級(jí)顯卡上流暢運(yùn)行。

輕量化的模型，意味著更快的推理速度和更低的計(jì)算資源消耗。不僅讓用戶可以享受到秒級(jí)響應(yīng)的生成和編輯體驗(yàn)，還具備真正落地的成本和環(huán)境，成為一個(gè)真正能夠“跑起來(lái)”的多模態(tài)生成模型。

追SOTA，也要追落地

在平衡AGI和務(wù)實(shí)落地上，昆侖萬(wàn)維一直是想得很清楚的一家公司。

追求SOTA帶來(lái)的技術(shù)紅利固然有限，但在模型競(jìng)爭(zhēng)上，昆侖萬(wàn)維通過(guò)卷性價(jià)比和堅(jiān)持開(kāi)源兩條策略，昆侖萬(wàn)維在國(guó)內(nèi)巨頭林立的環(huán)境下，開(kāi)辟出了一個(gè)獨(dú)有的舒適區(qū)：保持技術(shù)優(yōu)勢(shì)的同時(shí)，在落地上一騎絕塵。

是不是感覺(jué)很熟悉？前兩天OpenAI發(fā)布的GPT-5也玩了一樣的策略，拿便宜1/10的價(jià)格，劍指海外的頂流Anthropic。

要想做到這些，首先，技術(shù)得過(guò)硬。UniPic 2.0做到了，它用僅2B的參數(shù)規(guī)模，性能卻反超了一批同樣架構(gòu)、參數(shù)卻更龐大的模型。

這樣做的好處是，2B參數(shù)的UniPic 2.0在推理時(shí)所需的計(jì)算資源大幅減少，讓模型能夠以秒級(jí)速度完成圖像生成和編輯任務(wù)，對(duì)于用戶來(lái)說(shuō)，這個(gè)速度具有決定性的意義——很少有人愿意等AI跑個(gè)幾十秒甚至是幾分鐘。

更小的參數(shù)，也意味著更低的訓(xùn)練和推理成本，既能讓昆侖萬(wàn)維在追求SOTA的路上少燒點(diǎn)錢，也能讓用戶每次使用的成本更低。對(duì)于目前將重心放在應(yīng)用出海的昆侖萬(wàn)維來(lái)說(shuō)，UniPic 2.0無(wú)疑是一個(gè)更有性價(jià)比的選擇。

同時(shí)，一個(gè)更早做出的決策——開(kāi)源，也支撐昆侖萬(wàn)維在AI大模型訓(xùn)練中跑得更快。

DeepSeek掀起的開(kāi)源風(fēng)暴讓人們看到開(kāi)源對(duì)模型能力進(jìn)化的重要性，而早在2022年底，昆侖萬(wàn)維就意識(shí)到了開(kāi)源的重要性。從最早AI圖像、音樂(lè)、文本和編程四大開(kāi)源算法模型、百億參數(shù)的大語(yǔ)言模型Skywork-13B系列到各類多模態(tài)大模型，可以說(shuō)，昆侖萬(wàn)維在AI 2.0時(shí)代一直是堅(jiān)定的開(kāi)源選手。

開(kāi)源，不僅能讓更多好想法匯集反哺模型的訓(xùn)練，也能讓昆侖萬(wàn)維通過(guò)模型吸引開(kāi)發(fā)者和用戶，建立品牌影響力。

從結(jié)果看，昆侖萬(wàn)維的這步棋走對(duì)了。

在國(guó)際知名開(kāi)源社區(qū)HuggingFace的7月榜單中，和一眾大廠、“五小虎”并列的中國(guó)公司中，就出現(xiàn)了昆侖萬(wàn)維的身影。在該榜單上，昆侖萬(wàn)維共有兩個(gè)模型躋身海外模型引用的Top100，其中一個(gè)就是UniPic的1.0版本。

通過(guò)堅(jiān)持開(kāi)源和追逐SOTA并行，昆侖萬(wàn)維避免了與大廠在資源上的硬碰硬，而是通過(guò)技術(shù)創(chuàng)新和生態(tài)建設(shè)，找到了自己的生態(tài)位。

幾年追逐AGI的賽跑下來(lái)，昆侖萬(wàn)維一直是那個(gè)嗅覺(jué)最敏銳的捕手。在大模型之戰(zhàn)越來(lái)越卷的情況下，他們正在通過(guò)集中資源的方式，追求垂類的領(lǐng)先。

在模型領(lǐng)域上，昆侖萬(wàn)維做出了自己的取舍——比如，選擇專注多模態(tài)領(lǐng)域深耕。

DeepSeek的出現(xiàn)，是昆侖萬(wàn)維改變的契機(jī)之一。在采訪中，昆侖萬(wàn)維董事長(zhǎng)兼總經(jīng)理方漢提及，對(duì)于通用大模型，他們可能會(huì)選擇外采。但一些專有大模型，則要自己訓(xùn)練。

這次，昆侖萬(wàn)維持續(xù)5天的技術(shù)周，就是圍繞著多模態(tài)領(lǐng)域“秀肌肉”，展示他們持續(xù)深耕的成果。無(wú)論是能用在數(shù)字人上的音頻驅(qū)動(dòng)人像視頻生成模型SkyReels-A3、還是當(dāng)下大家更關(guān)注的具身智能大腦——世界模型Matrix-3D，都映射出這家公司的戰(zhàn)略考量：聚焦前沿，也不忘落地。

在大模型密集發(fā)布的8月，昆侖萬(wàn)維成功找到了自己的位置。放在當(dāng)下的中國(guó)AI生態(tài)圈里，能持續(xù)在牌桌上引人駐足的公司鳳毛麟角，這是昆侖萬(wàn)維又一次靠策略勝利做到的以小博大。

原文標(biāo)題 : 昆侖萬(wàn)維UniPic 2.0“小鋼炮”模型炸場(chǎng)，一個(gè)模型搞定理解+生成+編輯