AI生成圖片,哪家強(qiáng)?
AI的滲透正無遠(yuǎn)弗屆。正如很多插畫網(wǎng)站,添加“AI生成”標(biāo)簽已是標(biāo)配。
從藝術(shù)角度看,AI生成的圖片,似乎爭(zhēng)議依然巨大。但不得不承認(rèn)的是,在工作和學(xué)習(xí)中,AI圖片生成卻是一個(gè)提高效率的好辦法。
目前,多模態(tài)大模型領(lǐng)域中,支持文生圖的模型數(shù)量正在指數(shù)級(jí)增長(zhǎng)。
為了解決大家的“選擇困難癥”,這次我們選擇了6個(gè)模型進(jìn)行測(cè)評(píng)。
參賽選手如下:
騰訊混元、智譜CogView-4、通義千問、即夢(mèng)、可靈和Gemini 2.5 Flash Image。
其中,前段時(shí)間在LMarena上爆火的模型nano-Banana,據(jù)說吊打一切文生圖模型。
現(xiàn)在也已經(jīng)“驗(yàn)明正身”,正是8月27日Google發(fā)布的Gemini 2.5 Flash Image。
在測(cè)評(píng)前,先疊個(gè)甲:
對(duì)美術(shù)方面,實(shí)在是一竅不通。
因此,我們不談復(fù)雜的理論,也不聊晦澀的美術(shù)史。
只是以一個(gè)普通人的視角,借助AI給出的評(píng)分標(biāo)準(zhǔn),來評(píng)價(jià)一下到底“好不好看”。一家之言,僅供參考。
01
第一維度:基礎(chǔ)美學(xué)與真實(shí)感
考驗(yàn)?zāi)繕?biāo):AI的基本畫功,好不好看、真不真實(shí)。
題目:傍晚陽光下的少女
Prompt: 超寫實(shí)照片,一個(gè)有雀斑的年輕女子,面帶微笑,在黃金時(shí)刻坐在窗邊,溫暖的陽光穿過她的頭發(fā),電影感光線,8K,高細(xì)節(jié)。
評(píng)分標(biāo)準(zhǔn):
測(cè)評(píng)結(jié)果:
騰訊:人物的皮膚質(zhì)感過于光滑,僅有微小瑕疵。
智譜:皮膚過于光滑,雀斑形狀和分布過于均勻和刻意,屬于明顯瑕疵。
千問:雙手比例和形態(tài)非常不自然,完全沒有寫實(shí)感,“一眼AI”,屬于明顯瑕疵。
即夢(mèng)和可靈:非常出色,接近完美,不愧是“專業(yè)畫手”。
Gemini:皮膚質(zhì)感過于光滑細(xì)膩,寫實(shí)感還是差了一些。
總體來說,對(duì)于人物的塑造,各個(gè)AI還是比較拿手的。
雖然有些模型生成的圖片略有瑕疵,但整體觀感不錯(cuò)。
02
第二維度:想象力與創(chuàng)意
考驗(yàn)?zāi)繕?biāo):AI的腦洞有多大,對(duì)于現(xiàn)實(shí)中不存在的事物的創(chuàng)造能力。
題目:星云構(gòu)成的雄獅
Prompt: 一頭雄偉的獅子,由旋轉(zhuǎn)的星系和星云雕刻而成,宇宙塵埃構(gòu)成了它的鬃毛,眼睛是閃爍的恒星,背景是深邃的宇宙。
評(píng)分標(biāo)準(zhǔn):
測(cè)評(píng)結(jié)果:
這一輪的題目看來對(duì)AI難度有點(diǎn)高了。
騰訊:第一眼看上去很華麗,很有氣勢(shì),但似乎理解出現(xiàn)了一些偏差。這并非一個(gè)由星云構(gòu)成的生命體,而是一尊宇宙材質(zhì)的宏偉雕像。
智譜:生成了一個(gè)宇宙背景下的實(shí)體獅子,完全徹底的概念性跑偏。
千問:“半神半獸”的感覺,實(shí)體獅子與星云的混合,離要求還是有一定差距。
即夢(mèng):科幻感十足,但獅子身體仍然是實(shí)體而不是星云構(gòu)成的,觀感有一定新意。
可靈:本輪的最佳選手,視覺效果很好,實(shí)現(xiàn)了與星云的融合。
Gemini:獅子的實(shí)體也是不透明的,不過神韻、氣質(zhì)和細(xì)節(jié)都還不錯(cuò)。
看來,對(duì)于現(xiàn)實(shí)中不存在的事物,AI出現(xiàn)概念理解錯(cuò)誤的幾率會(huì)大大增加,而想象能力也是目前模型有所欠缺的地方。
可能的原因也比較多,例如訓(xùn)練數(shù)據(jù)存在一定的局限性、對(duì)物理世界存在路徑依賴或是概念融合能力的欠缺。
03
第三維度:指令理解與執(zhí)行力
考研目標(biāo):AI聽不聽話,能不能正確遵從指令。
題目:水果籃里的數(shù)學(xué)題
Prompt: 一個(gè)木碗里裝著三個(gè)紅蘋果和兩個(gè)黃香蕉,放在一張白色的桌子上。
評(píng)分標(biāo)準(zhǔn):
測(cè)評(píng)結(jié)果:
這肯定是人類眼中最簡(jiǎn)單的一道題,但對(duì)AI來說難度可不低。
六個(gè)模型中,只有智譜、千問和Gemini正確完成了如此“簡(jiǎn)單”的指令。
即夢(mèng)和可靈都搞錯(cuò)了蘋果的數(shù)量,而混元更是漏洞百出。
根據(jù)這一輪的結(jié)果,我們也可以得到一個(gè)推斷:
AI生圖模型并非按照我們的數(shù)學(xué)概念和美術(shù)流程來工作。
或者說,它并不是按照我們最直接的思路,畫一個(gè)蘋果,再畫一個(gè)香蕉,直到數(shù)目符合要求。
指令中的3這個(gè)數(shù)字,對(duì)AI來說,并不代表一個(gè)精確的數(shù)量,而是一個(gè)需要渲染的“構(gòu)圖特征”。
而在向量空間中,“三個(gè)蘋果”和“四個(gè)蘋果”可能是非常接近的。
同時(shí),我們也無法得知提供給上述AI的訓(xùn)練集到底是什么樣的。
但是,標(biāo)簽肯定是做不到完全精準(zhǔn)的,AI只能長(zhǎng)時(shí)間在海量但又不完全精確的數(shù)據(jù)中學(xué)習(xí)。
AI的最終目標(biāo),是讓生成的圖片最接近于它見過的“三個(gè)蘋果”,而不是“讓生成的蘋果數(shù)量等于3”。
04
第四維度:風(fēng)格模仿與駕馭力
考驗(yàn)?zāi)繕?biāo):AI模仿特定的藝術(shù)家或藝術(shù)流派的能力。
題目:水墨風(fēng)的機(jī)甲
Prompt:一個(gè)巨大的中國古代機(jī)甲戰(zhàn)士,站立在云霧繚繞的山谷中,中國傳統(tǒng)水墨山水畫風(fēng)格。
評(píng)分標(biāo)準(zhǔn):
測(cè)評(píng)結(jié)果:
又是一道有點(diǎn)抽象的題目。
表現(xiàn)最好的是Gemini,實(shí)打?qū)嵗L制出了山水畫風(fēng)格,大體符合要求。
千問生成的機(jī)甲看起來確實(shí)氣勢(shì)磅礴,細(xì)節(jié)處理也很到位,但很明顯,這是素描而不是水墨風(fēng)格,只能說是“有形無神”。
即夢(mèng)生成的圖片也并非水墨畫,而是帶有寫實(shí)感的數(shù)字繪畫,更像是個(gè)游戲的概念設(shè)計(jì)圖。
可靈則發(fā)揮了優(yōu)秀的拼接能力,在水墨風(fēng)格的背景中插入了日式機(jī)甲,風(fēng)格完全割裂。
混元和智譜生成的圖片則有些奇怪,水墨畫風(fēng)格沒實(shí)現(xiàn)的同時(shí),也沒理解“機(jī)甲戰(zhàn)士”這個(gè)主體,畫中人更像是個(gè)古代武士,完全偏離了題目要求。
如此看來,AI尚且不具備完全模仿某個(gè)藝術(shù)家或藝術(shù)流派的能力,能夠做到“形似神不似”就實(shí)屬不易。
05
第五維度:文化理解與概念表達(dá)
考驗(yàn)?zāi)繕?biāo):AI能否理解特定的文化以及是否能夠表達(dá)抽象的概念。
題目:中秋佳節(jié)的漢服少女
Prompt:一位美麗的年輕女孩,身穿中國傳統(tǒng)漢服,慶祝中秋節(jié),她手持一個(gè)精致的兔子燈籠,身后是明亮的滿月。
評(píng)分標(biāo)準(zhǔn):
測(cè)評(píng)結(jié)果:
Gemini和可靈都拿下了相當(dāng)高的分?jǐn)?shù),展現(xiàn)出了較高的文化素養(yǎng)。
對(duì)于漢服的概念理解比較深刻,而月亮、燈籠、園林等文化元素也都齊全。
推測(cè)其訓(xùn)練數(shù)據(jù)中,中國傳統(tǒng)文化的相關(guān)素材標(biāo)注是比較準(zhǔn)確的。
兩家模型的算法能夠把“漢服”等關(guān)鍵詞正確關(guān)聯(lián)到視覺特征上。
即夢(mèng)和千問在美觀度和氛圍塑造上也很成功,不過漢服的結(jié)構(gòu)有些模糊。
盡管這種古風(fēng)畫作可能意味著AI對(duì)于服飾歷史知識(shí)的了解程度不夠深刻,但滿足“好看”這一要求仍然不在話下。
智譜生成的則是唯一采用了動(dòng)漫風(fēng)格的圖片,對(duì)歷史文化的復(fù)現(xiàn)程度顯然是太淺了。
混元生圖看似美觀,但在服飾結(jié)構(gòu)上有比較明顯的錯(cuò)誤,即一定程度上的文化混淆。
因此,AI在文化表現(xiàn)上也是存在“雙刃劍”效應(yīng)的。
頂級(jí)AI具備相當(dāng)可觀的文化知識(shí),對(duì)于傳播、創(chuàng)作優(yōu)秀傳統(tǒng)文化會(huì)有很大的幫助。
而部分AI還存在“刻板印象”,受到低質(zhì)量數(shù)據(jù)的影響,反而會(huì)加劇大眾的文化誤解。
06
總評(píng)
本次測(cè)評(píng)的總分如下:
Gemini:44分
可靈:40分
即夢(mèng):39分
千問:38.5分
智譜:33.5分
騰訊:28.5分
從效果上來看,千問、即夢(mèng)、可靈和Gemini的文生圖效果都是很不錯(cuò)的。
尤其是前身為nano-Banana的Gemini 2.5 Flash Image,拿到了最高的分?jǐn)?shù),證明了它并非浪得虛名。
不過,我們的核心目標(biāo)還是要透過現(xiàn)象看本質(zhì)。
人們總是驚嘆于AI的“創(chuàng)造力”,它足夠以假亂真,繪畫水平也超越了大部分人。
但事實(shí)上,AI輸出的圖片,并非源于類似人類的靈感或意圖。
AI作畫,并非像一個(gè)畫手一樣,從一張白紙開始一筆一筆畫出事物。
而是從一張充滿隨機(jī)噪聲點(diǎn)的“混沌畫布”開始,根據(jù)提示詞進(jìn)行降噪。
也就是說,AI作圖并非基于邏輯推理,而是基于概率。
對(duì)于蘋果生成數(shù)量的錯(cuò)誤,可能就是因?yàn)?ldquo;構(gòu)成一幅和諧的水果靜物圖”這個(gè)在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)的指令,其概率權(quán)重超過了“3”這個(gè)脆弱的數(shù)字符號(hào)。
對(duì)于星云和獅子之間的掙扎,與“獅子”相關(guān)的像素模式可能是“實(shí)體”和“毛發(fā)”,而與“星云”相關(guān)的則是“氣體”和“半透明”。AI無法同時(shí)滿足兩個(gè)相互矛盾的概率分布,因此降噪過程就無法成功。
對(duì)于水墨風(fēng)的機(jī)甲,則可能是AI背后的數(shù)據(jù)庫在發(fā)揮作用。如果數(shù)據(jù)庫中有大量“水墨”、“機(jī)甲”等高質(zhì)量的標(biāo)簽,降噪過程也會(huì)被順利引導(dǎo)至一個(gè)高質(zhì)量的概率空間。
簡(jiǎn)單的來說,AI不是在根據(jù)指令繪畫,而是根據(jù)知識(shí)儲(chǔ)備,試圖通過降噪給出最可能符合指令的圖像。
至于錯(cuò)誤,文生圖是一個(gè)很復(fù)雜的過程,很遺憾,我們無法確切得知問題出在哪一環(huán)節(jié)。
也因此,至少目前為止,我們并不是“創(chuàng)作者”,而是“概率的引導(dǎo)者”。
原文標(biāo)題 : AI生成圖片,哪家強(qiáng)?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦