免费无码黄网站在线看,亚洲爆乳无码专区,主人拽奶头跪爬鞭打羞辱调教

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語(yǔ)言處理 > 正文

AI生成圖片，哪家強(qiáng)？

2025-08-29 15:17

硅基星芒

關(guān)注

AI的滲透正無(wú)遠(yuǎn)弗屆。正如很多插畫(huà)網(wǎng)站，添加“AI生成”標(biāo)簽已是標(biāo)配。

從藝術(shù)角度看，AI生成的圖片，似乎爭(zhēng)議依然巨大。但不得不承認(rèn)的是，在工作和學(xué)習(xí)中，AI圖片生成卻是一個(gè)提高效率的好辦法。

目前，多模態(tài)大模型領(lǐng)域中，支持文生圖的模型數(shù)量正在指數(shù)級(jí)增長(zhǎng)。

為了解決大家的“選擇困難癥”，這次我們選擇了6個(gè)模型進(jìn)行測(cè)評(píng)。

參賽選手如下：

騰訊混元、智譜CogView-4、通義千問(wèn)、即夢(mèng)、可靈和Gemini 2.5 Flash Image。

其中，前段時(shí)間在LMarena上爆火的模型nano-Banana，據(jù)說(shuō)吊打一切文生圖模型。

現(xiàn)在也已經(jīng)“驗(yàn)明正身”，正是8月27日Google發(fā)布的Gemini 2.5 Flash Image。

在測(cè)評(píng)前，先疊個(gè)甲：

對(duì)美術(shù)方面，實(shí)在是一竅不通。

因此，我們不談復(fù)雜的理論，也不聊晦澀的美術(shù)史。

只是以一個(gè)普通人的視角，借助AI給出的評(píng)分標(biāo)準(zhǔn)，來(lái)評(píng)價(jià)一下到底“好不好看”。一家之言，僅供參考。

01

第一維度：基礎(chǔ)美學(xué)與真實(shí)感

考驗(yàn)?zāi)繕?biāo)：AI的基本畫(huà)功，好不好看、真不真實(shí)。

題目：傍晚陽(yáng)光下的少女

Prompt: 超寫(xiě)實(shí)照片，一個(gè)有雀斑的年輕女子，面帶微笑，在黃金時(shí)刻坐在窗邊，溫暖的陽(yáng)光穿過(guò)她的頭發(fā)，電影感光線，8K，高細(xì)節(jié)。

評(píng)分標(biāo)準(zhǔn)：

測(cè)評(píng)結(jié)果：

混元：9分

騰訊：人物的皮膚質(zhì)感過(guò)于光滑，僅有微小瑕疵。

智譜：皮膚過(guò)于光滑，雀斑形狀和分布過(guò)于均勻和刻意，屬于明顯瑕疵。

千問(wèn)：雙手比例和形態(tài)非常不自然，完全沒(méi)有寫(xiě)實(shí)感，“一眼AI”，屬于明顯瑕疵。

即夢(mèng)和可靈：非常出色，接近完美，不愧是“專業(yè)畫(huà)手”。

Gemini：皮膚質(zhì)感過(guò)于光滑細(xì)膩，寫(xiě)實(shí)感還是差了一些。

總體來(lái)說(shuō)，對(duì)于人物的塑造，各個(gè)AI還是比較拿手的。

雖然有些模型生成的圖片略有瑕疵，但整體觀感不錯(cuò)。

02

第二維度：想象力與創(chuàng)意

考驗(yàn)?zāi)繕?biāo)：AI的腦洞有多大，對(duì)于現(xiàn)實(shí)中不存在的事物的創(chuàng)造能力。

題目：星云構(gòu)成的雄獅

Prompt: 一頭雄偉的獅子，由旋轉(zhuǎn)的星系和星云雕刻而成，宇宙塵埃構(gòu)成了它的鬃毛，眼睛是閃爍的恒星，背景是深邃的宇宙。

評(píng)分標(biāo)準(zhǔn)：

測(cè)評(píng)結(jié)果：

混元：9分

這一輪的題目看來(lái)對(duì)AI難度有點(diǎn)高了。

騰訊：第一眼看上去很華麗，很有氣勢(shì)，但似乎理解出現(xiàn)了一些偏差。這并非一個(gè)由星云構(gòu)成的生命體，而是一尊宇宙材質(zhì)的宏偉雕像。

智譜：生成了一個(gè)宇宙背景下的實(shí)體獅子，完全徹底的概念性跑偏。

千問(wèn)：“半神半獸”的感覺(jué)，實(shí)體獅子與星云的混合，離要求還是有一定差距。

即夢(mèng)：科幻感十足，但獅子身體仍然是實(shí)體而不是星云構(gòu)成的，觀感有一定新意。

可靈：本輪的最佳選手，視覺(jué)效果很好，實(shí)現(xiàn)了與星云的融合。

Gemini：獅子的實(shí)體也是不透明的，不過(guò)神韻、氣質(zhì)和細(xì)節(jié)都還不錯(cuò)。

看來(lái)，對(duì)于現(xiàn)實(shí)中不存在的事物，AI出現(xiàn)概念理解錯(cuò)誤的幾率會(huì)大大增加，而想象能力也是目前模型有所欠缺的地方。

可能的原因也比較多，例如訓(xùn)練數(shù)據(jù)存在一定的局限性、對(duì)物理世界存在路徑依賴或是概念融合能力的欠缺。

03

第三維度：指令理解與執(zhí)行力

考研目標(biāo)：AI聽(tīng)不聽(tīng)話，能不能正確遵從指令。

題目：水果籃里的數(shù)學(xué)題

Prompt: 一個(gè)木碗里裝著三個(gè)紅蘋(píng)果和兩個(gè)黃香蕉，放在一張白色的桌子上。

評(píng)分標(biāo)準(zhǔn)：

測(cè)評(píng)結(jié)果：

混元：9分

這肯定是人類眼中最簡(jiǎn)單的一道題，但對(duì)AI來(lái)說(shuō)難度可不低。

六個(gè)模型中，只有智譜、千問(wèn)和Gemini正確完成了如此“簡(jiǎn)單”的指令。

即夢(mèng)和可靈都搞錯(cuò)了蘋(píng)果的數(shù)量，而混元更是漏洞百出。

根據(jù)這一輪的結(jié)果，我們也可以得到一個(gè)推斷：

AI生圖模型并非按照我們的數(shù)學(xué)概念和美術(shù)流程來(lái)工作。

或者說(shuō)，它并不是按照我們最直接的思路，畫(huà)一個(gè)蘋(píng)果，再畫(huà)一個(gè)香蕉，直到數(shù)目符合要求。

指令中的3這個(gè)數(shù)字，對(duì)AI來(lái)說(shuō)，并不代表一個(gè)精確的數(shù)量，而是一個(gè)需要渲染的“構(gòu)圖特征”。

而在向量空間中，“三個(gè)蘋(píng)果”和“四個(gè)蘋(píng)果”可能是非常接近的。

同時(shí)，我們也無(wú)法得知提供給上述AI的訓(xùn)練集到底是什么樣的。

但是，標(biāo)簽肯定是做不到完全精準(zhǔn)的，AI只能長(zhǎng)時(shí)間在海量但又不完全精確的數(shù)據(jù)中學(xué)習(xí)。

AI的最終目標(biāo)，是讓生成的圖片最接近于它見(jiàn)過(guò)的“三個(gè)蘋(píng)果”，而不是“讓生成的蘋(píng)果數(shù)量等于3”。

04

第四維度：風(fēng)格模仿與駕馭力

考驗(yàn)?zāi)繕?biāo)：AI模仿特定的藝術(shù)家或藝術(shù)流派的能力。

題目：水墨風(fēng)的機(jī)甲

Prompt：一個(gè)巨大的中國(guó)古代機(jī)甲戰(zhàn)士，站立在云霧繚繞的山谷中，中國(guó)傳統(tǒng)水墨山水畫(huà)風(fēng)格。

評(píng)分標(biāo)準(zhǔn)：

測(cè)評(píng)結(jié)果：

混元：9分

又是一道有點(diǎn)抽象的題目。

表現(xiàn)最好的是Gemini，實(shí)打?qū)嵗L制出了山水畫(huà)風(fēng)格，大體符合要求。

千問(wèn)生成的機(jī)甲看起來(lái)確實(shí)氣勢(shì)磅礴，細(xì)節(jié)處理也很到位，但很明顯，這是素描而不是水墨風(fēng)格，只能說(shuō)是“有形無(wú)神”。

即夢(mèng)生成的圖片也并非水墨畫(huà)，而是帶有寫(xiě)實(shí)感的數(shù)字繪畫(huà)，更像是個(gè)游戲的概念設(shè)計(jì)圖。

可靈則發(fā)揮了優(yōu)秀的拼接能力，在水墨風(fēng)格的背景中插入了日式機(jī)甲，風(fēng)格完全割裂。

混元和智譜生成的圖片則有些奇怪，水墨畫(huà)風(fēng)格沒(méi)實(shí)現(xiàn)的同時(shí)，也沒(méi)理解“機(jī)甲戰(zhàn)士”這個(gè)主體，畫(huà)中人更像是個(gè)古代武士，完全偏離了題目要求。

如此看來(lái)，AI尚且不具備完全模仿某個(gè)藝術(shù)家或藝術(shù)流派的能力，能夠做到“形似神不似”就實(shí)屬不易。

05

第五維度：文化理解與概念表達(dá)

考驗(yàn)?zāi)繕?biāo)：AI能否理解特定的文化以及是否能夠表達(dá)抽象的概念。

題目：中秋佳節(jié)的漢服少女

Prompt：一位美麗的年輕女孩，身穿中國(guó)傳統(tǒng)漢服，慶祝中秋節(jié)，她手持一個(gè)精致的兔子燈籠，身后是明亮的滿月。

評(píng)分標(biāo)準(zhǔn)：

測(cè)評(píng)結(jié)果：

混元：9分

Gemini和可靈都拿下了相當(dāng)高的分?jǐn)?shù)，展現(xiàn)出了較高的文化素養(yǎng)。

對(duì)于漢服的概念理解比較深刻，而月亮、燈籠、園林等文化元素也都齊全。

推測(cè)其訓(xùn)練數(shù)據(jù)中，中國(guó)傳統(tǒng)文化的相關(guān)素材標(biāo)注是比較準(zhǔn)確的。

兩家模型的算法能夠把“漢服”等關(guān)鍵詞正確關(guān)聯(lián)到視覺(jué)特征上。

即夢(mèng)和千問(wèn)在美觀度和氛圍塑造上也很成功，不過(guò)漢服的結(jié)構(gòu)有些模糊。

盡管這種古風(fēng)畫(huà)作可能意味著AI對(duì)于服飾歷史知識(shí)的了解程度不夠深刻，但滿足“好看”這一要求仍然不在話下。

智譜生成的則是唯一采用了動(dòng)漫風(fēng)格的圖片，對(duì)歷史文化的復(fù)現(xiàn)程度顯然是太淺了。

混元生圖看似美觀，但在服飾結(jié)構(gòu)上有比較明顯的錯(cuò)誤，即一定程度上的文化混淆。

因此，AI在文化表現(xiàn)上也是存在“雙刃劍”效應(yīng)的。

頂級(jí)AI具備相當(dāng)可觀的文化知識(shí)，對(duì)于傳播、創(chuàng)作優(yōu)秀傳統(tǒng)文化會(huì)有很大的幫助。

而部分AI還存在“刻板印象”，受到低質(zhì)量數(shù)據(jù)的影響，反而會(huì)加劇大眾的文化誤解。

06

總評(píng)

本次測(cè)評(píng)的總分如下：

Gemini：44分

可靈：40分

即夢(mèng)：39分

千問(wèn)：38.5分

智譜：33.5分

騰訊：28.5分

從效果上來(lái)看，千問(wèn)、即夢(mèng)、可靈和Gemini的文生圖效果都是很不錯(cuò)的。

尤其是前身為nano-Banana的Gemini 2.5 Flash Image，拿到了最高的分?jǐn)?shù)，證明了它并非浪得虛名。

不過(guò)，我們的核心目標(biāo)還是要透過(guò)現(xiàn)象看本質(zhì)。

人們總是驚嘆于AI的“創(chuàng)造力”，它足夠以假亂真，繪畫(huà)水平也超越了大部分人。

但事實(shí)上，AI輸出的圖片，并非源于類似人類的靈感或意圖。

AI作畫(huà)，并非像一個(gè)畫(huà)手一樣，從一張白紙開(kāi)始一筆一筆畫(huà)出事物。

而是從一張充滿隨機(jī)噪聲點(diǎn)的“混沌畫(huà)布”開(kāi)始，根據(jù)提示詞進(jìn)行降噪。

也就是說(shuō)，AI作圖并非基于邏輯推理，而是基于概率。

對(duì)于蘋(píng)果生成數(shù)量的錯(cuò)誤，可能就是因?yàn)?ldquo;構(gòu)成一幅和諧的水果靜物圖”這個(gè)在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)的指令，其概率權(quán)重超過(guò)了“3”這個(gè)脆弱的數(shù)字符號(hào)。

對(duì)于星云和獅子之間的掙扎，與“獅子”相關(guān)的像素模式可能是“實(shí)體”和“毛發(fā)”，而與“星云”相關(guān)的則是“氣體”和“半透明”。AI無(wú)法同時(shí)滿足兩個(gè)相互矛盾的概率分布，因此降噪過(guò)程就無(wú)法成功。

對(duì)于水墨風(fēng)的機(jī)甲，則可能是AI背后的數(shù)據(jù)庫(kù)在發(fā)揮作用。如果數(shù)據(jù)庫(kù)中有大量“水墨”、“機(jī)甲”等高質(zhì)量的標(biāo)簽，降噪過(guò)程也會(huì)被順利引導(dǎo)至一個(gè)高質(zhì)量的概率空間。

簡(jiǎn)單的來(lái)說(shuō)，AI不是在根據(jù)指令繪畫(huà)，而是根據(jù)知識(shí)儲(chǔ)備，試圖通過(guò)降噪給出最可能符合指令的圖像。

至于錯(cuò)誤，文生圖是一個(gè)很復(fù)雜的過(guò)程，很遺憾，我們無(wú)法確切得知問(wèn)題出在哪一環(huán)節(jié)。

也因此，至少目前為止，我們并不是“創(chuàng)作者”，而是“概率的引導(dǎo)者”。

原文標(biāo)題 : AI生成圖片，哪家強(qiáng)？