從 Stability AI 和 Stable Diffusion 看 AIGC
2022年10月17日,AIGC (AI Gererative Content)領(lǐng)域的知名項(xiàng)目 Stable Diffusion —— 背后的公司 Stability AI 宣布獲得了來(lái)自 Coatue、光速資本 以及 O'Shaughnessy 總計(jì) 1.01 億美元的種子輪投資,資金將用來(lái)面向圖像、語(yǔ)言、音頻、視頻以及 3D 領(lǐng)域的 AI 模型開(kāi)發(fā),投后估值達(dá)到 10 億美元。
作者|Tim Jiang
編輯|Tim Jiang
今年以來(lái),AIGC 領(lǐng)域的相關(guān)創(chuàng)作工具如雨后春筍般出現(xiàn),有概念詞「AIGC」,也有大眾詞「AI 繪畫(huà)」,更有技術(shù)詞「txt2img」,但本質(zhì)上它們都在講一個(gè)功能邏輯 —— 文字?jǐn)⑹龅接?jì)算機(jī)圖像的生成。
我梳理了幾個(gè)重要的項(xiàng)目和時(shí)間點(diǎn)供大家參考:
2021年10月,Somnai 在 Github 上創(chuàng)建了名為 Disco Diffusion 的項(xiàng)目,這是一款運(yùn)行在 Google Colab 上的 AI 程序,Somnai 在今年 2 月發(fā)布了 5.0 版本,用戶(hù)可根據(jù)場(chǎng)景關(guān)鍵詞渲染對(duì)應(yīng)圖像,隨后該項(xiàng)目開(kāi)始在網(wǎng)絡(luò)上出圈,但該工具分辨率和算力相對(duì)有限;
2022年4月,OpenAI 發(fā)布了 DALL·E 2代模型,名字來(lái)源于著名畫(huà)家達(dá)利以及 2008 年的動(dòng)畫(huà)片《機(jī)器人瓦力》,是 DALL.E 的繼任者,OpenAI 背后獲得了微軟和包括 Khosla Ventures 的支持,DALL·E 2 能夠生成高度逼真的原創(chuàng)圖像,這些圖像的視覺(jué)風(fēng)格各異,有夢(mèng)幻的也有寫(xiě)實(shí)的,例如騎馬的宇航員和在古埃及買(mǎi)面包的泰迪熊,但工具本身在內(nèi)容創(chuàng)作邊界上更加收斂和限制;
2022年5月,Google 推出了 Imagen,Imagen 是一種文本到圖像的擴(kuò)散模型,能夠生成較為真實(shí)的圖片,在精度和質(zhì)量上優(yōu)于 DALL·E 2,但目前主要用于學(xué)術(shù)目的并不開(kāi)放,且在帶有人物的創(chuàng)作上有更多限制;
2022年7月,Midjourney 項(xiàng)目進(jìn)入公測(cè)階段,這是該模型的第 3 版,第 2 版發(fā)布于今年 4 月。Midjourney 是一個(gè)獨(dú)立的研究實(shí)驗(yàn)室,創(chuàng)始人是原先 Leap Motion的聯(lián)創(chuàng) David Holz,而 Disco Diffusion 項(xiàng)目的原作者 Somnai 也在今年 5 月加入了 Midjourney;
01
Stability AI 是一家什么樣的公司
來(lái)到本篇的主角 —— Stable Diffusion,該項(xiàng)目由初創(chuàng)公司 StabilityAI 和慕尼黑大學(xué)機(jī)器視覺(jué)學(xué)習(xí)組和 AI 視頻剪輯技術(shù)創(chuàng)業(yè)公司 Runway 合作開(kāi)發(fā),并得到了黑客組織 EleutherAI 和德國(guó)非盈利組織 LAION 的支持。
Source:Mostaque,Business Insider;
Mostaque 目前是 Stability AI 的 CEO 兼聯(lián)合創(chuàng)始人,當(dāng)前的人員在 75 人左右。Mostaque 希望通過(guò)這個(gè)項(xiàng)目為大眾帶來(lái)新的 AI 應(yīng)用。在 Mostaque 和他的同事們看來(lái),現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角,未來(lái)相關(guān)的用例可能包括大幅改進(jìn)的照片寫(xiě)實(shí)、視頻和動(dòng)畫(huà)。
說(shuō)來(lái)有趣,創(chuàng)立 Stability AI 的 Mostaque,既不是研發(fā)人員,也不是藝術(shù)家,他的背景是一名在倫敦從事 13 年對(duì)沖基金工作的金融人士。雖然從事對(duì)沖基金工作,但 Mostaque 也是妥妥的工科學(xué)霸,早年畢業(yè)于牛津大學(xué)數(shù)學(xué)和計(jì)算機(jī)專(zhuān)業(yè)。
Mostaque 希望通過(guò)這個(gè)項(xiàng)目為大眾帶來(lái)新的 AI 應(yīng)用,在 他和同事們看來(lái),現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角,未來(lái)相關(guān)的用例可能包括大幅改進(jìn)的照片寫(xiě)實(shí)、視頻和動(dòng)畫(huà)。
除了文章開(kāi)頭提到種子輪投資人,更早之前項(xiàng)目主要由 Mostaque 和一家名為 Eros Investment 進(jìn)行天使投資。Eros Investment 認(rèn)為 Stability AI 具備一定 3D 化身的能力,這些化身在未來(lái)將用于 AR/VR 游戲中,預(yù)計(jì)隨著 Stability AI 引入更快、更好和更專(zhuān)業(yè)的模型,質(zhì)量不斷提高,未來(lái)將進(jìn)一步添加音頻、3D 和視頻功能,并引入到 Canva 和 WordPress 等平臺(tái)中去。
由于 Stable Diffusion 項(xiàng)目的底層技術(shù)是免費(fèi)開(kāi)源的,因此早期在商業(yè)模式上并沒(méi)有明確的定位。8 月份的時(shí)候,CEO Mostaque 在接受 Youtube 上的網(wǎng)紅機(jī)器學(xué)習(xí)工程師 Yannic Kilcher 采訪(fǎng)時(shí)表示,Stability AI 已經(jīng)與一些政府和領(lǐng)先機(jī)構(gòu)建立了合作伙伴關(guān)系來(lái)銷(xiāo)售這項(xiàng)技術(shù),因此相比于其他起步就虧損的技術(shù)公司相比,公司將早早開(kāi)始盈利。
02
Stable Disffusion 的創(chuàng)新是什么?
那么 Stable Disffusion 效果如何呢?你可以在幾秒內(nèi)就創(chuàng)作一張梵高繪制的碧昂斯肖像畫(huà),又或是日本十八世紀(jì)藝術(shù)家葛飾北齋創(chuàng)作的賽博朋克城市景觀。
Source:KENRICK CAI via Stable Disffusion;
Stable Diffusion 項(xiàng)目帶來(lái)的主要革新是將模型的計(jì)算空間從原先的像素通過(guò)技術(shù)手段,在保留足夠豐富的信息與細(xì)節(jié)狀態(tài)下降為到一個(gè)更低的數(shù)量空間里,然后再通過(guò)一系列的訓(xùn)練和圖像進(jìn)行計(jì)算,而這個(gè)更低維的空間被稱(chēng)為潛空間(Latent Space)。
潛空間對(duì)產(chǎn)業(yè)界來(lái)說(shuō),相比其它模型大幅降低了內(nèi)存和計(jì)算的要求,舉個(gè)例子,原先 512 x 512 對(duì)圖像一下子變成了 64 x 64,需要的內(nèi)存減少了 98%!原先只有研究人員才能進(jìn)行創(chuàng)作的條件一下子達(dá)到了消費(fèi)級(jí),所以該項(xiàng)目出圈是必然的。
Stable Diffusion 開(kāi)源后,一方面可以在大部分適配 GPU 的電腦上運(yùn)行,例如一臺(tái) M1 的蘋(píng)果電腦,而 DALL·E2 以及 Midjourney 只能通過(guò)云計(jì)算訪(fǎng)問(wèn)使用;另一方面,在內(nèi)容創(chuàng)作的范圍上,Stable Diffusion 較其它模型更加自由開(kāi)放,用戶(hù)擁有創(chuàng)作的圖像權(quán)利,也可以自由地用作商業(yè)用途,Mostaque 表示開(kāi)源能夠讓更多的人接觸到這項(xiàng)技術(shù)。
Source:Stability AI 官網(wǎng);
回到產(chǎn)品的使用上,對(duì)于普通用戶(hù) Stability AI 還推出了 DreamStudio,這就像是融合了Stable Diffusion 模型之后的在線(xiàn) Photoshop,只不過(guò)新用戶(hù)注冊(cè)后需要按積分使用,不同參數(shù)條件下生成的圖像所消耗的積分不同,新用戶(hù)將獲得 200 積分,默認(rèn)條件是一張圖消耗 1 積分。
Source:作者通過(guò)DreamStudio繪制;
例如,我嘗試了用李白的《早發(fā)白帝城》的英文詩(shī)句輸入到 DreamStudio,出來(lái)的效果還是不錯(cuò)的。
03
img2img 下的 AIGC 趨勢(shì)
如果說(shuō) Stable Diffusion 的技術(shù)表述歸納為「text2img」,且多為 2D 平面內(nèi)容,那么該項(xiàng)目的新方向則是通過(guò)「img2img」完成 3D 內(nèi)容的創(chuàng)建。
什么是 img2img?Reddit 上的一名用戶(hù)發(fā)布了 6 張圖片,根據(jù)經(jīng)典 MS-DOS 上的游戲畫(huà)面進(jìn)行圖形優(yōu)化,效果如下:
Source:frigis9 on Reddit;
img2img 技術(shù)也是 Stable Diffusion 中的新功能,能進(jìn)一步將 text2img 生成的圖片真人化,使2D變3D,降低了廣大用戶(hù)將創(chuàng)意落地的門(mén)檻,釋放了大眾創(chuàng)意,而對(duì)于本身就靠創(chuàng)意吃飯的藝術(shù)工作者,它們通過(guò)該技術(shù)表達(dá)創(chuàng)意的能力也會(huì)進(jìn)一步提高,就像從紙面創(chuàng)意如同 8090 年代的 CAD 過(guò)渡那樣,如果說(shuō) CAD 全稱(chēng)是 Computer Aided Design,那套個(gè) AIGC 概念就是 AI Aided Design......
Source:Mostaque,Twitter;
當(dāng)然,與 DreamStudio 融合的實(shí)際效果和使用都需要一段時(shí)間的優(yōu)化中,特別是用在個(gè)人計(jì)算機(jī)上還需要一個(gè)過(guò)程,畢竟生成圖片的質(zhì)量需要對(duì)原先的素材進(jìn)行大量測(cè)試。
實(shí)際上,自今年 8 月份發(fā)布以來(lái),Stable Disffusion 已經(jīng)在全球范圍吸引了 20 多萬(wàn)開(kāi)發(fā)人員下載和使用,而面向大眾的產(chǎn)品 DreamStudio 更是在 50 多個(gè)國(guó)家地區(qū)吸引了 100 多萬(wàn)的用戶(hù)注冊(cè)使用,目前為止已經(jīng)累計(jì)創(chuàng)作了 1.7 億張圖像。
Source:《星際迷航》Holodeck,公開(kāi)網(wǎng)絡(luò);
Stability AI 的 CEO Mostaque 表示, 隨著 GPU 和算力的提升,Stable Disffusion 可能一年之內(nèi)就能在智能手機(jī)上運(yùn)行,新技術(shù)將在更多低價(jià)的設(shè)備上進(jìn)行訓(xùn)練,很快就能看到 AI 推動(dòng)的創(chuàng)意出現(xiàn)指數(shù)級(jí)的增長(zhǎng),而 Stable Diffusion 和其他模型已經(jīng)開(kāi)始摩拳擦掌著手動(dòng)態(tài)視頻的生成了,可能首先會(huì)進(jìn)入創(chuàng)作成本更低的短視頻領(lǐng)域,而他希望這個(gè)創(chuàng)作過(guò)程是多模態(tài)的,就像《星際迷航》的全息甲板(Holodeck)一樣。
Reference:
[1] 《Stability AI Announces $101 Million in Funding for Open-Source Artificial Intelligence》,PR Newswire;
[2] 《Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion》,F(xiàn)orbes;
[3] 《Stable Diffusion, a milestone? 》,AnalyticsIndiaMag;
封面:LOKESH CHOUDHARY
免責(zé)聲明:在任何情況下,本文信息或表述,不構(gòu)成任何投資建議;若有侵權(quán),請(qǐng)后臺(tái)聯(lián)系刪除。
原文標(biāo)題 : 從 Stability AI 和 Stable Diffusion 看 AIGC

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠(chǎng)和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線(xiàn)
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門(mén)市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦