訂閱
糾錯(cuò)
加入自媒體

谷歌AI往事:隱秘的二十年,與狂奔的365天

一年前,谷歌在硅谷的敘述中還是一個(gè)充滿(mǎn)了“中年危機(jī)”色彩的角色。

但短短一年后,故事發(fā)生了翻天覆地的變化。

Gemini 3橫掃各大榜單,「香蕉」模型Nano Banana Pro更是將AI生圖的精度與想象力提升到了一個(gè)新的高度。

財(cái)報(bào)數(shù)字成為了這一輪反擊最直接的注腳:截至三季度,Gemini應(yīng)用的月活躍用戶(hù)突破6.5億,相比上一季度公布的4.5億大幅提升。

這不禁讓人好奇:谷歌最近怎么突然這么猛了?

其實(shí),這并非一次突然的爆發(fā),而是一場(chǎng)“大象轉(zhuǎn)身”,正以前所未有的決心和效率,將自己數(shù)十年積累的 AI 技術(shù)儲(chǔ)備,轉(zhuǎn)化為產(chǎn)品力。

如果把時(shí)間軸拉得更長(zhǎng),你會(huì)看到一條更驚人的暗線(xiàn):

從拉里·佩奇早年對(duì)“終極搜索引擎”的想象,到“貓論文”,再到DeepMind、TPU,谷歌二十多年間的AI投資幾乎貫穿了現(xiàn)代深度學(xué)習(xí)的絕大部分關(guān)鍵節(jié)點(diǎn)。

在 Transformer 論文發(fā)表前的十年前,世界上幾乎所有知名的 AI 人才,都曾在谷歌工作過(guò)。

這種全棧的技術(shù)沉淀與人才密度,為谷歌構(gòu)筑了一條遠(yuǎn)超想象的護(hù)城河。

草蛇灰線(xiàn),伏脈千里。谷歌今天的絕對(duì)反擊,其實(shí)已經(jīng)深入藏在了它二十年來(lái)的投資拼圖中。今年,我們就來(lái)復(fù)盤(pán)一下谷歌在AI戰(zhàn)場(chǎng)上的那些關(guān)鍵落子,看看它們是如何在二十年來(lái),左右了整個(gè)AI產(chǎn)業(yè)的走向。

/ 01 /

谷歌AI起源:當(dāng)壓縮等于理解

谷歌的AI,始于拉里·佩奇。

拉里·佩奇的父親是多倫多大學(xué)的計(jì)算機(jī)科學(xué)教授,研究方向正是機(jī)器學(xué)習(xí)和人工智能。

在當(dāng)時(shí),AI是一個(gè)被主流學(xué)界認(rèn)為“有點(diǎn)浪費(fèi)生命”的冷門(mén)方向,因?yàn)樵诖酥?0年的許多重要理論當(dāng)時(shí)都被推翻了,或者至少人們認(rèn)為它們已經(jīng)被推翻了。

但拉里卻受這套影響很深,他后來(lái)回顧谷歌早期時(shí)說(shuō)過(guò)一句話(huà):

“人工智能會(huì)是谷歌的終極版本。終極搜索引擎應(yīng)該能理解整個(gè)互聯(lián)網(wǎng),也能精準(zhǔn)理解你要什么,然后給你正確的答案。”

那是2000年,也就是谷歌成立兩年后。那時(shí)沒(méi)人知道LLM是什么,更沒(méi)有ChatGPT。

而谷歌第一次真正意義上的“語(yǔ)言模型實(shí)驗(yàn)”,是從一個(gè)非常谷歌式的故事開(kāi)始的。

2000 年左右,谷歌的早期員工 George Hinton 和天才工程師諾姆(Transformer 論文主要作者之一)在閑聊時(shí)提出了一個(gè)論斷:

“如果你能把一段數(shù)據(jù)壓縮,再無(wú)損還原,那從技術(shù)上講,你必須真的‘理解’了它。”

這句話(huà)一下戳中了諾姆。他意識(shí)到,如果壓縮=理解,那搜索里的語(yǔ)言建模、概率預(yù)測(cè)就可以反過(guò)來(lái)當(dāng)“理解機(jī)器”的基礎(chǔ)。

于是,兩人干脆停掉手頭工作,一頭扎進(jìn)語(yǔ)言模型和數(shù)據(jù)壓縮。后來(lái),他們搞出了谷歌第一個(gè)真正意義上的“模型”產(chǎn)品—— “你不是要找:xxx”(拼寫(xiě)糾錯(cuò))。

這是一個(gè)非常小的應(yīng)用場(chǎng)景,系統(tǒng)會(huì)自動(dòng)糾正用戶(hù)的錯(cuò)誤輸入,既改善了用戶(hù)體驗(yàn),也節(jié)約了谷歌巨大的基礎(chǔ)設(shè)施成本(少跑一堆無(wú)意義查詢(xún))。這是谷歌第一次把“概率語(yǔ)言模型”實(shí)打?qū)嵉胤胚M(jìn)了搜索產(chǎn)品里。

這個(gè)項(xiàng)目后來(lái)進(jìn)化成一個(gè)被內(nèi)部昵稱(chēng)為 PHIL(Probabilistic Hierarchical Inferential Learner) 的“龐大”語(yǔ)言模型。

從表面上看,谷歌只不過(guò)做了一個(gè)更聰明的輸入框。但從這時(shí)開(kāi)始,搜索背后已經(jīng)在悄悄變成一臺(tái)建模世界與人類(lèi)語(yǔ)言的機(jī)器。

/ 02 /

大煉模型:貓、YouTube 與千億美元

真正讓谷歌拿到通往AI船票的是,Google Brain(谷歌大腦)的成立。

2011年,吳恩達(dá)剛剛從斯坦福人工智能實(shí)驗(yàn)室 SAIL 到谷歌兼職。當(dāng)時(shí),吳恩達(dá)正與團(tuán)隊(duì)探索一種無(wú)監(jiān)督大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,目標(biāo)是讓系統(tǒng)從未經(jīng)標(biāo)記的圖像中自動(dòng)學(xué)習(xí)結(jié)構(gòu)特征。

這個(gè)判斷在當(dāng)時(shí)是少見(jiàn)的,因?yàn)樯疃葘W(xué)習(xí)仍被懷疑,主流研究者認(rèn)為“神經(jīng)網(wǎng)絡(luò)太慢、太不穩(wěn)定”。

但這種想法卻深深吸引了當(dāng)時(shí)谷歌最頂級(jí)的系統(tǒng)工程師杰夫·迪恩。

在此之前,谷歌曾經(jīng)嘗試過(guò)兩次構(gòu)建大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),但兩個(gè)項(xiàng)目都不太成功。所以,谷歌的研究團(tuán)隊(duì)心里一直有個(gè)疑問(wèn):大規(guī)模神經(jīng)網(wǎng)絡(luò)真的能在谷歌的基礎(chǔ)設(shè)施上運(yùn)行嗎

于是,兩人一拍即合,并拉上了神經(jīng)科學(xué)博士 Greg Corrado,開(kāi)始著手構(gòu)建一個(gè)非常龐大的深度神經(jīng)網(wǎng)絡(luò)模型,這個(gè)項(xiàng)目就是“谷歌大腦”。

要構(gòu)建大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),就需要一個(gè)系統(tǒng)來(lái)運(yùn)行它。當(dāng)時(shí)的主流觀(guān)點(diǎn)認(rèn)為,大模型必須在同一臺(tái)機(jī)器上同步訓(xùn)練。但杰夫·迪恩卻選擇了反直覺(jué)的路線(xiàn):把網(wǎng)絡(luò)拆到幾千臺(tái)CPU上,跨數(shù)據(jù)中心異步訓(xùn)練,用“過(guò)時(shí)參數(shù)”繼續(xù)訓(xùn)練。

理論上,這聽(tīng)起來(lái)像是一場(chǎng)災(zāi)難;實(shí)踐中,它卻跑通了。這就是著名的“DistBelief”系統(tǒng)

于是,2012 年,那篇名為《使用大規(guī)模無(wú)監(jiān)督學(xué)習(xí)構(gòu)建高級(jí)特征》的論文出現(xiàn)了,它還有一個(gè)更出名的名字:“貓論文”。

具體來(lái)說(shuō),他們使用一千臺(tái)不同機(jī)器上的16000個(gè)CPU核心,訓(xùn)練了一個(gè)大型九層神經(jīng)網(wǎng)絡(luò),通過(guò)無(wú)監(jiān)督學(xué)習(xí)識(shí)別 YouTube 視頻中的貓。

在那之前,AI識(shí)別物體需要人類(lèi)先打標(biāo)簽。但谷歌的這個(gè)九層神經(jīng)網(wǎng)絡(luò),在看了無(wú)數(shù)個(gè)小時(shí)的 YouTube 視頻后,自己學(xué)會(huì)認(rèn)識(shí)“貓”。它證明了無(wú)監(jiān)督學(xué)習(xí)的可行性:機(jī)器可以自己從數(shù)據(jù)中提煉規(guī)律。

比起貓論文對(duì)AI行業(yè)的影響,更顯著的是其所帶來(lái)的商業(yè)價(jià)值。因?yàn)樗呱艘环N新的分發(fā)機(jī)制:推薦系統(tǒng)機(jī)制。

當(dāng)時(shí),YouTube正努力轉(zhuǎn)型為更全面的網(wǎng)站,試圖吸引用戶(hù)觀(guān)看更多視頻,構(gòu)建信息流,延長(zhǎng)用戶(hù)停留時(shí)間等等。要做到這一點(diǎn),推薦系統(tǒng)需要根據(jù)用戶(hù)自己撰寫(xiě)的視頻標(biāo)題和描述來(lái)確定推送內(nèi)容。

但問(wèn)題在于,絕大部分用戶(hù)很難精準(zhǔn)描述他們上傳的視頻內(nèi)容,這就導(dǎo)致系統(tǒng)無(wú)法實(shí)現(xiàn)精準(zhǔn)推薦。

而“貓論文”第一次證明:基于 DistBelief 的深度神經(jīng)網(wǎng)絡(luò),可以直接從視頻本身學(xué)出內(nèi)容,自動(dòng)理解畫(huà)面和主題,然后利用這些數(shù)據(jù)來(lái)確定應(yīng)該向用戶(hù)推送哪些視頻。

于是,谷歌迅速將這套技術(shù)評(píng)估YouTube的推薦算法,也奠定了其作為全球最大視頻平臺(tái)的基礎(chǔ),

后來(lái),F(xiàn)acebook 、Instagram和字節(jié)跳動(dòng)紛紛開(kāi)始效仿這一機(jī)制,并在后面10年成為全世界最主流的休閑娛樂(lè)方式。

也就是說(shuō),在世人都知道 ChatGPT 之前,AI已經(jīng)將開(kāi)始塑造我們所有人的人類(lèi)生活,并創(chuàng)造數(shù)千億美元的收入。

而這一切就始于谷歌。

/ 03 /

收購(gòu)DeepMind:是巔峰,也是拐點(diǎn)

谷歌始終沒(méi)有放緩招募頂級(jí)AI人才的腳步。

2012年,谷歌在與百度的競(jìng)爭(zhēng)中勝出,以4400萬(wàn)美元的價(jià)格收購(gòu)了一家名為 DNN(深度神經(jīng)網(wǎng)絡(luò))研究公司,這家公司是由杰夫·辛頓、亞歷克斯·克里熱夫斯基和伊利亞·蘇茨克維爾創(chuàng)建的。

當(dāng)然,真正讓谷歌在AI產(chǎn)業(yè)確立統(tǒng)治力的,是對(duì)于DeepMind的收購(gòu)。

2010 年,神經(jīng)科學(xué)博士德米斯·哈薩比斯、博士后謝恩·萊格和兒時(shí)好友穆斯塔法·蘇萊曼創(chuàng)立了DeepMind。其創(chuàng)立目標(biāo)非常宏大,即“解決智能,并利用它來(lái)解決所有其他問(wèn)題”(solve intelligence and use it to solve everything else)

到了2013年底至2014年初,DeepMind 接到了多家公司的收購(gòu)要約,其中也包括了扎克伯格和馬斯克。

在這場(chǎng)競(jìng)爭(zhēng)里,谷歌最終勝出了。原因是,DeepMind 的創(chuàng)始團(tuán)隊(duì)與 Facebook、特斯拉在理念上始終存在分歧。

哈薩比斯堅(jiān)持,DeepMind 必須保持獨(dú)立性,并設(shè)立一個(gè)擁有否決權(quán)的獨(dú)立監(jiān)管委員會(huì),以確保公司的長(zhǎng)期使命不會(huì)被短期商業(yè)目標(biāo)稀釋。但扎克伯格并不同意讓哈薩比斯繼續(xù)掌握 DeepMind 的控制權(quán)

相比之下,拉里·佩奇的態(tài)度截然不同。他一直把谷歌視作一家以人工智能為核心的公司,對(duì) DeepMind的使命高度認(rèn)同,也愿意給團(tuán)隊(duì)足夠的自主權(quán)

谷歌向 DeepMind 承諾,DeepMind可以繼續(xù)留在倫敦,專(zhuān)注于純粹的“智能”研究,而無(wú)需為谷歌內(nèi)部的產(chǎn)品服務(wù)工作,因?yàn)楣雀枰呀?jīng)有Google Brain團(tuán)隊(duì)在負(fù)責(zé)產(chǎn)品落地。

同時(shí),谷歌還擁有 DeepMind 研究所需的全部計(jì)算基礎(chǔ)設(shè)施。

最終,谷歌在2014年1月收購(gòu)了 DeepMind,交易價(jià)格為 5.5 億美元。

這筆收購(gòu)讓谷歌擁有了當(dāng)時(shí)最豪華的AI研究團(tuán)隊(duì),幾乎統(tǒng)治了AI領(lǐng)域。

但讓人完全沒(méi)有想到的是,這次收購(gòu)就像蝴蝶扇動(dòng)翅膀一樣,引發(fā)了一連串連谷歌自己都無(wú)法預(yù)料的連鎖反應(yīng)。

甚至可以說(shuō),從 OpenAI 的創(chuàng)立,到ChatGPT的誕生,再到 Anthropic、xAI 等公司的相繼出現(xiàn),今日AI產(chǎn)業(yè)的幾乎每一條重要支線(xiàn),都可以追溯到那場(chǎng)收購(gòu)。

在當(dāng)時(shí)看來(lái),此次收購(gòu)產(chǎn)生了兩個(gè)直接的后果:

一方面,它直接激怒了馬斯克。DeepMind 被谷歌買(mǎi)走,谷歌又在全球瘋狂招募頂尖AI研究員,這讓馬斯克意識(shí)到:如果再不做點(diǎn)什么,未來(lái)人類(lèi)對(duì)AI的控制權(quán)可能會(huì)高度集中在少數(shù)公司手里。

2015 年夏天,馬斯克和奧特曼在 Rosewood 酒店組織了一場(chǎng)晚宴。這次晚宴的目的是向被谷歌和 Facebook 招募的 AI 研究人員發(fā)出邀請(qǐng),詢(xún)問(wèn)他們離開(kāi)的條件。

他們向這些研究人員提出的方案是:成立一個(gè)新的非營(yíng)利性人工智能研究實(shí)驗(yàn)室,不受谷歌或Facebook等資本主義機(jī)構(gòu)的控制,致力于“以最有可能造福全人類(lèi)的方式推進(jìn)數(shù)字智能”。

盡管大多數(shù)研究人員拒絕了邀請(qǐng),但AlexNet的主要貢獻(xiàn)者、Google Brain團(tuán)隊(duì)的 Ilya Sutskever 對(duì)此提議表示了興趣。

除了Ilya之外,還有大約七位研究人員離開(kāi)了谷歌,加入了馬斯克和奧特曼的團(tuán)隊(duì),共同創(chuàng)建了OpenAI。

另一方面,這筆收購(gòu)也激化了AI領(lǐng)域的巨頭競(jìng)爭(zhēng),并加速了 Anthropic和xAI 等公司的誕生。

谷歌收購(gòu) DeepMind 及其后谷歌 AI 人才流失至 OpenAI,導(dǎo)致了 OpenAI 內(nèi)部的“夢(mèng)之隊(duì)”不斷組建和變化。Dario Amodei 在 OpenAI 取得了重大進(jìn)展后,最終也離開(kāi)了 OpenAI,創(chuàng)辦了 Anthropic。

在這筆收購(gòu)收購(gòu)后,馬斯克也開(kāi)始意識(shí)到,特斯拉必須在 AI 上建立自己的技術(shù)路徑,不能把未來(lái)押在外部團(tuán)隊(duì)上。在從OpenAI 撤資后,馬斯克創(chuàng)建了xA 。

隨著 OpenAI 的壯大,DeepMind 收購(gòu)的附帶影響將谷歌最大的敵人 Microsoft 重新帶回了舞臺(tái)中心。Microsoft 最終通過(guò)向 OpenAI 投資數(shù)十億美元,獲得了對(duì)其技術(shù)的獨(dú)家授權(quán),從而對(duì)谷歌的核心搜索業(yè)務(wù)構(gòu)成了“生存威脅”。

谷歌唯一值得慶幸的是,也正是這些團(tuán)隊(duì)的出走,最終讓其免于因壟斷而被迫處罰或者拆分。

/ 04 /

被英偉達(dá)逼出來(lái)的TPU

在整合AI領(lǐng)域最頂級(jí)研究資源的同時(shí),谷歌還干了一件很牛逼的事情:搞TPU

2013年,當(dāng) AlexNet 的主要貢獻(xiàn)者之一 Alex Krizhevsky 加入谷歌時(shí),他震驚地發(fā)現(xiàn)他們現(xiàn)有的所有機(jī)器學(xué)習(xí)模型都運(yùn)行在CPU上。

此前,人們?cè)啻我笫褂肎PU,因?yàn)闄C(jī)器學(xué)習(xí)工作負(fù)載非常適合并行運(yùn)行,但谷歌的基礎(chǔ)設(shè)施團(tuán)隊(duì)卻拒絕了,他們認(rèn)為擴(kuò)展和多樣化GPU集群會(huì)增加復(fù)雜性,所以還是保持簡(jiǎn)單為好。“這對(duì)我們來(lái)說(shuō)似乎并不重要。”

于是,Alex Krizhevsky自己去當(dāng)?shù)氐碾娮由痰曩?gòu)買(mǎi)了一臺(tái)GPU機(jī)器,將其插到網(wǎng)絡(luò)上,開(kāi)始用這臺(tái)單獨(dú)的硬件訓(xùn)練他的神經(jīng)網(wǎng)絡(luò)模型。

直到2014年,谷歌工程主管 杰夫·迪恩(Jeff Dean) 和 Google Brain 負(fù)責(zé)人 約翰·吉安南德里亞(John Giannandrea)才決定,正式將GPU納入谷歌的數(shù)據(jù)中心。

最終,他們決定向英偉達(dá)訂購(gòu)4萬(wàn)塊GPU,這筆訂單價(jià)值1.3億美元。這筆訂單的預(yù)算之高,使得采購(gòu)請(qǐng)求被提交給 Larry Page 親自審批。

盡管財(cái)務(wù)部門(mén)曾試圖否決這筆交易,但 Larry Page 親自批準(zhǔn)了這筆交易,因?yàn)樗J(rèn)為深度學(xué)習(xí)是谷歌的未來(lái)。

按當(dāng)時(shí)英偉達(dá)的體量,這幾乎是改變命運(yùn)級(jí)別的訂單。這筆訂單也為英偉達(dá)提供了信心,使其相信 AI 將在未來(lái)成為一項(xiàng)巨大的業(yè)務(wù)。

隨著神經(jīng)網(wǎng)絡(luò)技術(shù)被集成到 Google Photos、Gmail 建議和 AdWords 等產(chǎn)品中,谷歌很快發(fā)現(xiàn)這些AI應(yīng)用能夠帶來(lái)可觀(guān)的收入回報(bào)。因此,谷歌在 1.3 億美元的基礎(chǔ)上,又花費(fèi)了數(shù)億美元繼續(xù)購(gòu)買(mǎi) GPU。

在大規(guī)模購(gòu)買(mǎi)GPU的同時(shí),谷歌也發(fā)現(xiàn)了兩個(gè)問(wèn)題:

第一,太燒錢(qián)。像谷歌這樣規(guī)模的公司,一旦神經(jīng)網(wǎng)絡(luò)開(kāi)始運(yùn)作,需要進(jìn)行大量的矩陣乘法運(yùn)算。谷歌發(fā)現(xiàn)自己每年將需要“向英偉達(dá)輸送數(shù)億,很快就是數(shù)十億美元”。

第二,GPU不夠用了。當(dāng)谷歌推出語(yǔ)音識(shí)別功能(利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)),并很快在 Nexus 手機(jī)上取得了成功。

Jeff Dean 算了一筆賬,發(fā)現(xiàn)如果人們每天使用一項(xiàng)AI功能三分鐘,而谷歌將其推廣到所有十億部安卓手機(jī)上,那么需要比目前整個(gè)谷歌擁有的數(shù)據(jù)中心數(shù)量多一倍的數(shù)據(jù)中心才能處理它

解決辦法只有兩個(gè):要么把基礎(chǔ)設(shè)施規(guī)模再翻一倍,要么自己構(gòu)建一種新的定制芯片,專(zhuān)門(mén)針對(duì)谷歌的特定用例進(jìn)行優(yōu)化(即張量乘法)。

這就是后來(lái) TPU 出現(xiàn)的背景。

TPU 被設(shè)計(jì)成一種應(yīng)用特定的集成電路(ASIC),它雖然不能用于圖形處理,但專(zhuān)門(mén)用于神經(jīng)網(wǎng)絡(luò)的矩陣乘法,效率遠(yuǎn)高于當(dāng)時(shí)的 GPU。

TPU 的核心目標(biāo)是讓谷歌能夠在不將其整個(gè)基礎(chǔ)設(shè)施規(guī)模翻倍的情況下,擴(kuò)展其數(shù)據(jù)中心的能力。

TPU的原理很簡(jiǎn)單,就是降低計(jì)算精度,提高計(jì)算效率。舉個(gè)例子,它會(huì)將4586.8272這樣的數(shù)字四舍五入到4586.8,甚至可能直接四舍五入到4586,小數(shù)點(diǎn)后為空。

這樣一來(lái),就可以在芯片上使用相同的功耗、內(nèi)存和晶體管數(shù)量,每秒執(zhí)行更多的計(jì)算,更快地輸出結(jié)果。

如今,TPU已經(jīng)成為谷歌 AI 戰(zhàn)略的核心基礎(chǔ)設(shè)施。谷歌內(nèi)部也已經(jīng)建立了一個(gè)規(guī)模幾乎與英偉達(dá)相當(dāng)?shù)男酒邪l(fā)體系,不僅服務(wù)于谷歌自身,也服務(wù)于谷歌云客戶(hù)。

在商業(yè)上,TPU 還有另外一層意義:避免了被英偉達(dá)收“稅”。

目前,英偉達(dá)的 GPU 系統(tǒng)毛利率高達(dá) 75% 至 80%,這意味著芯片成本可能有約5倍的加價(jià)。而谷歌通過(guò)自研,避免了支付這種巨大的溢價(jià)。這種縱向一體化的能力,已經(jīng)反過(guò)來(lái)變成了模型競(jìng)爭(zhēng)力的一部分。

/ 05 /

Transformer的錯(cuò)判和紅色警報(bào)

在Transformer出現(xiàn)之前,谷歌團(tuán)隊(duì)已經(jīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)重寫(xiě)了谷歌翻譯。

但一些局限性也逐漸顯現(xiàn)。其中一個(gè)主要問(wèn)題是,模型“遺忘”信息的速度太快。用現(xiàn)在的話(huà)說(shuō),就是上下文窗口很短。

谷歌改進(jìn)算法的方法之一,是使用一種叫做長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的技術(shù)。LSTM 的基本原理是為模型創(chuàng)建一個(gè)持久的或長(zhǎng)短期記憶,這里需要稍微動(dòng)動(dòng)腦,以便模型在執(zhí)行一系列步驟時(shí)能夠記住上下文。

2016年,谷歌翻譯就采用了LSTM。這使得錯(cuò)誤率降低了60%。這是一個(gè)巨大的飛躍。當(dāng)時(shí),大家都認(rèn)為L(zhǎng)STM 將會(huì)把語(yǔ)言模型和大型語(yǔ)言模型推向主流。

然而,LSTM也有弊端。雖然它們有效,但計(jì)算量非常大,而且并行化效果不佳。

于是,谷歌大腦內(nèi)部的一個(gè)團(tuán)隊(duì)開(kāi)始尋找一種更好的架構(gòu),它既要具備LSTM的優(yōu)點(diǎn),又不能過(guò)快遺忘上下文信息,同時(shí)還要能夠更好地并行化和擴(kuò)展。

一位名叫雅各布·烏什科雷特的研究員一直在嘗試拓展語(yǔ)言處理中“注意力”的范圍

如果模型不再關(guān)注眼前的詞語(yǔ),而是關(guān)注整個(gè)文本語(yǔ)料庫(kù),預(yù)測(cè)下一個(gè)翻譯詞應(yīng)該是什么,會(huì)怎么樣呢?

如果要這樣做,該模型需要大量的計(jì)算能力才能完成這項(xiàng)工作,但它具有極強(qiáng)的并行化能力。

雅各布開(kāi)始與大腦團(tuán)隊(duì)的其他幾位成員合作,他們決定把這個(gè)項(xiàng)新技術(shù)目命名為“Transformer”。

一開(kāi)始,他們雖然已經(jīng)實(shí)現(xiàn)了 Transformer 模型,但實(shí)際上它的表現(xiàn)并不比 LSTM 好多少。直到諾姆加入團(tuán)隊(duì),他從頭開(kāi)始重寫(xiě)了整個(gè)代碼庫(kù)。

完工后,Transformer 模型徹底碾壓了基于 LSTM 的谷歌翻譯方案,也證明了一件事:模型規(guī)模越大,效果就越好

在Transformer 論文發(fā)布一年后,谷歌又開(kāi)發(fā)出了大型語(yǔ)言模型 BERT。

很多人認(rèn)為谷歌在論文發(fā)表后就對(duì)Transformer架構(gòu)無(wú)所作為,事實(shí)并非如此。他們用基于Transformer的大型語(yǔ)言模型做了很多工作。但在當(dāng)時(shí),谷歌確實(shí)沒(méi)有將其視為一次全面的技術(shù)平臺(tái)變革

事實(shí)上,在 ChatGPT 之前,谷歌已經(jīng)有了一個(gè)聊天機(jī)器人。當(dāng)時(shí),諾姆已經(jīng)看到了Transformer模型的價(jià)值,并向高層游說(shuō),公司應(yīng)該全力以赴轉(zhuǎn)型做一個(gè)巨大的Transformer模型

為此,諾姆還構(gòu)建了一個(gè)聊天機(jī)器人,叫 Mina。

Mina與ChatGPT 很接近,但沒(méi)有ChatGPT 那樣具備訓(xùn)練后的安全機(jī)制,所以很容易失控。比如,你只要問(wèn)它誰(shuí)該死,它就會(huì)列出一些應(yīng)該死的人的名字。也正因?yàn)槿绱耍雀枋冀K沒(méi)有發(fā)布它。

除了失控風(fēng)險(xiǎn)外,谷歌沒(méi)有發(fā)布Mina的原因還有兩個(gè):

第一,如果把谷歌搜索頁(yè)面變成一個(gè)聊天機(jī)器人,那么用戶(hù)將直接得到答案,而不是網(wǎng)站鏈接,這將直接影響谷歌的收入。盡管谷歌現(xiàn)在在考慮這個(gè)問(wèn)題,但在2021年之前,提出這樣的建議是絕對(duì)行不通的。

第二,直接給出答案,存在法律風(fēng)險(xiǎn)。當(dāng)時(shí),有相當(dāng)多的輿論認(rèn)為谷歌正在剝奪出版商與讀者之間的直接聯(lián)系,為此谷歌已經(jīng)花了數(shù)十年時(shí)間來(lái)對(duì)抗公眾輿論和法院判決。

出于這些考慮,即使諾姆和谷歌內(nèi)部都認(rèn)為基于 Transformer 構(gòu)建 LLM,并為其添加聊天機(jī)器人界面,可能是一個(gè)極具吸引力的產(chǎn)品,但在當(dāng)時(shí)并沒(méi)有迫切的理由去做這件事。

2021年,諾姆離開(kāi)了谷歌,創(chuàng)立了聊天機(jī)器人公司 Character AI。

谷歌的誤判,卻給了OpenAI打開(kāi)了一個(gè)成功的契機(jī)。

2018年6月,OpenAI 發(fā)布了一篇論文,描述了他們?nèi)绾卫肨ransformer模型,并開(kāi)發(fā)了一種新的方法,即先在互聯(lián)網(wǎng)上大量通用文本上對(duì)其進(jìn)行預(yù)訓(xùn)練,然后將這種通用預(yù)訓(xùn)練微調(diào)到特定的用例。

他們還宣布,他們已經(jīng)訓(xùn)練并運(yùn)行了該方法的第一個(gè)概念驗(yàn)證模型,他們稱(chēng)之為 GPT-1(生成式預(yù)訓(xùn)練 Transformer 版本 1)。這與 BERT 的出現(xiàn)時(shí)間大致相同。

2022年底,ChatGPT出現(xiàn)了。

ChatGPT的成功,徹底顛覆了谷歌對(duì)于AI的判斷:

在此前相當(dāng)長(zhǎng)時(shí)間里,谷歌、皮猜、拉里以及所有人都把AI視為持續(xù)性創(chuàng)新,谷歌可以利用AI持續(xù)鞏固我們?cè)谒蓄I(lǐng)先產(chǎn)品中的領(lǐng)先地位。在ChatGPT 問(wèn)世后,一夜之間,AI就會(huì)從一種持續(xù)性創(chuàng)新轉(zhuǎn)變?yōu)轭嵏残詣?chuàng)新。

甚至說(shuō),這種變化對(duì)谷歌構(gòu)成了一種生存威脅。這意味著,谷歌過(guò)去10 -20年在人工智能領(lǐng)域積累的許多優(yōu)勢(shì),都變成了劣勢(shì)。

/ 06 /

重回牌桌中央

在ChatGPT發(fā)布后,桑達(dá)爾在公司內(nèi)部發(fā)布了紅色警報(bào)。

這是谷歌的最高級(jí)別危機(jī)模式,這意味著公司需要立即采取“全體總動(dòng)員”(all-hands-on-deck)的應(yīng)對(duì)措施。

為了挽回危局,谷歌做了兩件事:

第一,組織架構(gòu)的徹底重組。皮猜認(rèn)為,谷歌不能再有兩支AI團(tuán)隊(duì),因此他做出了重大的組織決策:將Google Brain和DeepMind 合并為一個(gè)實(shí)體,即 Google DeepMind

同時(shí),他任命 DeepMind 聯(lián)合創(chuàng)始人哈薩比斯為合并后的 Google DeepMind 首席執(zhí)行官,主導(dǎo)整個(gè)谷歌 AI 部門(mén)的發(fā)展方向。

盡管,這一決定違反了最初收購(gòu) DeepMind 時(shí)承諾其獨(dú)立性的條款,體現(xiàn)了公司對(duì)AI緊迫性的最高重視。

同時(shí),谷歌決定重新召回頂級(jí)人才。谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林重新作為員工回歸,參與 Gemini 項(xiàng)目的工作。

他們斥巨資與 Character.AI 達(dá)成許可協(xié)議,將諾姆帶回谷歌,讓他與杰夫·迪恩一起擔(dān)任 Gemini 的聯(lián)席技術(shù)負(fù)責(zé)人,其他Google Brain核心成員也加入 DeepMind 團(tuán)隊(duì),共同開(kāi)發(fā) Gemini。

第二,產(chǎn)品和技術(shù)上的集中火力。谷歌決定結(jié)束多模型、多團(tuán)隊(duì)并存的局面,集中資源打造一款旗艦?zāi)P汀?strong>皮猜決定谷歌將標(biāo)準(zhǔn)化并只使用一個(gè)模型,即 Gemini。該模型將用于谷歌內(nèi)部的所有 AI 產(chǎn)品和外部服務(wù)。

同時(shí),谷歌也在內(nèi)部積極推廣Gemini,他們會(huì)聯(lián)系每個(gè)團(tuán)隊(duì),告訴他們Gemini代表著公司的未來(lái),你們需要開(kāi)始尋找將 Gemini 集成到產(chǎn)品中的方法。

Gemini 被設(shè)計(jì)為多模態(tài)(multimodal)模型,能夠處理文本、圖像、視頻和音頻。谷歌以極快的速度構(gòu)建和訓(xùn)練 Gemini,在 2023年5月宣布計(jì)劃后,于 2023年12月就發(fā)布了早期的公共測(cè)試版本,速度之快在谷歌歷史上罕見(jiàn)。

自那之后,谷歌進(jìn)入了一個(gè)罕見(jiàn)的產(chǎn)品加速期:

Gemini 2.5 Pro 橫掃各大榜單,到「香蕉」模型 Nano Banana 的爆火,視頻模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句話(huà)生成一個(gè)虛擬世界。

進(jìn)去今年11月,谷歌接連發(fā)布了Gemini 3和Nano Banana Pro,尤其是 Gemini 3 在各類(lèi)主流基準(zhǔn)上展現(xiàn)了統(tǒng)治級(jí)的表現(xiàn)。

谷歌用一連串“王炸”產(chǎn)品,重新站回了牌桌中央。

/ 07 /

總結(jié)

谷歌在AI上的這二十年里,絕對(duì)是一部充滿(mǎn)戲劇性的啟示錄。

它始于拉里·佩奇對(duì)“理解互聯(lián)網(wǎng)”的天才構(gòu)想,中間迷失于“創(chuàng)新者的困境”和壟斷帶來(lái)的舒適區(qū),最終在生存危機(jī)的緊迫下,完成了一次驚心動(dòng)魄的轉(zhuǎn)折。

這很大程度要?dú)w功于OpenAI的突襲,因?yàn)樗o了谷歌最需要的東西:恐懼。

當(dāng)桑達(dá)爾·皮查伊打破分區(qū)墻,當(dāng)謝爾蓋·布林重回業(yè)務(wù)一線(xiàn),當(dāng)那些分散在Google Brain和DeepMind的天才們終于坐在同一張辦公桌前,谷歌展現(xiàn)出了“體系化的AI力量”。

再把視角拉回到 2000 年的那個(gè)下午。拉里·佩奇曾說(shuō):“人工智能是谷歌的終極版本。”

二十五年過(guò)去了,宿命完成了閉環(huán)。谷歌從來(lái)就不是一家搜索公司。從一開(kāi)始,它就是一家試圖用數(shù)學(xué)和算力窮盡人類(lèi)知識(shí)邊界的AI公司。

如今,那個(gè)大家熟悉的、令人害怕的谷歌,終于回來(lái)了。

文/林白

       原文標(biāo)題 : 谷歌AI往事:隱秘的二十年,與狂奔的365天

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)