国产成人无码视频网站在线观看,免费观看女人高潮流视频,久久无码精品视频免费

當前位置： OFweek 人工智能網(wǎng) > 正文

深讀｜谷歌TPU：專為AI推理時代打造的芯片

2025-11-26 11:27

深毒商業(yè)

關(guān)注

TPU，真的不比GPU差

01

TPU的誕生背景與歷史

谷歌張量處理單元（TPU）的誕生，并非源于某項芯片制造技術(shù)的意外突破，而是基于對數(shù)學(xué)模型和運營物流的深刻洞察。

大約在2013年，谷歌的領(lǐng)導(dǎo)團隊包括Jeff Dean、Jonathan Ross（Groq公司的現(xiàn)任CEO）以及Google Brain團隊，得出了一個令他們震驚的預(yù)測。

他們計算后發(fā)現(xiàn)，，公司就必須將其全球數(shù)據(jù)中心容量翻倍，才能滿足由此產(chǎn)生的巨大計算負載需求。

當時，谷歌主要依賴標準的CPU和GPU來執(zhí)行這些計算任務(wù)。盡管這些通用芯片功能強大，但對于深度學(xué)習(xí)所需的特定重度負載——即大規(guī)模矩陣乘法——其處理效率卻非常低下。如果繼續(xù)采用現(xiàn)有硬件進行大規(guī)模擴展，無論是從財務(wù)成本還是運營角度來看，都將是一場災(zāi)難性的噩夢。

這一緊迫需求催生了一個新的項目。谷歌做出了一項對于軟件公司而言極為罕見的決定：著手打造自己的定制芯片。其目標是創(chuàng)建一款專為單一任務(wù)設(shè)計的ASIC（專用集成電路），來高效運行Tensor Flow神經(jīng)網(wǎng)絡(luò)。

幾個關(guān)鍵時間節(jié)點：

2013~2014：谷歌招募了一支能力超強的團隊，并且也有著很好的運氣，所以該項目進展得極其迅速。團隊僅用15個月的時間就完成了從設(shè)計概念到在數(shù)據(jù)中心實際部署芯片的全部流程——這對于硬件工程項目而言，是一個極其罕見的短周期。

2015：在世人廣泛知道TPU的存在之前，它們就已經(jīng)開始為谷歌最受歡迎的一系列產(chǎn)品提供強大的計算支撐。它們在默默地為谷歌地圖、谷歌翻譯等服務(wù)提供服務(wù)。

2016：直到2016年，谷歌才在I/O大會上正式發(fā)布了TPU。

可以說，解決“數(shù)據(jù)中心容量翻倍”這一緊迫問題，正是TPU存在的根本原因。它并非為游戲娛樂或視頻渲染等通用目的而設(shè)計，而是為了幫助谷歌解決彼時實打?qū)嵉腁I問題而出現(xiàn)的。

正因如此，谷歌十多年來一直在嘗試解決高昂的AI推理成本問題。這也是TPU至今在眾多ASIC項目中脫穎而出的主要原因之一。

02

TPU和GPU的核心差異

要理解它們的區(qū)別，最好回顧每種芯片最初的設(shè)計宗旨。GPU（圖形處理器）是一種“通用型”并行處理器，而TPU（張量處理單元）則是一種“領(lǐng)域?qū)Ｓ眯?rdquo;架構(gòu)。

GPU最初是為圖形處理而設(shè)計的。它們精于并行處理，這使其非常適合AI負載。然而，正因為它們被設(shè)計用來處理從視頻游戲紋理到科學(xué)模擬等各種任務(wù)，所以不可避免地帶有“架構(gòu)包袱”。它們將大量的能耗和芯片面積耗費在了緩存、分支預(yù)測和獨立線程管理等復(fù)雜的通用任務(wù)上。

而TPU則徹底去除了所有的架構(gòu)包袱。它沒有于光柵化或紋理映射的硬件。相反，它使了種被稱作Systolic Array的獨特架構(gòu)。

而這正是TPU的關(guān)鍵差異化所在。在標準的CPU或GPU中，芯片在每一次計算時都需要在內(nèi)存與計算單元之間來回傳輸數(shù)據(jù)。這種持續(xù)的數(shù)據(jù)交換會形成一個瓶頸（即馮·諾依曼瓶頸）。

但在TPU中，數(shù)據(jù)流經(jīng)芯片的方式如同血液流過心臟一般：它僅加載一次數(shù)據(jù)（即權(quán)重），并通過一個大規(guī)模的乘法器陣列來傳遞輸入數(shù)據(jù)，這讓數(shù)據(jù)可以直接傳遞至陣列中的下一個計算單元，全程無需寫回內(nèi)存。

這極大減少了對HBM的讀寫次數(shù)。因此，TPU可以專注于實際計算，而非耗費在等待數(shù)據(jù)傳輸上。

此外，谷歌最新的TPU設(shè)計（Ironwood）優(yōu)化了Sparse Core、提升了HBM的容量和帶寬，讓其可以更好地完成大模型訓(xùn)練與推理。

而在規(guī)模擴展（Scale-out）方面，谷歌采用了光電路交換（OCS）及其3D環(huán)形拓撲網(wǎng)絡(luò)，該方案與NVIDIA的Infini Band和Spectrum-X以太網(wǎng)形成競爭。

核心區(qū)別在于：OCS消除了電交換機和光-電-光轉(zhuǎn)換，這使其在成本和功耗方面極為高效。但也正因如此，OCS不如另兩種方案靈活。因此，谷歌的整個技術(shù)棧再次體現(xiàn)了高度的專業(yè)化，它極其專注于當前的任務(wù)，但無法提供通用型GPU方案那樣的靈活性。

03

TPU與GPU的性能比較與市場分析

在明確了TPU與GPU的差異后，接下來我們看看實際數(shù)據(jù)。由于谷歌并未主動公開這些數(shù)據(jù)，獲取性能細節(jié)頗為困難。但根據(jù)對大量前谷歌員工、客戶和競爭對手（包括AMD、NVIDIA等）的采訪分析，大多數(shù)人都認為，TPU更具成本效益，并且每瓦性能更好。

一位谷歌員工是這么說的：“如果應(yīng)用場景恰當，TPU相比GPU能夠提供遠超預(yù)期的每美元性能表現(xiàn)。它們所需的能源消耗更低，產(chǎn)生的熱量也更少。更重要的是，它們具備更高的能源效率和更小的環(huán)境污染，這使得TPU成為理想的解決方案。”

“相比GPU，TPU的使用案例確實有所局限，通用性不強。但對于特定的應(yīng)用，它們能夠帶來高達1.4倍的性能提升。對于那些在GPU和TPU之間權(quán)衡選擇的客戶而言，這是一筆相當可觀的成本節(jié)約。”

一位前谷歌部門主管也就TPU相較于GPU能顯著降低成本的事情發(fā)表了評論：“TPUv6的效率比GPU高出60%至65%，而用前幾代產(chǎn)品進行比較也有40%至45%的提升。”

許多專家還提及了TPU在速度上的優(yōu)勢。一位前谷歌高管表示，在訓(xùn)練動態(tài)模型（如類似搜索的工作負載）方面，TPU比GPU快5倍。

此外，一位同時使用NVIDIAGPU和谷歌TPU的客戶在一次訪談中，也闡述了TPU的長期經(jīng)濟效益：“在價格與性價比方面，TPU一定是能為你帶來更高的價值回報的那個。只要你確定代碼能在TPU上運行，那么堅持使用TPU就是更好的。”

“我們發(fā)現(xiàn)，對于已在TPU上運行的工作負載，未來收益會更高，因為隨著谷歌推出更新一的TPU，舊型號的價格會大幅跳水。”

“舉個例子，我記得v4剛問世時，v2的定價很快降到了極低，與任何一款NVIDIAGPU相比，使用它幾乎相當于免費。”

“而且，谷歌也提供了可靠的長期技術(shù)支持，他們會一直維持舊型號TPU的運維，這使它們變得十分廉價。如果你對模型訓(xùn)練的即時性沒有硬性要求，愿意接受‘等待一周’的時間成本（即使訓(xùn)練任務(wù)本身只用三天），你的總成本可以因此降低五分之一。”

此外，另一位AMD員工也承認專用集成電路（ASIC）帶來的效益：“根據(jù)我在FPGA領(lǐng)域積累的經(jīng)驗以及行業(yè)普遍觀察到的趨勢，我認為ASIC完全能夠?qū)崿F(xiàn)與GPU相比尺寸縮小30%、功耗降低約50%的目的。”

我們也從一位曾在谷歌芯片部門工作的前員工那里獲得了性能對比數(shù)據(jù)：“當我查看已公開的數(shù)據(jù)時，與NVIDIA產(chǎn)品相比，TPU的性能提升幅度非常大。根據(jù)具體的應(yīng)用場景不同，這一提升幅度從25%—30%不等，甚至在某些情況下接近翻倍。”

他進一步總結(jié)了其本質(zhì)原因：“這本質(zhì)上就是為完美執(zhí)行單一任務(wù)而設(shè)計的極致定制化架構(gòu)，與通用型設(shè)計之間的根本區(qū)別。”

而在硬件之外，其實TPU的真正核心優(yōu)勢并非硬件本身，而是體現(xiàn)在其軟件生態(tài)系統(tǒng)以及谷歌對這一系統(tǒng)的深度優(yōu)化上。

許多人擔(dān)憂，像TPU這樣的英偉達“競爭者”都面臨著同一個難題：如何追趕英偉達飛速的發(fā)展腳步。本月，一位前谷歌云員工直接回應(yīng)了這種擔(dān)憂，他認為TPU的改進速度實際上快于英偉達：“TPU新一代產(chǎn)品在‘每美元性能’上的提升幅度，比英偉達的產(chǎn)品迭代帶來的提升要顯著得多。”

谷歌在HotChips2025活動上發(fā)布的最新數(shù)據(jù)也證實了這一觀點：谷歌聲稱，TPUv7相較于TPUv6e(Trillium)，在“每瓦性能”上提升了100%。

即使是英偉達的堅定支持者，也不敢輕易小覷TPU，因為連黃仁勛本人也對谷歌TPU給予極高評價。他在與BradGerstner的播客中提到，在ASIC領(lǐng)域中，谷歌的TPU是一個“特例”。

幾個月前，《華爾街日報》的一篇報道也側(cè)面印證了TPU的影響力：在科技媒體The Information報道OpenAI已開始租用谷歌TPU來運行ChatGPT后，黃仁勛立即致電Altman求證此事，并暗示愿意重啟（與OpenAI的）投資談判。

值得玩味的是，隨后英偉達官方X賬號發(fā)布了一張文章截圖，其中OpenAI否認了使用谷歌自研芯片的計劃。至少可以斷言，英偉達正對TPU保持著高度的警惕與密切的關(guān)注。

那么，在看到這些令人印象深刻的數(shù)據(jù)后，人們不禁要問：既然TPU如此出色，為何沒有更多的客戶使用它呢？

04

推廣TPU的最大難題

在于生態(tài)系統(tǒng)與多云限制

當前TPU普及面臨的主要問題是生態(tài)系統(tǒng)。NVIDIA的CUDA已經(jīng)深深烙印在大多數(shù)AI工程師的思維中，這是因為他們從大學(xué)階段就開始學(xué)習(xí)和使用CUDA。

谷歌雖然在內(nèi)部為TPU開發(fā)了成熟的生態(tài)，但直到最近才開始對外開放。TPU采用的是JAX和TensorFlow組合，而行業(yè)主流是CUDA和PyTorch（盡管TPU現(xiàn)在也開始支持PyTorch）。谷歌正努力提高其生態(tài)系統(tǒng)的兼容性和可轉(zhuǎn)換性，但這涉及庫（Libraries）和整個生態(tài)的構(gòu)建，是需要數(shù)年時間才能完善的長期工程。

不過，一旦到了“推理”環(huán)節(jié)，尤其是Reasoning Inference，CUDA的重要性就會大幅下降。因此，TPU在推理市場擴大市場份額的機會要遠高于訓(xùn)練市場（盡管TPU在訓(xùn)練方面表現(xiàn)同樣出色，Gemini3.0就是最好的證明）。

此外，多云環(huán)境也是TPU普及的又一個巨大障礙。

眾所周知，AI工作負載與數(shù)據(jù)存儲位置緊密關(guān)聯(lián)，跨云傳輸數(shù)據(jù)會產(chǎn)生高昂的成本（即出口流量費）。目前，NVIDIAGPU可在所有三大超大規(guī)模云服務(wù)商（AWS、Azure、GCP）上獲取；然而，TPU卻僅限于谷歌云平臺提供。這種單一性極大地限制了多云客戶對TPU的選擇。

一位同時使用TPU和GPU的客戶對此有精辟的解釋：“目前，NVIDIA最大的優(yōu)勢在于可及性——在我工作過的三家公司都是如此。所有公司和客戶的數(shù)據(jù)幾乎都存儲在AWS、谷歌云或Azure這三大主流云平臺之一，而這三家云都提供NVIDIAGPU。”

“有時數(shù)據(jù)量很大，并且存儲在特定的云中。這種情況下，將工作負載運行在數(shù)據(jù)所在的云平臺會便宜得多。將數(shù)據(jù)從一個云遷出涉及高昂的出口流量費用（EgressCost）。”

“如果你使用的是NVIDIA/CUDA工作負載，我們可以直接在Azure上申請一臺配備相同GPU的虛擬機，無需任何代碼改動，即可運行。”

“但如果完全依賴TPU，一旦谷歌單方面決定‘現(xiàn)在必須多付10倍費用’，我們就會陷入困境。因為屆時我們將不得不重寫所有的代碼。這正是大家害怕過度依賴TPU的唯一原因。而亞馬遜的Trainium和Inferentia芯片也存在同樣的風(fēng)險。”

其實，谷歌內(nèi)部對這些問題心知肚明，因此，關(guān)于是將TPU保留為谷歌的內(nèi)部資產(chǎn)以深化GCP的護城河，還是對外開放銷售，一直是內(nèi)部持續(xù)爭論的話題。

許多前谷歌員工認為，谷歌遲早會向外部提供TPU，也許是通過一些新生云平臺，而非與微軟和亞馬遜這兩大主要競爭對手直接合作。開放生態(tài)系統(tǒng)、提供廣泛的技術(shù)支持，使其更具通用性，是實現(xiàn)這一戰(zhàn)略的第一步。

一位前谷歌員工還透露，谷歌去年才組建了一支更側(cè)重銷售的團隊來推廣TPU，這表明大力推銷TPU并不是一項持續(xù)多年的策略，而是組織內(nèi)部一個相對較新的動態(tài)。

請注意,本文編譯自文末載明的原始鏈接,不代表深毒商業(yè)立場。如果您對本文有任何想法或見解,歡迎在評論區(qū)留言互動探討。

- END-

原文標題 : 深讀｜谷歌TPU：專為AI推理時代打造的芯片