GoogleTPU:為AI推理任務(wù)準(zhǔn)備的Ironwood
芝能智芯出品
在2025年Google Cloud Next大會(huì)上,Google正式發(fā)布了其第七代張量處理單元(TPU),代號(hào)“Ironwood”。
作為Google迄今為止性能最強(qiáng)大的AI芯片,Ironwood專為AI推理任務(wù)設(shè)計(jì),標(biāo)志著AI技術(shù)從傳統(tǒng)的“反應(yīng)式”模型向“主動(dòng)式”智能體的轉(zhuǎn)型。相較于2018年的第一代TPU,Ironwood的推理性能提升了3600倍,效率提高了29倍。
單芯片配備192GB高頻寬內(nèi)存(HBM),峰值算力達(dá)4614 TFLOPs,并支持1.2Tbps的芯片間互連(ICI)帶寬。
相較于前代Trillium,其能效提升了兩倍,最高配置的9216顆芯片集群總算力高達(dá)42.5 Exaflops,超過全球最大超級計(jì)算機(jī)El Capitan的24倍,Ironwood預(yù)計(jì)將于今年晚些時(shí)候通過Google Cloud向客戶開放,為開發(fā)者提供前所未有的AI計(jì)算能力。
Part 1
Ironwood的技術(shù)架構(gòu)與創(chuàng)新
Ironwood是Google基于5納米工藝打造的第七代TPU,其硬件規(guī)格在AI芯片領(lǐng)域樹立了新標(biāo)桿。
每顆芯片配備192GB的高頻寬內(nèi)存(HBM),峰值算力達(dá)到4614 TFLOPs,并通過1.2Tbps的芯片間互連(ICI)帶寬實(shí)現(xiàn)高效的分布式計(jì)算。
與前代Trillium相比,Ironwood在內(nèi)存容量、算力及通信能力上均有顯著提升,為處理大規(guī)模AI工作負(fù)載奠定了堅(jiān)實(shí)基礎(chǔ)。
● 高帶寬內(nèi)存(HBM):Ironwood的HBM容量達(dá)到192GB,是Trillium的6倍(Trillium為32GB)。這一提升大幅減少了數(shù)據(jù)傳輸?shù)钠款i,使芯片能夠同時(shí)處理更大的模型和數(shù)據(jù)集。
對于需要頻繁訪問內(nèi)存的大型語言模型(LLM)或混合專家模型(MoE),Ironwood的高帶寬內(nèi)存尤為關(guān)鍵。此外,其HBM帶寬高達(dá)7.2TBps,是Trillium的4.5倍,確保了數(shù)據(jù)訪問的高速性,滿足現(xiàn)代AI任務(wù)對內(nèi)存密集型計(jì)算的需求。
● 峰值算力:單芯片4614 TFLOPs的峰值算力使Ironwood在執(zhí)行大規(guī)模張量運(yùn)算時(shí)表現(xiàn)出色。這一算力水平支持復(fù)雜的AI模型訓(xùn)練和推理任務(wù),例如超大規(guī)模LLM或需要高精度計(jì)算的高級推理應(yīng)用。相比之下,Trillium的單芯片算力僅為前代的幾分之一,Ironwood的提升幅度令人矚目。
● 芯片間互連(ICI)帶寬:Ironwood的ICI帶寬達(dá)到1.2Tbps,雙向帶寬是Trillium的1.5倍。高速ICI網(wǎng)絡(luò)確保了芯片間的低延遲通信,使多個(gè)TPU協(xié)同工作時(shí)能夠高效同步。這種設(shè)計(jì)特別適用于超大規(guī)模集群,例如9216顆芯片的TPU Pod配置,能夠充分發(fā)揮42.5 Exaflops的總算力。
● 在全球AI算力需求激增的背景下,能效已成為AI芯片設(shè)計(jì)的核心考量。
◎Ironwood的每瓦性能是Trillium的兩倍,整體能效接近2018年首款云TPU的30倍,得益于Google在芯片設(shè)計(jì)和散熱技術(shù)上的創(chuàng)新。
◎Ironwood通過優(yōu)化的架構(gòu)設(shè)計(jì),將能耗降至最低,同時(shí)保持高性能輸出。
◎在數(shù)據(jù)中心電力供應(yīng)日益緊張的今天,這一特性為客戶提供了更經(jīng)濟(jì)高效的AI計(jì)算解決方案。例如,在處理相同規(guī)模的AI任務(wù)時(shí),Ironwood的電力消耗僅為Trillium的一半,顯著降低了運(yùn)營成本。
◎?yàn)閼?yīng)對高功率密度的挑戰(zhàn),Ironwood采用了先進(jìn)的液冷方案。與傳統(tǒng)的風(fēng)冷相比,液冷技術(shù)能夠維持高達(dá)兩倍的性能穩(wěn)定性,確保芯片在持續(xù)高負(fù)載下仍能高效運(yùn)行。
這一設(shè)計(jì)不僅延長了硬件壽命,還支持超大規(guī)模集群的可靠運(yùn)行,例如9216顆芯片的TPU Pod,其功率接近10兆瓦。
● Ironwood引入了增強(qiáng)版的SparseCore和Google自研的Pathways軟件堆棧,進(jìn)一步提升了其在多樣化AI任務(wù)中的適用性。
◎SparseCore是一款專用加速器,專為處理超大嵌入任務(wù)設(shè)計(jì),例如高級排名和推薦系統(tǒng)中的稀疏矩陣運(yùn)算。
Ironwood的SparseCore較前代進(jìn)行了擴(kuò)展,支持更廣泛的工作負(fù)載,包括金融建模、科學(xué)計(jì)算等領(lǐng)域。通過加速稀疏運(yùn)算,SparseCore顯著提升了Ironwood在特定場景下的效率。
◎Pathways是Google DeepMind開發(fā)的機(jī)器學(xué)習(xí)運(yùn)行時(shí),支持跨多個(gè)TPU芯片的高效分布式計(jì)算。
通過Pathways,開發(fā)者可以輕松利用數(shù)千乃至數(shù)萬個(gè)Ironwood芯片的綜合算力,簡化超大規(guī)模AI模型的部署。這一軟件堆棧與Ironwood硬件的協(xié)同優(yōu)化,確保了計(jì)算資源的高效分配和任務(wù)執(zhí)行的無縫銜接。
Part 2
Ironwood的性能優(yōu)勢與應(yīng)用場景
Ironwood的性能提升是其最引人注目的特點(diǎn)之一。相較于2018年的第一代TPU,其推理性能提高了3600倍,效率提升了29倍。
與前代Trillium相比,Ironwood的能效翻倍,內(nèi)存容量和帶寬大幅加。最高配置的9216顆芯片集群可提供42.5 Exaflops的算力,遠(yuǎn)超全球最大超級計(jì)算機(jī)El Capitan的1.7 Exaflops。
Ironwood單芯片的4614 TFLOPs算力已足以應(yīng)對復(fù)雜的AI任務(wù),而9216顆芯片集群的42.5 Exaflops總算力更是前所未有。
相比之下,El Capitan的1.7 Exaflops顯得相形見絀。這種算力優(yōu)勢使Ironwood能夠輕松處理超大規(guī)模LLM、MoE模型及其他高計(jì)算需求的AI應(yīng)用。
在AI算力成為稀缺資源的當(dāng)下,Ironwood的高能效設(shè)計(jì)尤為重要。其每瓦性能是Trillium的兩倍,能夠在相同電力消耗下提供更多計(jì)算能力。這一特性不僅降低了運(yùn)行成本,還響應(yīng)了全球?qū)G色計(jì)算的號(hào)召。
● Ironwood的設(shè)計(jì)理念是從“反應(yīng)式”AI轉(zhuǎn)向“主動(dòng)式”AI,使其能夠主動(dòng)生成洞察,而非僅被動(dòng)響應(yīng)指令。這種范式轉(zhuǎn)變拓寬了Ironwood的應(yīng)用場景。
◎Ironwood的高算力和大內(nèi)存使其成為運(yùn)行LLM的理想平臺(tái)。例如,Google的Gemini 2.5等前沿模型可以在Ironwood上實(shí)現(xiàn)高效訓(xùn)練和推理,支持自然語言處理任務(wù)的高速執(zhí)行。
◎MoE模型因其模塊化設(shè)計(jì)需要強(qiáng)大的并行計(jì)算能力。Ironwood的ICI網(wǎng)絡(luò)和高帶寬內(nèi)存能夠協(xié)調(diào)大規(guī)模MoE模型的計(jì)算,提升模型的準(zhǔn)確性和響應(yīng)速度,適用于需要?jiǎng)討B(tài)調(diào)整的場景。
◎在金融風(fēng)控、醫(yī)療診斷等領(lǐng)域,Ironwood支持實(shí)時(shí)決策和預(yù)測。其強(qiáng)大的推理能力能夠快速分析復(fù)雜數(shù)據(jù)集,生成高精度的洞察,為用戶提供關(guān)鍵支持。
◎增強(qiáng)版的SparseCore使Ironwood在處理超大嵌入的推薦任務(wù)中表現(xiàn)優(yōu)異。例如,在電子商務(wù)或內(nèi)容平臺(tái)中,Ironwood能夠提升個(gè)性化推薦的質(zhì)量和速度。
Google通過Ironwood推出了兩種TPU Pod配置(256顆和9216顆芯片),為客戶提供了靈活的AI計(jì)算資源。這一戰(zhàn)略布局增強(qiáng)了Google Cloud在AI基礎(chǔ)設(shè)施領(lǐng)域的競爭力。
Ironwood將于今年晚些時(shí)候通過Google Cloud開放,支持從小型AI任務(wù)到超大規(guī)模模型訓(xùn)練的多樣化需求。256顆芯片的配置適合中小型企業(yè),而9216顆芯片的集群則面向需要極高算力的客戶。
Google Cloud AI超級計(jì)算機(jī)架構(gòu)優(yōu)化了Ironwood與Pathways等工具的集成,降低了開發(fā)者的使用門檻。
通過這一生態(tài)系統(tǒng),Google不僅提供了硬件支持,還為AI創(chuàng)新打造了完整的解決方案。
小結(jié)
Ironwood作為Google第七代TPU,以其卓越的硬件規(guī)格和創(chuàng)新設(shè)計(jì),開辟了AI“推理時(shí)代”的新篇章。192GB的HBM容量、4614 TFLOPs的單芯片算力以及42.5 Exaflops的集群性能,使其在算力、內(nèi)存和通信能力上遙遙領(lǐng)先。
增強(qiáng)版的SparseCore和Pathways軟件堆棧進(jìn)一步擴(kuò)展了其應(yīng)用范圍,從LLM到推薦系統(tǒng),再到金融和科學(xué)計(jì)算,Ironwood展現(xiàn)了無與倫比的靈活性。更重要的是,其兩倍于Trillium的能效和先進(jìn)的液冷技術(shù),為可持續(xù)AI計(jì)算提供了典范。
原文標(biāo)題 : Google首款TPU:為AI推理任務(wù)準(zhǔn)備的Ironwood

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對接會(huì)成功舉辦