訂閱
糾錯
加入自媒體

今年355萬片等效H100,流向五大AI龍頭

本文由半導體產業(yè)縱橫(ID:ICVIEWS)編譯自lesswrong

2024年五大AI巨頭,擁有多少片英偉達GPU?

人工智能基礎設施的數(shù)據難以精確獲取。諸多報道中會出現(xiàn)諸如 “某公司本季度在基礎設施上花費了 Xbn”“某公司購買了 10 萬臺 H100” 或者 “擁有 10 萬臺 H100 集群” 這類信息,但當筆者試圖估算某家公司能夠使用的計算資源時,卻無法找到統(tǒng)一的數(shù)據。

在此,筆者試圖從各類來源搜集信息,來大致估算以下兩點:其一,截至 2024 年,預計各方會擁有多少計算能力?其二,預計 2025 年會有哪些變化?之后,筆者將簡要闡述這對主要前沿實驗室的培訓計算可用性的意義。在討論該問題之前,筆者想先說明幾點注意事項。

這些數(shù)字是筆者在有限時間內依據公開數(shù)據估算得出的,可能存在誤差,也可能遺漏了一些重要信息。

付費供應商很可能有更精準的估算,他們能夠花費更多時間去詳細分析諸如晶圓廠的數(shù)量、各晶圓廠的生產內容、數(shù)據中心的位置、每個數(shù)據中心的芯片數(shù)量等諸多細節(jié),并得出精確得多的數(shù)字。若讀者需要非常精確的估算,筆者建議向幾家供應商中的一家購買相關數(shù)據。

英偉達芯片生產

首先要從最重要的數(shù)據中心 GPU 生產商 Nvidia 開始。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度財報之后,預計Nvidia 該財年數(shù)據中心收入約為 1100 億美元。這比 2023 年的 420 億美元有所增長,預計 2025 年將達到 1730 億美元(基于 2026 財年 1770 億美元的估計)。

數(shù)據中心的收入絕大部分來自芯片銷售。2025 年的芯片銷售額預計為 650-700 萬 GPU,幾乎全部是 Hopper 和 Blackwell 型號。根據 CoWoS-S 和 CoWoS-L 制造工藝的預期比例以及 Blackwell 的預期量產速度,筆者估計 Hopper 和 Blackwell 型號分別為 200 萬和 500 萬。

2024 年產量

有關 2024 年生產數(shù)字的資料來源很少,而且經常相互矛盾,但 2024 年第四季度的 Hopper GPU 產量估計為 150 萬個(盡管其中包括一些 H20 芯片,因此這只是一個上限),而且各季度的數(shù)據中心收入比率表明,產量上限為 500 萬個(這將假定每個 H100 同等產品的收入約為 2 萬美元)。

這與今年早些時候估計的 150 萬到 200 萬臺 H100 的產量相沖突--這種差異是否可以合理地歸因于 H100 與 H200、擴容或其他因素尚不清楚,但由于這與他們的收入數(shù)字不一致,筆者選擇使用較高的數(shù)字。

此前的產量

為了評估目前以及未來誰擁有最多的計算資源,2023年之前的數(shù)據對整體格局的影響有限。這主要是因為GPU性能本身的提升,以及從英偉達的銷售數(shù)據來看,產量已經實現(xiàn)了大幅增長。根據估算,微軟和Meta在2023年各自獲得了約15萬塊H100 GPU。結合英偉達的數(shù)據中心收入,2023年H100及同等級產品的總產量很可能在100萬塊左右。

GPU/TPU 按組織計數(shù)

筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當量表示的芯片,以及 2025 年的相關數(shù)量。

許多消息源稱 “英偉達 46% 的收入來自 4 個客戶”,不過這可能存在誤導性。查閱英偉達的 10 - Q 和 10 - K 可以發(fā)現(xiàn),他們區(qū)分了直接客戶和間接客戶,46% 這個數(shù)字指的是直接客戶。然而,直接客戶大多是中間商,比如 SMC、HPE 和戴爾,他們購買 GPU 并組裝服務器供間接客戶使用,這些間接客戶包括公共云提供商、消費互聯(lián)網公司、企業(yè)、公共部門和初創(chuàng)公司,而筆者所關注的公司屬于 “間接客戶” 這一范疇。

關于間接客戶的信息披露相對寬松,可能也不太可靠。在 2024 財年(約 2023 年,文中所討論的情況),英偉達的年報披露,“一個主要通過系統(tǒng)集成商和分銷商購買我們產品的間接客戶估計占總收入的約 19%”。按照規(guī)定,他們需要披露收入份額超過 10% 的客戶信息。所以,要么他們的第二個客戶最多只有第一個客戶規(guī)模的一半,要么存在測量誤差。這個最大的客戶可能是微軟,有零星信息披露稱,每季度有第二個客戶的數(shù)量曾短暫超過 10%,但這種情況不具有連貫性,而且不包括 2023 年全年或 2024 年前 3 個季度的情況。

估計 2024 年底 H100 等效芯片數(shù)量

微軟,Meta

筆者考慮到微軟身為最大的公有云之一,是 OpenAI 的主要計算提供商,自身沒有像谷歌、可能還有亞馬遜那樣大規(guī)模的定制芯片安裝基礎,并且與英偉達似乎存在相對于同行的特殊關系(例如,他們顯然率先獲得了 Blackwell 芯片),所以推測這兩個最大的客戶極有可能都是微軟。英偉達在 2024 年的收入份額不像 2023 年那般精確,其在第二季度和第三季度提及 H1 收入的 13%,而第三季度僅 “超過 10%”,不過 13% 可作為一個合理的估計,這表明微軟在英偉達銷售中的份額相較 2023 年有所降低。

另有一些對客戶規(guī)模的估計,數(shù)據顯示,微軟占英偉達收入的 15%,其次是 Meta Platforms 占 13%,亞馬遜占 6%,谷歌占約 6%,但從消息來源難以確定這些數(shù)據對應的年份。截至 2023 年底,有關這些云提供商擁有 H100 芯片數(shù)量的報告(Meta 和微軟為 15 萬片,亞馬遜、谷歌和甲骨文各為 5 萬片)與上文的數(shù)據更為契合。

這里有一個關鍵的數(shù)據點,即 Meta 宣稱到 2024 年底 Meta 將擁有 60 萬 H100 當量的計算能力。據說其中包含 35 萬 H100,其余大部分似乎將是 H200 和上個季度到貨的少量 Blackwell 芯片。

倘若我們將這 60 萬視為準確數(shù)據,并依據收入數(shù)字的比例,便能更好地估算微軟的可用計算量比這高出 25% 至 50%,即 75 萬至 90 萬 H100 等效值。

谷歌,亞馬遜

筆者注意到,亞馬遜和谷歌向來被視作在對英偉達收入的貢獻方面處于較為靠后的位置。不過,二者的情況實則全然不同。

谷歌早已擁有大量自定義的 TPU,而這 TPU 正是其內部工作負載所倚重的主要芯片。至于亞馬遜,其內部 AI 工作負載看上去很可能要比谷歌小得多,并且亞馬遜所擁有的數(shù)量相當?shù)挠ミ_芯片,主要是為了通過云平臺來滿足外部 GPU 的需求,其中最為顯著的當屬來自 Anthropic 的需求。

下面先來看谷歌的情況。如前文所述,TPU 是其用于內部工作負載的主要芯片。提供該領域數(shù)據的領先訂閱服務 Semianalysis 在 2023 年底曾宣稱:“谷歌是唯一一家擁有強大內部芯片的公司”,“谷歌具備近乎無與倫比的能力,能夠以低成本和高性能可靠地大規(guī)模部署 AI”,且稱其為 “世界上計算資源最豐富的公司”。自這些說法問世以來,谷歌在基礎設施方面的支出一直維持在較高水平。

筆者對 TPU 和 GPU 的支出進行了 2 比 1 的估計(此估計或許較為保守),即假設每一美元的 TPU 性能等同于微軟的 GPU 支出,由此得出的數(shù)據范圍是在 2024 年年底擁有 10 萬 - 150 萬 H100 當量。

亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia,但它們起步的時間相較于谷歌的 TPU 要晚得多,并且在這些芯片的發(fā)展進程中似乎落后于前沿水平。亞馬遜甚至推出 1.1 億美元的免費積分以吸引人們試用,這一舉措表明其芯片截至目前尚未呈現(xiàn)出良好的適應性。半分析指出:“我們的數(shù)據顯示,Microsoft 和 Google 在 AI 基礎設施上的 2024 年支出計劃將使他們部署的計算量遠超過亞馬遜”,并且 “此外,亞馬遜即將推出的內部芯片 Athena 和 Trainium2 仍然顯著落后”。

然而,到 2024 年年中,情況或許已有所轉變。在 2024 年第三季度財報電話會議上,亞馬遜首席執(zhí)行官安迪?賈西談及 Trainium2 時表示 “我們察覺到人們對這些芯片抱有濃厚興趣,我們已多次與制造合作伙伴溝通,產量遠超最初計劃”。但由于當時他們 “在接下來的幾周內才開始增產”,所以在 2024 年其芯片似乎不太可能有大規(guī)模的供應。

XAI

筆者在此要介紹的最后一位重要參與者便是 XAI。該機構發(fā)展極為迅速,在相關領域坐擁一些規(guī)模最大的集群,且有著宏大的發(fā)展計劃。其在 2024 年底對外透露了一個正在運行的、擁有 10 萬臺 H100 的集群,不過就目前來看,似乎在為該站點提供充足電力方面存在一定的問題。

2025年Blackwell芯片預測

筆者注意到《2024 年人工智能狀態(tài)報告》對主要供應商的 Blackwell 購買量有所估計,其提到 “大型云公司正在大量購買這些 GB200 系統(tǒng):微軟在 70 萬 - 140 萬之間,谷歌在 40 萬以及 AWS 在 36 萬之間。有傳言說 OpenAI 至少有 40 萬 GB200”。由于這些數(shù)字是芯片的總數(shù),所以存在重復計算 2024 年 Blackwell 購買量的風險,故而筆者打了 15% 的折扣。

若依據微軟的估計,谷歌和 AWS 購買英偉達的數(shù)量約為 100 萬臺,這與它們相對于微軟的典型比例相符。這也會使微軟占英偉達總收入的 12%,此情況與其在英偉達收入中的份額于 2024 年的小幅下降態(tài)勢相一致。

在這份報告里,Meta 未被給出任何估計,但 Meta 預計明年人工智能相關基礎設施支出將 “顯著加速”,這意味著其在英偉達支出中的份額將維持在高位。筆者假定到 2025 年,Meta 的支出約為微軟的 80%。

對于 XAI 而言,其在這些芯片的相關內容中未被提及,不過埃隆?馬斯克宣稱他們將于 2025 年夏天擁有一個 30 萬的 Blackwell 集群。考慮到馬斯克有時會有夸張言論的情況,XAI 似乎有可能在 2025 年底擁有 20 萬至 40 萬這樣的芯片。

一架 B200 的 H100 值多少呢?為衡量產能增長,這是一個關鍵問題。訓練和推理所引用的數(shù)字不同,就訓練而言,當前(2024 年 11 月)的最佳估計值是 2.2 倍。

對于谷歌,筆者假定英偉達芯片繼續(xù)占其總邊際計算的 1/3。對于亞馬遜,筆者假定為 75%。這些數(shù)字存在較大不確定性,估計數(shù)對其較為敏感。

值得留意的是,仍然有諸多 H100 和 GB200 未被記錄,且可能在其他地方有顯著聚集,尤其是在英偉達 10% 的報告門檻之下。像甲骨文等云服務提供商以及其他較小的云服務提供商可能持有。

芯片數(shù)量估計摘要

模型訓練注意事項

筆者在此所提及的上述數(shù)字,乃是對可用計算總量的估計情況。不過,想必許多人會更為關注用于訓練最新前沿模型的那部分計算量。接下來,筆者將著重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展開介紹。但需說明的是,這一切內容都頗具推測性,畢竟這些公司要么是私營性質,要么規(guī)模極為龐大,以至于無需對外披露這方面的成本明細。就拿谷歌來說,相關內容僅僅只是其業(yè)務的一小部分罷了。

據預計,OpenAI 在 2024 年的培訓成本將會達到 30 億美元,其推理成本則為 40 億美元。依照一位消息人士的說法,Anthropic“預計今年將會虧損約 20 億美元,營收可達數(shù)億美元”。這也就意味著,Anthropic 的總計算成本要比 OpenAI 的 70 億美元多出 20 億美元。由于 Anthropic 的收入主要源自 API,且應當具備正的毛利率,所以其推理成本將會大幅降低,由此可推斷出,多出的 20 億美元中的大部分是用于訓練的,大概為 15 億美元左右。即便與 OpenAI 相比,Anthropic 在培訓成本方面存在兩個不利因素,但這似乎并未對其競爭力造成妨礙。這種情況看起來確實很有可能,因為 Anthropic 的主要云提供商是 AWS,而我們已然了解到,AWS 所擁有的資源通常要比為 OpenAI 提供計算資源的微軟少。之前提到的《AI 狀態(tài)報告》中有傳言稱,微軟將會向 OpenAI 提供 40 萬個 GB 200 芯片,這一數(shù)量將會超過 AWS 傳聞中的整個 GB 200 容量,所以極有可能使得 OpenAI 的訓練能力遠遠高于 Anthropic 的訓練能力。

筆者發(fā)現(xiàn),谷歌的情況不太明晰。Gemini超 1.0 模型的訓練計算量大約是 GPT - 4 的 2.5 倍,不過在其發(fā)布 9 個月后,相比最新的 Llama 模型僅多出 25%。正如我們所了解到的,谷歌或許比同行擁有更多的可用計算能力,然而,由于它既是一個主要的云提供商,又是一家大企業(yè),所以其自身的需求也更多。谷歌的計算能力要強于 Anthropic 或 OpenAI,甚至比 Meta 也要強,要知道 Meta 也有大量獨立于前沿模型培訓的內部工作流程,比如社交媒體產品的推薦算法。Llama 3 在計算方面比 Gemini 要小,盡管它是在 Gemini 發(fā)布 8 個月后才推出的,這表明截至目前,Meta 分配給這些模型的資源相較于 OpenAI 或 Google 而言略少一些。

再看 XAI 方面,據稱其使用了 2 萬個 H100 來訓練Grok 2 型,并且預計Grok 3 型的訓練將會使用多達 10 萬個 H100。鑒于 GPT - 4 據稱是在 25000 個英偉達 A100 GPU 上訓練了 90 - 100 天,而 H100 的性能大約是 A100 的 2.25 倍,如此一來,Grok 2 型的計算量將達到 GPT - 4 的兩倍,并且預計Grok 3 型的計算量還會再增加 5 倍,從而使其接近行業(yè)領先水平。

需要注意的是,XAI 并非所有的計算資源都來自于他們自己的芯片,據估計,他們從甲骨文云租用了 16000 個 H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計算資源合理地部分用于培訓,筆者猜測它的培訓規(guī)模或許會與 Anthropic 類似,略低于 OpenAI 和谷歌。

*聲明:本文系原作者創(chuàng)作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯(lián)系后臺。

       原文標題 : 今年355萬片等效H100,流向五大AI龍頭

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號