推理電效: 被忽視的AI“命門”
“ 參數(shù)越大,燈泡越暗?”
文 | 王子
出品 | 極新
IEA(2025)的基線情景顯示:全球數(shù)據(jù)中心在 2024 年的耗電量約為 415 TWh,占全球用電的 1.5%;到 2030 年,這一數(shù)字可能翻倍至 945 TWh。其中,用于 AI 計(jì)算的加速型服務(wù)器貢獻(xiàn)了近一半的增量。
算力盡頭是電力,已是科技行業(yè)公認(rèn)不爭(zhēng)的事實(shí)。
這意味著,掌握海量算力的企業(yè),也必須承擔(dān)同樣龐大的能源賬單。
AI 競(jìng)賽的下半場(chǎng),打的就是電網(wǎng)和清潔能源。
但除了“加電”,或許還有另一條路徑——
大模型到底多費(fèi)電?
先看量級(jí)感:
更大的模型 + 更長(zhǎng)的訓(xùn)練 → 更高的能耗
0.3–3 Wh/次 可作為“環(huán)境估算”的保守帶, 用這個(gè)“區(qū)間”算一筆“10 億次/天”的賬:
日耗電 = 10 億次 × (0.3–3 Wh/次) × PUE
= 0.33–4.7 GWh
≈ 1.6 萬–16 萬戶家庭/天[^3]
企業(yè)的經(jīng)濟(jì)賬:
圖:2018–2023 年大型數(shù)據(jù)中心運(yùn)營商及科技企業(yè)的用電量估算
圖片來源:IEA 4E TCP / EDNA,《Data Centre Energy Use: Critical Review of Models and Results》,2025.03
能源成為長(zhǎng)期運(yùn)營成本的重要部分:據(jù)麥肯錫早期測(cè)算,大模型部署可驅(qū)動(dòng)企業(yè)幾萬至幾十萬美金的年度電費(fèi)(以推理負(fù)載為主),成為可量化的運(yùn)營支出——尤其推理成為“持續(xù)跑”的最大電耗單位。
基礎(chǔ)設(shè)施選址影響投資回報(bào):數(shù)據(jù)顯示,美國至 2030 年數(shù)據(jù)中心電力需求將占國家電力增長(zhǎng)近一半,電網(wǎng)重構(gòu)和新增容量瓶頸讓站點(diǎn)選址更偏好“電力便宜且可靠地區(qū)”。部分企業(yè)開始選擇建在內(nèi)蒙古、甘肅等風(fēng)能豐富、價(jià)格較低的地區(qū)來部署大模型基礎(chǔ)設(shè)施。
企業(yè)拿綠電、簽?zāi)芰繀f(xié)議實(shí)質(zhì)減負(fù):Google 與 Kairos Power 簽訂核電協(xié)議,為其美國 AI 數(shù)據(jù)中心提供未來清潔電力;此外,GridFree AI 初創(chuàng)業(yè)務(wù)以“就地供電”方式構(gòu)建高效率數(shù)據(jù)中心,顯著降低運(yùn)營預(yù)算。當(dāng)電費(fèi)成為企業(yè)賬單主項(xiàng),低碳、低價(jià)格的電力供給本身已納入商業(yè)競(jìng)爭(zhēng)策略。
AI 模型效率等于財(cái)務(wù)效率:GPT4o 的推理能耗若按當(dāng)前查詢總量折算,一年電耗相當(dāng)于 35,000 美國家庭;蒸發(fā)的冷卻水量能填滿 500 多個(gè)奧運(yùn)泳池。“看不見的成本”變正在變得直觀。
最極端對(duì)比:GPT5,無論科技能力還是成本代價(jià)都在“跳級(jí)”:估計(jì)其每次推理消耗高達(dá) 18 Wh,假設(shè)每天 25 億次調(diào)用,每日功耗高達(dá) 45 GWh,等于 150 萬戶家庭一天用電,甚至幾座核電站的產(chǎn)出。
這筆賬,不僅企業(yè)要算,投資人也開始算了。
資本問句悄然轉(zhuǎn)變
過去幾年,資本市場(chǎng)對(duì)大模型的關(guān)注幾乎集中在“參數(shù)規(guī)!焙汀澳P托阅堋边@兩項(xiàng)指標(biāo)上,但如今風(fēng)向正在發(fā)生變化。
隨著算力成本與電力賬單的急劇膨脹,投資人越來越意識(shí)到,真正決定 AI 商業(yè)可行性的,并非模型越大越好,而是推理電效——每一瓦時(shí)電力能產(chǎn)出多少推理結(jié)果。
高能效推理芯片初創(chuàng) Positron AI 最近獲得 5,160 萬美元融資,投資人直言“改善推理能效是最大機(jī)會(huì)”;EnCharge AI 正計(jì)劃募資 1.5 億美元,其芯片能效據(jù)稱比英偉達(dá)產(chǎn)品高出 20 倍;英國初創(chuàng) Lumai 嘗試用光學(xué)計(jì)算降低推理能耗,已獲逾 1,000 萬美元投資;而 Etched.ai 則憑借“一臺(tái)服務(wù)器替代 160 臺(tái) H100”的節(jié)能優(yōu)勢(shì),拿下 1.2 億美元融資。
與此同時(shí),能源巨頭也開始入場(chǎng)。Chevron 與 GE Vernova 等企業(yè)投資天然氣電廠,以專供數(shù)據(jù)中心;市場(chǎng)上甚至出現(xiàn)了“綠電算力期貨”的設(shè)想(即通過提前購買清潔電力額度來對(duì)沖未來的 AI 電耗風(fēng)險(xiǎn))。這種資本邏輯,正在把 AI 的增長(zhǎng)曲線與能源市場(chǎng)深度綁定。
科技巨頭同樣在用行動(dòng)下注能源。OpenAI CEO 山姆·奧特曼多次強(qiáng)調(diào),AI 的未來發(fā)展取決于能源突破,尤其是核聚變或廉價(jià)太陽能+儲(chǔ)能。他已向核聚變初創(chuàng) Helion Energy 投資 3.75 億美元——這是其迄今為止最大的一筆個(gè)人投資。亞馬遜收購了核能開發(fā)商 X-energy,微軟在肯尼亞出資建設(shè)由地?zé)崮茯?qū)動(dòng)的數(shù)據(jù)中心,蘋果則在德克薩斯州投資了一座以氫儲(chǔ)能為核心的 100% 綠電數(shù)據(jù)中心,并在休斯頓啟動(dòng)了將天然氣電改造為氫能綠電的項(xiàng)目。
大模型賽道的核心矛盾,正從“模型能不能做出來”,轉(zhuǎn)向“做出來的模型能不能高效、低碳、可持續(xù)地跑起來”。
如何降低這筆能源賬單?
答案:把“每個(gè) token 的電”降下來。
降低每次推理所需的電力成本,已不再是單純的工程優(yōu)化,而是決定 AI 服務(wù)能否規(guī);年P(guān)鍵環(huán)節(jié)。
在實(shí)際應(yīng)用中,這一差異往往被放大:
場(chǎng)景一:實(shí)時(shí)語音助手。假設(shè)兩個(gè)產(chǎn)品性能相同,但其中一個(gè)每千次推理耗電多 10%。在電費(fèi)占據(jù)相當(dāng)成本的情況下,這 10% 的能效差距可能足以抹平利潤(rùn),甚至將產(chǎn)品推向虧損。
場(chǎng)景二:邊緣端移動(dòng)模型。在手機(jī)或離網(wǎng)設(shè)備上,能效直接決定用戶體驗(yàn)。同樣的AI功能,若能耗更低,就意味著手機(jī)電池續(xù)航更長(zhǎng),或在電池容量固定的前提下,能夠處理更多用戶請(qǐng)求。
簡(jiǎn)言之,推理電效比就是 AI 的“單位經(jīng)濟(jì)學(xué)”。
提高推理能效,正是緩解“大模型吃電難題”的一條現(xiàn)實(shí)解法。
算法層面
推測(cè)解碼(Speculative Decoding)被認(rèn)為是近年重要路徑。Heming Xia 等學(xué)者在論文 《Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding》 中梳理了相關(guān)進(jìn)展:通過一個(gè)輕量級(jí)的“草稿模型”先生成候選,再由大模型驗(yàn)證,大幅減少逐 token 的重復(fù)計(jì)算。
實(shí)驗(yàn)結(jié)果顯示,推測(cè)解碼可帶來 2–3 倍的推理加速與能耗下降,等于同樣一度電能支撐的調(diào)用次數(shù)翻倍。推測(cè)解碼把“能效”從一個(gè)抽象的算法指標(biāo),變成了可以直接映射到電費(fèi)和電池壽命的現(xiàn)實(shí)變量。
更長(zhǎng)遠(yuǎn)地看,如果我們把“推理電效比”作為產(chǎn)業(yè)競(jìng)爭(zhēng)的共識(shí)指標(biāo),那么推測(cè)解碼就是推動(dòng)其下降的第一代代表性技術(shù)。未來的 LLM 推理有望在“每瓦時(shí)能產(chǎn)出多少 token”這一指標(biāo)上,逼近傳統(tǒng)芯片產(chǎn)業(yè)的摩爾定律式改進(jìn)。屆時(shí),AI 產(chǎn)業(yè)的成本曲線和能耗曲線才可能真正出現(xiàn)拐點(diǎn)。
模型壓縮
FP8/FP4 低精度、結(jié)構(gòu)化稀疏、蒸餾和小模型化,已經(jīng)在主流推理框架中落地應(yīng)用,通常能在不顯著犧牲精度的前提下,帶來 30–60% 的能耗節(jié)省。
硬件升級(jí)
過去,單單訓(xùn)練一個(gè)大型語言模型(LLM)的能源成本就可能高達(dá) 1.4 億美元,讓整個(gè)過程幾乎在經(jīng)濟(jì)上不可承受。但隨著芯片架構(gòu)的迭代,這一局面正在發(fā)生變化。
NVIDIA 聲稱其最新 Blackwell/GB200 架構(gòu)在推理能效上比上一代 Hopper 提升 25 倍(從約 10 joules/token 降至 0.4)。
雖然這是供應(yīng)商口徑,但這意味著,處理同樣規(guī)模的自然語言任務(wù),所需的電力大幅減少,從而直接壓低了運(yùn)營成本。
圖:GPU 從 Pascal 到 Blackwell 的迭代,使大模型訓(xùn)練電費(fèi)從逾 1.4 億美元降至不足 60 萬美元。
未來5年,誰有后發(fā)優(yōu)勢(shì)?
在算力與電力的博弈中,美國與中國展現(xiàn)出兩種迥然不同的路徑。
美國:“敢投但難供”——資本勇、技術(shù)快,但電網(wǎng)吃緊
一方面,亞馬遜、谷歌、OpenAI等企業(yè)加快押注清潔能源;
另一方面,美國電網(wǎng)發(fā)出警告——東北部最大的電網(wǎng)運(yùn)營商 PJM 報(bào)告稱,未來幾年電力供給難以滿足新建數(shù)據(jù)中心的需求;加州數(shù)據(jù)中心的負(fù)荷增長(zhǎng)與實(shí)時(shí)電價(jià)走勢(shì)聯(lián)動(dòng),凸顯出電網(wǎng)升級(jí)壓力。
中國:“能建但難調(diào)”——裝機(jī)大、供給快,但煤電依賴與消納難題
一方面,在“東數(shù)西算”戰(zhàn)略下,東部的算力需求正與西部的風(fēng)光水電優(yōu)勢(shì)對(duì)接。截至 2024 年底,中國風(fēng)電與太陽能裝機(jī)已突破 14 億千瓦,為數(shù)據(jù)中心提供了強(qiáng)勁的綠色電力支撐。
《仲量聯(lián)行數(shù)據(jù)中心投資報(bào)告》顯示,中國數(shù)據(jù)中心用電量持續(xù)攀升,預(yù)計(jì)到 2030 年將達(dá)到 4000 億千瓦時(shí),占全國用電量約 3.7%。
與美國不同,中國政府通過“全國一盤棋”的調(diào)度方式,一邊大規(guī)模增建綠電,一邊統(tǒng)一優(yōu)化電網(wǎng)與數(shù)據(jù)中心布局。但挑戰(zhàn)在于如何平衡煤電基底與清潔能源比例。
原文標(biāo)題 : 推理電效:被忽視的AI“命門”

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 7 具身智能機(jī)器人量產(chǎn)前夜,標(biāo)準(zhǔn)機(jī)腦正在成型
- 8 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 9 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 10 蘋果把身家押在Siri上:一場(chǎng)輸不起的自我革命