訂閱
糾錯(cuò)
加入自媒體

“FP8精度”如何賦能國(guó)產(chǎn)AI?

圖片

當(dāng)前AI大模型(LLM)訓(xùn)練與推理對(duì)算力的巨大需求,以及傳統(tǒng)計(jì)算精度(如FP16/BF16)面臨的功耗、內(nèi)存帶寬和計(jì)算效率瓶頸。

FP8(8位浮點(diǎn)數(shù))作為一種新興的、得到行業(yè)巨頭(NVIDIA、AMD、Intel)支持的低精度格式,正在成為下一代AI芯片的標(biāo)配。

FP8對(duì)于國(guó)產(chǎn)AI芯片有著怎樣的戰(zhàn)略意義?這可能不僅是技術(shù)追趕,更是參與制定未來(lái)AI計(jì)算標(biāo)準(zhǔn)、構(gòu)建自主生態(tài)的關(guān)鍵機(jī)遇。

01 AI計(jì)算進(jìn)入“8位時(shí)代”的必然性

如今,大模型的算力饑渴與“內(nèi)存墻”困境日益尖銳。模型參數(shù)規(guī)模指數(shù)級(jí)增長(zhǎng)從千億到了萬(wàn)億,大模型的“膨脹速度”堪稱“失控”:從BERT的3.4億參數(shù)到GPT-3的1750億,再到如今超萬(wàn)億參數(shù)的模型,每?jī)赡陞?shù)規(guī)模增長(zhǎng)約240倍。但GPU顯存的增長(zhǎng)卻像“蝸牛爬”——2016年P(guān)100僅12GB,2023年H200也才141GB,7年只翻了10倍。

這種“參數(shù)瘋漲、顯存龜速”的反差,讓訓(xùn)練大模型成了“內(nèi)存噩夢(mèng)”。比如訓(xùn)練GPT-3,僅模型參數(shù)就需要650GB顯存,加上訓(xùn)練時(shí)的梯度、動(dòng)量等狀態(tài)(約1950GB),再算上中間計(jì)算的激活值(366GB),總需求超2900GB。而單張A100 GPU只有80GB顯存,必須靠多卡并行,但卡越多,卡間通信又成了新瓶頸。

“存”“算”性能失配,內(nèi)存墻導(dǎo)致訪存時(shí)延高,效率低。內(nèi)存墻,指內(nèi)存的容量或傳輸帶寬有限而嚴(yán)重限制 CPU 性能發(fā)揮的現(xiàn)象。內(nèi)存的性能指標(biāo)主要有“帶寬”(Bandwidth)和“等待時(shí)間”(Latency)。近 20 年間,運(yùn)算設(shè)備的算力提高了 90000 倍,提升非常快。雖然存儲(chǔ)器從 DDR 發(fā)展到 GDDR6x,能夠用于顯卡、游戲終端和高性能運(yùn)算,接口標(biāo)準(zhǔn)也從 PCIe1.0a 升級(jí)到 NVLink3.0,但是通訊帶寬的增長(zhǎng)只有 30 倍,和算力相比提高幅度非常緩慢。

馮諾依曼架構(gòu)下,數(shù)據(jù)傳輸導(dǎo)致嚴(yán)重的功耗損失。馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲(chǔ)器單元和處理單元之間不斷地“讀寫”,這樣數(shù)據(jù)在兩者之間來(lái)回傳輸就會(huì)消耗很多的傳輸功耗。根據(jù)英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來(lái)越嚴(yán)重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問(wèn)題。

而FP8的優(yōu)勢(shì)就是——效率與精度的完美平衡。

02 FP8并非簡(jiǎn)單的“砍位數(shù)”——技術(shù)內(nèi)涵與設(shè)計(jì)挑戰(zhàn)

FP8(8位浮點(diǎn)數(shù))格式正以其獨(dú)特的綜合優(yōu)勢(shì),成為推動(dòng)AI計(jì)算邁向下一階段的關(guān)鍵技術(shù)。其核心價(jià)值可總結(jié)為:在效率與精度之間實(shí)現(xiàn)了前所未有的平衡。

首先,F(xiàn)P8帶來(lái)了極致的計(jì)算與存儲(chǔ)效率提升。與目前廣泛使用的FP16相比,F(xiàn)P8將內(nèi)存占用直接減少50%,顯著降低了內(nèi)存帶寬壓力,使得在相同硬件條件下能夠處理更大規(guī)模的模型或更高批次的數(shù)據(jù)。這一改進(jìn)不僅直接提升了推理和訓(xùn)練速度,還大幅降低了系統(tǒng)功耗,對(duì)部署在邊緣設(shè)備或大規(guī)模數(shù)據(jù)中心中的AI應(yīng)用都具有重要意義。特別是在內(nèi)存帶寬經(jīng)常成為瓶頸的AI加速器中,F(xiàn)P8的有效應(yīng)用能夠釋放更大的算力潛力。

其次,F(xiàn)P8在壓縮數(shù)據(jù)的同時(shí)維持了可接受的數(shù)值精度。與純整數(shù)格式(如INT8)相比,F(xiàn)P8保留了浮點(diǎn)數(shù)的表示特點(diǎn),具備更大的動(dòng)態(tài)范圍和更靈活的精度分配,能夠更好地適應(yīng)訓(xùn)練過(guò)程中梯度計(jì)算、激活函數(shù)輸出等對(duì)數(shù)值范圍敏感的操作。這意味著盡管比特?cái)?shù)較低,F(xiàn)P8仍能較好地維持模型訓(xùn)練的穩(wěn)定性和最終精度,減少因量化造成的性能損失,從而在提升效率的同時(shí)避免模型質(zhì)量的顯著下降。

此外,F(xiàn)P8正在快速獲得全行業(yè)生態(tài)的支持。從 NVIDIA Hopper 架構(gòu)和 H100 GPU 開始,多家芯片廠商已在其最新硬件中提供對(duì)FP8的原生支持。軟件和框架層面,主流深度學(xué)習(xí)框架(如TensorFlow和PyTorch)以及推理引擎正在積極集成FP8算子庫(kù)和優(yōu)化工具鏈。這種從硬件到軟件、從訓(xùn)練到推理的全面標(biāo)準(zhǔn)化,為開發(fā)者提供了統(tǒng)一的高效編程環(huán)境,進(jìn)一步推動(dòng)了FP8在各類模型中的普及。

FP8并非只是在現(xiàn)有格式基礎(chǔ)上簡(jiǎn)單“減少比特”,而是面向AI計(jì)算真實(shí)需求的一次系統(tǒng)級(jí)優(yōu)化。它既解決了高性能計(jì)算對(duì)資源高效利用的迫切需求,又兼顧了模型精度保持的挑戰(zhàn),正迅速成為AI訓(xùn)練與推理領(lǐng)域的新標(biāo)準(zhǔn)。

FP8的兩種主流格式:

E5M2 (5位指數(shù),2位尾數(shù)):動(dòng)態(tài)范圍大,適合保存前向傳播的激活值(Activations)和權(quán)重(Weights)。E4M3 (4位指數(shù),3位尾數(shù)):精度更高,適合保存反向傳播的梯度(Gradients)。圖片

當(dāng)全球科技圈還在討論GPT-5的突破時(shí),中國(guó)AI企業(yè)DeepSeek在官宣V3.1模型的留言區(qū)埋下了一顆重磅炸彈——"UE8M0FP8是針對(duì)即將發(fā)布的下一代國(guó)產(chǎn)芯片設(shè)計(jì)"。

那國(guó)產(chǎn)芯片實(shí)現(xiàn)FP8的核心挑戰(zhàn)有哪些呢?首先是如何在ALU、Tensor Core等計(jì)算單元中高效支持兩種格式的混合運(yùn)算。其次是編譯器、算子庫(kù)、驅(qū)動(dòng)等如何無(wú)縫地將AI框架的指令映射到FP8硬件上;設(shè)計(jì)先進(jìn)的量化工具鏈,確保模型從高精度到FP8轉(zhuǎn)換時(shí)的精度損失最小。最后是與現(xiàn)有生態(tài)的兼容:支持FP16/BF16等格式的平滑遷移和混合精度計(jì)算。

03 國(guó)產(chǎn)AI芯片的FP8機(jī)遇:突圍與超越

FP8是相對(duì)較新的標(biāo)準(zhǔn),國(guó)內(nèi)外差距小于在CUDA生態(tài)上的差距,是難得的機(jī)遇窗口。

若以NVIDIA B100的FP8算力(14 petaFLOPS)為基準(zhǔn),在同等制程條件下,DeepSeark架構(gòu)憑借算法與硬件的協(xié)同優(yōu)化,預(yù)計(jì)可實(shí)現(xiàn)20%–30%的有效算力提升。需要說(shuō)明的是,該推測(cè)目前仍基于已公開技術(shù)文檔,實(shí)際性能需以流片測(cè)試為準(zhǔn)。

在生態(tài)建設(shè)方面,華為昇騰910B目前主要支持FP16和BF16格式,在FP8支持方面尚落后至少一代。DeepSeek所采用的“模型即芯片”策略,本質(zhì)上借鑒了谷歌TPU的成功經(jīng)驗(yàn),但仍需應(yīng)對(duì)諸如PyTorch量化工具鏈適配等實(shí)際工程挑戰(zhàn)。

從供應(yīng)鏈安全角度考慮,F(xiàn)P8格式對(duì)計(jì)算精度要求相對(duì)較低,一定程度上降低了對(duì)晶體管密度的依賴,這一特點(diǎn)反而成為在國(guó)產(chǎn)制程條件下的一項(xiàng)差異化優(yōu)勢(shì)。

以華為昇騰系列NPU為例,針對(duì)FP8設(shè)計(jì)的專用指令集使其在典型ResNet模型上的吞吐量提升40%,同時(shí)單位算力的能耗降低至原來(lái)的1/3。這種突破性進(jìn)展源于兩大創(chuàng)新:一是硬件層面的亞穩(wěn)態(tài)電路設(shè)計(jì)優(yōu)化,解決了低比特下梯度消失的問(wèn)題;二是軟件框架對(duì)混合精度訓(xùn)練的支持,允許不同網(wǎng)絡(luò)層靈活切換FP8與其他格式。值得關(guān)注的是,寒武紀(jì)思元590等國(guó)產(chǎn)芯片已率先集成FP8加速模塊,標(biāo)志著自主架構(gòu)開始引領(lǐng)精度革新潮流。

DeepSeek的戰(zhàn)略布局揭示了一個(gè)關(guān)鍵邏輯:當(dāng)英偉達(dá)A100/H100因出口管制而缺貨時(shí),國(guó)產(chǎn)芯片廠商與下游用戶的深度綁定正在形成獨(dú)特競(jìng)爭(zhēng)優(yōu)勢(shì)。壁仞科技BR104、沐曦MXC500等新品均將FP8作為核心賣點(diǎn),配合自研的編譯器工具鏈,可實(shí)現(xiàn)從模型轉(zhuǎn)換到部署落地的全流程無(wú)縫銜接。

當(dāng)前,盡管IEEE P754等國(guó)際標(biāo)準(zhǔn)組織仍在積極推進(jìn)FP8的規(guī)范化進(jìn)程,但產(chǎn)業(yè)應(yīng)用已明顯走在了標(biāo)準(zhǔn)制定的前面。以百度飛槳、智譜AI為代表的AI平臺(tái)已率先實(shí)現(xiàn)對(duì)FP8格式的默認(rèn)支持,而在PyTorch等開源生態(tài)中,類似AutoFP8的自動(dòng)化混合精度庫(kù)也在不斷涌現(xiàn)。這種以實(shí)際應(yīng)用驅(qū)動(dòng)、自下而上的技術(shù)擴(kuò)散,為中國(guó)企業(yè)在AI基礎(chǔ)軟硬件領(lǐng)域爭(zhēng)取全球話語(yǔ)權(quán)打開了關(guān)鍵窗口期。如果能在未來(lái)一年半內(nèi)實(shí)現(xiàn)三大關(guān)鍵突破——包括主流框架深度集成FP8、高質(zhì)量開源模型示范驗(yàn)證,以及國(guó)產(chǎn)硬件適配率突破50%——中國(guó)完全有能力主導(dǎo)一場(chǎng)以FP8為共識(shí)的生態(tài)變革。

然而,F(xiàn)P8的全面推廣仍面臨諸多現(xiàn)實(shí)阻力。部分業(yè)界觀點(diǎn)對(duì)其在復(fù)雜數(shù)據(jù)分布下的穩(wěn)定性存疑,不同平臺(tái)間算子兼容性問(wèn)題也尚未徹底解決。面對(duì)這些挑戰(zhàn),一些企業(yè)如摩爾線程提出了“漸進(jìn)式升級(jí)”的思路,通過(guò)容器化技術(shù)保障原有模型的兼容性,并引入動(dòng)態(tài)剖分機(jī)制實(shí)現(xiàn)推理過(guò)程中不同精度策略的智能選擇。這類漸進(jìn)式路徑不僅緩解了遷移成本高、風(fēng)險(xiǎn)大的核心痛點(diǎn),也為FP8從試驗(yàn)階段走向規(guī);涞刳A得了更廣泛的支持與時(shí)間窗口。

DeepSeek此次技術(shù)路線的價(jià)值,在于證明了算法-硬件協(xié)同創(chuàng)新可能比單純追逐制程進(jìn)步更具可行性,這或許只是中國(guó)AI算力自主化的第一步。

       原文標(biāo)題 : “FP8精度”如何賦能國(guó)產(chǎn)AI?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)