訂閱
糾錯(cuò)
加入自媒體

解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎

埃隆·馬斯克于2025年8月7日宣布了一項(xiàng)大膽的戰(zhàn)略轉(zhuǎn)變,宣布特斯拉將精簡(jiǎn)其內(nèi)部AI芯片設(shè)計(jì)工作,也就是我們之前文章《真突發(fā),特斯拉解散Dojo超算團(tuán)隊(duì)和業(yè)務(wù)》提到的解散Dojo超級(jí)計(jì)算機(jī)團(tuán)隊(duì),專注于支持自動(dòng)駕駛汽車和機(jī)器人實(shí)時(shí)決策的推理芯片。

馬斯克認(rèn)為,特斯拉分割資源,同時(shí)擴(kuò)展兩款截然不同的AI芯片(超算訓(xùn)練的Dojo和推理應(yīng)用的AI 5/6)設(shè)計(jì),這毫無意義。

他認(rèn)為特斯拉的AI5、AI6及后續(xù)芯片在推理方面將非常出色,至少在訓(xùn)練方面也相當(dāng)出色。所以,特斯拉芯片將將所有精力都集中在AI 5/6芯片上。

而對(duì)于在超級(jí)計(jì)算機(jī)集群中用于訓(xùn)練的芯片,馬斯克認(rèn)為將AI5和AI6芯片結(jié)合起來可以形成“Dojo 3”系統(tǒng)。

馬斯克表示,下一代 AI5 芯片將于 2026 年底生產(chǎn),并于今年7月宣布與三星電子達(dá)成 165 億美元的AI6 芯片采購協(xié)議,但沒有提供生產(chǎn)時(shí)間表。

那么特斯拉為什么要這么做?接下來特斯拉AI芯片如何發(fā)展?采用什么樣的技術(shù)路徑?

本文將探討特斯拉的AI芯片之旅、根據(jù)海外信息總結(jié)其下一代芯片的架構(gòu)和技術(shù),希望給大家?guī)硪恍┬畔ⅰ?/p>

Dojo 超級(jí)計(jì)算機(jī)和特斯拉的 AI 野心

Dojo超級(jí)計(jì)算機(jī)于2021年推出,體現(xiàn)了特斯拉利用其全球車隊(duì)的PB級(jí)數(shù)據(jù)來訓(xùn)練全自動(dòng)駕駛(FSD)模型的雄心壯志。Dojo基于專有的D1芯片構(gòu)建,目標(biāo)是實(shí)現(xiàn)超過百億億次浮點(diǎn)運(yùn)算的計(jì)算性能,以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

在這個(gè)項(xiàng)目因其規(guī)模之大而備受贊譽(yù)——分析師曾根據(jù)其顛覆數(shù)據(jù)中心計(jì)算市場(chǎng)的潛力,將Dojo估值定為5000億美元。

而到了2025年的今天,如我們文章《塵埃落定!Model Y就是“平價(jià)特斯拉”:成本削減大揭秘》中講到特斯拉的財(cái)報(bào)數(shù)字,在中國電動(dòng)車崛起等影響下不斷遭遇“滑鐵盧”。以2025 Q2為例特斯拉全球交付量暴跌14%,銷售額下降12 %,至224億美元,創(chuàng)下至少十年來的最大降幅。利潤縮水16%,至11億美元。

這些,就讓Dojo 的發(fā)展的資源和成本問題更加凸顯:先進(jìn)工藝節(jié)點(diǎn)制造定制硅片需要大量的資本支出和較長的交貨時(shí)間。對(duì)訓(xùn)練和推理架構(gòu)的平行投資使工程資源捉襟見肘。

此外,從原型模塊擴(kuò)展到全尺寸吊艙架構(gòu)這里面的工程落地技術(shù)難點(diǎn),也不那么容易。

最后,人工智能芯片巨頭英偉達(dá)的競(jìng)爭(zhēng)腳步,也是讓人難以抵抗。

所以,現(xiàn)在2025年中期,特斯拉內(nèi)部逐漸意識(shí)到,維持兩種截然不同的芯片架構(gòu)——Dojo用于訓(xùn)練,AI 5/6用于推理——并非理想之選。

不過也有消息稱Dojo 其實(shí)就是AI6的實(shí)驗(yàn),換句話說AI6可能會(huì)采用Dojo實(shí)踐的技術(shù)理論。

解碼特斯拉 AI5芯片

特斯拉的 AI5 芯片計(jì)劃于 2026 年投入生產(chǎn),根據(jù)網(wǎng)絡(luò)信息,特斯拉AI5預(yù)計(jì)可達(dá)到2000–2500 TOPS(每秒萬億次運(yùn)算),使用int8精度,峰值功率達(dá)800瓦。

架構(gòu)方面,AI5 具備先進(jìn)的矩陣乘法引擎,支持混合精度(FP16、BFLOAT16、INT8),并采用統(tǒng)一緩存層次結(jié)構(gòu),優(yōu)化FSD任務(wù)性能。

其實(shí) AI5的設(shè)計(jì)于2025年7月完成,由于戰(zhàn)略調(diào)整和出口限制,生產(chǎn)推遲至2026年第四季度。

由于高性能,AI5面臨出口限制,需在某些市場(chǎng)提供性能受限版本以符合美國法規(guī)。采用雙層限制系統(tǒng),限制“友好國家”的購買,并在“競(jìng)爭(zhēng)國家”實(shí)施額外限制。

那么中國市場(chǎng)有可能會(huì)是閹割版的 AI5了。那么特斯拉AI5采用了哪些關(guān)鍵技術(shù)?

異構(gòu)計(jì)算核心,AI5 采用由三種集群類型組成的異構(gòu)結(jié)構(gòu):

張量加速器:這些固定功能單元可處理 16 位和 8 位精度的批量矩陣乘法,支持常見的 AI 基元(卷積、GEMM、全連接層)。利用脈動(dòng)陣列拓?fù),每個(gè)張量加速器可實(shí)現(xiàn) >1TFLOP/W 的效率。

矢量 DSP:針對(duì)不規(guī)則工作負(fù)載(激活函數(shù)、元素運(yùn)算、規(guī)范化、索引)進(jìn)行優(yōu)化的可編程內(nèi)核。它們采用 VLIW(超長指令字)架構(gòu),并支持預(yù)測(cè)執(zhí)行,從而減少了分支密集型代碼的流水線停頓。

標(biāo)量微控制器:輕量級(jí) RISC-V 內(nèi)核,專用于控制平面任務(wù):任務(wù)調(diào)度、I/O 管理和電源門控協(xié)調(diào)。通過在此卸載非矩陣任務(wù),張量加速器和 DSP 可維持峰值吞吐量。

與純粹以矩陣為中心的設(shè)計(jì)相比,策略性地卸載控制和不規(guī)則處理可以將整體利用率提高15-20%。

推理中最持久的瓶頸之一是內(nèi)存帶寬。在AI5中,Tesla 采用高帶寬內(nèi)存集成:封裝 HBM3 可最大限度地減少 DRAM 和計(jì)算單元之間的數(shù)據(jù)傳輸延遲。AI5集成了多層內(nèi)存層次結(jié)構(gòu):

SRAM 暫存器:每個(gè)張量簇?fù)碛锌傆?jì) 2 MB 的本地存儲(chǔ)體,旨在實(shí)現(xiàn)亞 1ns 級(jí)訪問。這些存儲(chǔ)體緩存輸入激活和權(quán)重塊,從而實(shí)現(xiàn)短小重復(fù)的計(jì)算循環(huán)零 DRAM 流量。

統(tǒng)一二級(jí)緩存: eDRAM 中實(shí)現(xiàn)的 64 MB 高帶寬緩存位于集群和全局 DRAM 接口之間。憑借 2 TB/s 的總帶寬,二級(jí)緩存可作為較大模型參數(shù)和特征圖的暫存區(qū)。

LPDDR5X 外部 DRAM: AI5 最高支持 24 GB,每個(gè)引腳運(yùn)行速度為 8 Gbps。Tesla 的定制內(nèi)存控制器會(huì)根據(jù)工作負(fù)載強(qiáng)度動(dòng)態(tài)調(diào)整頻率和時(shí)序,從而在稀疏推理或提前退出推理場(chǎng)景下降低速度(和功耗)。

稀疏計(jì)算優(yōu)化:硬件支持動(dòng)態(tài)稀疏性,以降低推理過程中的功耗。這個(gè)是不是很熟悉,當(dāng)前理想汽車在英偉達(dá)Thor U上布局VLA的時(shí)候就采用此類方法。

AI推理工作負(fù)載對(duì)較低的數(shù)值精度的容忍度越來越高。特斯拉在 AI5 中采用了混合精度策略:

FP8 和 INT4/INT2 單元:對(duì)于視覺和感知模型,許多層可以以 8 位浮點(diǎn) (FP8) 甚至 4 位整數(shù)執(zhí)行,且精度不會(huì)降低 1% 至 2%。AI5 集成了專用的 FP8 數(shù)據(jù)路徑和 INT4 乘法累加器,在量化模式下使 MAC 吞吐量翻倍。

動(dòng)態(tài)范圍校準(zhǔn):片上校準(zhǔn)電路可監(jiān)測(cè)初始批次中的激活分布,并自動(dòng)調(diào)整 INT4 量化的零點(diǎn)和比例因子。這消除了部署流程中的手動(dòng)量化步驟。

混合精度調(diào)度:基于改進(jìn)的 TensorRT 和 Tesla 內(nèi)部優(yōu)化器構(gòu)建的軟件堆棧,以最佳精度調(diào)度每一層。關(guān)鍵的規(guī)范化或跳過連接以 16 位運(yùn)行,而高度可并行化的卷積層則以 4 位運(yùn)行。

將這些混合精度模式直接集成到硬件數(shù)據(jù)路徑中至關(guān)重要。僅僅在軟件中支持量化是不夠的;芯片必須設(shè)計(jì)成能夠無縫切換模式,否則系統(tǒng)開銷會(huì)侵蝕功耗,而特斯拉AI 5的設(shè)計(jì)就考慮了這些因素。

關(guān)于特斯拉AI6

除了 AI5 之外,特斯拉還與三星代工廠簽署了一項(xiàng)價(jià)值 165 億美元的協(xié)議,共同研發(fā)其 AI6 芯片。這些下一代設(shè)備將進(jìn)一步優(yōu)化節(jié)點(diǎn)擴(kuò)展至 3 納米或更低,并集成增強(qiáng)的片上互連,以支持跨多個(gè)芯片的集群推理。特斯拉工程師預(yù)計(jì),在實(shí)際的全自動(dòng)駕駛 (FSD) 場(chǎng)景中,AI6 的性能將比 AI5 提升 2 到 3 倍。

具體關(guān)于AI6的技術(shù)信息很少,有的話,也就是前文說的AI6就是Dojo。所以,有觀點(diǎn)說Dojo 不是一個(gè)失敗的項(xiàng)目,而是一個(gè)重要的實(shí)驗(yàn)階段:

D1芯片:大規(guī)模并行處理驗(yàn)證

D2計(jì)劃:精密開關(guān)測(cè)試

AI5:統(tǒng)一架構(gòu)的部分驗(yàn)證

AI6:全面實(shí)現(xiàn)集成

從可配置偏差到模塊化的進(jìn)展、更高精度中間格式的一致使用以及硬件級(jí)操作交錯(cuò)都體現(xiàn)了特斯拉多年來執(zhí)行的連貫技術(shù)策略。

寫在最后

特斯拉是物理人工智能的成功探索者,其在物理人工智能領(lǐng)域的軟硬探索是相當(dāng)?shù)某晒颓把,引領(lǐng)了時(shí)代。不過遺憾的是特斯拉現(xiàn)在對(duì)自己的技術(shù)信息隱藏的很深,所以很難找到特斯拉最新的相關(guān)技術(shù)信息,本文的技術(shù)信息源頭不確定,所以需要斟酌看,懂行的可以留言討論交流。

       原文標(biāo)題 : 解碼特斯拉新AI芯片戰(zhàn)略:從Dojo到AI5和AI6推理引擎

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)