国产精品无码亚洲字幕中出,97人妻中文字幕一区

當前位置： OFweek 人工智能網(wǎng) > 核心硬件 > 正文

解碼特斯拉新AI芯片戰(zhàn)略：從Dojo到AI5和AI6推理引擎

2025-08-21 16:54

vehicle公眾號

關(guān)注

埃隆·馬斯克于2025年8月7日宣布了一項大膽的戰(zhàn)略轉(zhuǎn)變，宣布特斯拉將精簡其內(nèi)部AI芯片設(shè)計工作，也就是我們之前文章《真突發(fā)，特斯拉解散Dojo超算團隊和業(yè)務》提到的解散Dojo超級計算機團隊，專注于支持自動駕駛汽車和機器人實時決策的推理芯片。

馬斯克認為，特斯拉分割資源，同時擴展兩款截然不同的AI芯片（超算訓練的Dojo和推理應用的AI 5/6）設(shè)計，這毫無意義。

他認為特斯拉的AI5、AI6及后續(xù)芯片在推理方面將非常出色，至少在訓練方面也相當出色。所以，特斯拉芯片將將所有精力都集中在AI 5/6芯片上。

而對于在超級計算機集群中用于訓練的芯片，馬斯克認為將AI5和AI6芯片結(jié)合起來可以形成“Dojo 3”系統(tǒng)。

馬斯克表示，下一代 AI5 芯片將于 2026 年底生產(chǎn)，并于今年7月宣布與三星電子達成 165 億美元的AI6 芯片采購協(xié)議，但沒有提供生產(chǎn)時間表。

那么特斯拉為什么要這么做？接下來特斯拉AI芯片如何發(fā)展？采用什么樣的技術(shù)路徑？

本文將探討特斯拉的AI芯片之旅、根據(jù)海外信息總結(jié)其下一代芯片的架構(gòu)和技術(shù)，希望給大家?guī)硪恍┬畔ⅰ?/p>

Dojo 超級計算機和特斯拉的 AI 野心

Dojo超級計算機于2021年推出，體現(xiàn)了特斯拉利用其全球車隊的PB級數(shù)據(jù)來訓練全自動駕駛(FSD)模型的雄心壯志。Dojo基于專有的D1芯片構(gòu)建，目標是實現(xiàn)超過百億億次浮點運算的計算性能，以加速神經(jīng)網(wǎng)絡訓練。

在這個項目因其規(guī)模之大而備受贊譽——分析師曾根據(jù)其顛覆數(shù)據(jù)中心計算市場的潛力，將Dojo估值定為5000億美元。

而到了2025年的今天，如我們文章《塵埃落定！Model Y就是“平價特斯拉”：成本削減大揭秘》中講到特斯拉的財報數(shù)字，在中國電動車崛起等影響下不斷遭遇“滑鐵盧”。以2025 Q2為例特斯拉全球交付量暴跌14%，銷售額下降12 %，至224億美元，創(chuàng)下至少十年來的最大降幅。利潤縮水16%，至11億美元。

這些，就讓Dojo 的發(fā)展的資源和成本問題更加凸顯：先進工藝節(jié)點制造定制硅片需要大量的資本支出和較長的交貨時間。對訓練和推理架構(gòu)的平行投資使工程資源捉襟見肘。

此外，從原型模塊擴展到全尺寸吊艙架構(gòu)這里面的工程落地技術(shù)難點，也不那么容易。

最后，人工智能芯片巨頭英偉達的競爭腳步，也是讓人難以抵抗。

所以，現(xiàn)在2025年中期，特斯拉內(nèi)部逐漸意識到，維持兩種截然不同的芯片架構(gòu)——Dojo用于訓練，AI 5/6用于推理——并非理想之選。

不過也有消息稱Dojo 其實就是AI6的實驗，換句話說AI6可能會采用Dojo實踐的技術(shù)理論。

解碼特斯拉 AI5芯片

特斯拉的 AI5 芯片計劃于 2026 年投入生產(chǎn)，根據(jù)網(wǎng)絡信息，特斯拉AI5預計可達到2000–2500 TOPS（每秒萬億次運算），使用int8精度，峰值功率達800瓦。

架構(gòu)方面，AI5 具備先進的矩陣乘法引擎，支持混合精度（FP16、BFLOAT16、INT8），并采用統(tǒng)一緩存層次結(jié)構(gòu)，優(yōu)化FSD任務性能。

其實 AI5的設(shè)計于2025年7月完成，由于戰(zhàn)略調(diào)整和出口限制，生產(chǎn)推遲至2026年第四季度。

由于高性能，AI5面臨出口限制，需在某些市場提供性能受限版本以符合美國法規(guī)。采用雙層限制系統(tǒng)，限制“友好國家”的購買，并在“競爭國家”實施額外限制。

那么中國市場有可能會是閹割版的 AI5了。那么特斯拉AI5采用了哪些關(guān)鍵技術(shù)？

異構(gòu)計算核心，AI5 采用由三種集群類型組成的異構(gòu)結(jié)構(gòu)：

張量加速器：這些固定功能單元可處理 16 位和 8 位精度的批量矩陣乘法，支持常見的 AI 基元（卷積、GEMM、全連接層）。利用脈動陣列拓撲，每個張量加速器可實現(xiàn) >1TFLOP/W 的效率。

矢量 DSP：針對不規(guī)則工作負載（激活函數(shù)、元素運算、規(guī)范化、索引）進行優(yōu)化的可編程內(nèi)核。它們采用 VLIW（超長指令字）架構(gòu)，并支持預測執(zhí)行，從而減少了分支密集型代碼的流水線停頓。

標量微控制器：輕量級 RISC-V 內(nèi)核，專用于控制平面任務：任務調(diào)度、I/O 管理和電源門控協(xié)調(diào)。通過在此卸載非矩陣任務，張量加速器和 DSP 可維持峰值吞吐量。

與純粹以矩陣為中心的設(shè)計相比，策略性地卸載控制和不規(guī)則處理可以將整體利用率提高15-20%。

推理中最持久的瓶頸之一是內(nèi)存帶寬。在AI5中，Tesla 采用高帶寬內(nèi)存集成：封裝 HBM3 可最大限度地減少 DRAM 和計算單元之間的數(shù)據(jù)傳輸延遲。AI5集成了多層內(nèi)存層次結(jié)構(gòu)：

SRAM 暫存器：每個張量簇擁有總計 2 MB 的本地存儲體，旨在實現(xiàn)亞 1ns 級訪問。這些存儲體緩存輸入激活和權(quán)重塊，從而實現(xiàn)短小重復的計算循環(huán)零 DRAM 流量。

統(tǒng)一二級緩存： eDRAM 中實現(xiàn)的 64 MB 高帶寬緩存位于集群和全局 DRAM 接口之間。憑借 2 TB/s 的總帶寬，二級緩存可作為較大模型參數(shù)和特征圖的暫存區(qū)。

LPDDR5X 外部 DRAM： AI5 最高支持 24 GB，每個引腳運行速度為 8 Gbps。Tesla 的定制內(nèi)存控制器會根據(jù)工作負載強度動態(tài)調(diào)整頻率和時序，從而在稀疏推理或提前退出推理場景下降低速度（和功耗）。

稀疏計算優(yōu)化：硬件支持動態(tài)稀疏性，以降低推理過程中的功耗。這個是不是很熟悉，當前理想汽車在英偉達Thor U上布局VLA的時候就采用此類方法。

AI推理工作負載對較低的數(shù)值精度的容忍度越來越高。特斯拉在 AI5 中采用了混合精度策略：

FP8 和 INT4/INT2 單元：對于視覺和感知模型，許多層可以以 8 位浮點 (FP8) 甚至 4 位整數(shù)執(zhí)行，且精度不會降低 1% 至 2%。AI5 集成了專用的 FP8 數(shù)據(jù)路徑和 INT4 乘法累加器，在量化模式下使 MAC 吞吐量翻倍。

動態(tài)范圍校準：片上校準電路可監(jiān)測初始批次中的激活分布，并自動調(diào)整 INT4 量化的零點和比例因子。這消除了部署流程中的手動量化步驟。

混合精度調(diào)度：基于改進的 TensorRT 和 Tesla 內(nèi)部優(yōu)化器構(gòu)建的軟件堆棧，以最佳精度調(diào)度每一層。關(guān)鍵的規(guī)范化或跳過連接以 16 位運行，而高度可并行化的卷積層則以 4 位運行。

將這些混合精度模式直接集成到硬件數(shù)據(jù)路徑中至關(guān)重要。僅僅在軟件中支持量化是不夠的；芯片必須設(shè)計成能夠無縫切換模式，否則系統(tǒng)開銷會侵蝕功耗，而特斯拉AI 5的設(shè)計就考慮了這些因素。

關(guān)于特斯拉AI6

除了 AI5 之外，特斯拉還與三星代工廠簽署了一項價值 165 億美元的協(xié)議，共同研發(fā)其 AI6 芯片。這些下一代設(shè)備將進一步優(yōu)化節(jié)點擴展至 3 納米或更低，并集成增強的片上互連，以支持跨多個芯片的集群推理。特斯拉工程師預計，在實際的全自動駕駛 (FSD) 場景中，AI6 的性能將比 AI5 提升 2 到 3 倍。

具體關(guān)于AI6的技術(shù)信息很少，有的話，也就是前文說的AI6就是Dojo。所以，有觀點說Dojo 不是一個失敗的項目，而是一個重要的實驗階段：

D1芯片：大規(guī)模并行處理驗證

D2計劃：精密開關(guān)測試

AI5：統(tǒng)一架構(gòu)的部分驗證

AI6：全面實現(xiàn)集成

從可配置偏差到模塊化的進展、更高精度中間格式的一致使用以及硬件級操作交錯都體現(xiàn)了特斯拉多年來執(zhí)行的連貫技術(shù)策略。

寫在最后

特斯拉是物理人工智能的成功探索者，其在物理人工智能領(lǐng)域的軟硬探索是相當?shù)某晒颓把�，引領(lǐng)了時代。不過遺憾的是特斯拉現(xiàn)在對自己的技術(shù)信息隱藏的很深，所以很難找到特斯拉最新的相關(guān)技術(shù)信息，本文的技術(shù)信息源頭不確定，所以需要斟酌看，懂行的可以留言討論交流。

原文標題 : 解碼特斯拉新AI芯片戰(zhàn)略：從Dojo到AI5和AI6推理引擎