AⅤ无码亚洲免费区,九七人妻免费观看

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

“算力崩塌”，是真還是假

2025-02-08 15:32

巨潮商業(yè)評(píng)論

關(guān)注

文| 謝澤鋒

編輯| 楊旭然

DeepSeek的開發(fā)成本極低，開源、服務(wù)完全免費(fèi)，這讓山姆·奧特曼和其他AI人工智能的從業(yè)者“印象深刻”，讓世界首富馬斯克破防，讓瑞·達(dá)利歐對(duì)美股深感擔(dān)憂。

知名投資人“木頭姐” 凱茜·伍德甚至直言：DeepSeek加劇了人工智能的成本崩潰。

“神秘的東方力量”讓全世界為之側(cè)目，也引發(fā)了中美AI領(lǐng)導(dǎo)地位更替的思考。不過(guò)，對(duì)于算力進(jìn)行重新判斷，可能仍然為時(shí)尚早。

當(dāng)前，我國(guó)AI算力部署占全球算力基礎(chǔ)設(shè)施的26%，名列世界第二。在“算力即國(guó)力”的思潮下，東數(shù)西算等數(shù)字基礎(chǔ)設(shè)施工程正積極進(jìn)行。

DeepSeek顛覆了固有的“大力出奇跡”的大模型性能提升路徑，短期內(nèi)對(duì)算力需求預(yù)期會(huì)出現(xiàn)大幅下降。但長(zhǎng)期來(lái)看，算力部署仍然有大規(guī)模需求擴(kuò)張作的基礎(chǔ)。

正在進(jìn)行的超大規(guī)模算力投資，對(duì)于中國(guó)科技產(chǎn)業(yè)來(lái)說(shuō)，仍是一筆巨大的財(cái)富。Deepseek帶來(lái)的對(duì)算力成本的大幅節(jié)省，與如今中國(guó)大規(guī)模投入的算力基礎(chǔ)設(shè)施建設(shè)并不沖突。

本文是來(lái)自公眾號(hào)《巨潮WAVE》內(nèi)容團(tuán)隊(duì)的深度價(jià)值文章。

顛覆

DeepSeek的顛覆性創(chuàng)新，在于極致的效率革命。它僅用不到OpenAI十分之一的成本，就達(dá)到了后者最新大模型的性能。

1月20日，DeepSeek 正式發(fā)布DeepSeek-R1模型系列，大模型排行榜Chatbot Arena上，DeepSeek- R1的基準(zhǔn)測(cè)試排名已升至全類別第三，與ChatGPT-4o最新版并駕齊驅(qū)，并在風(fēng)格控制類模型分類中與OpenAI-o1并列頭名。

R1模型雖未公布訓(xùn)練成本，但據(jù)DeepSeekV3技術(shù)報(bào)告，V3模型的訓(xùn)練總計(jì)只需要278.8萬(wàn)GPU小時(shí)，相當(dāng)于在2048塊H800 (英偉達(dá)特供中國(guó)市場(chǎng)的低配版GPU)集群上訓(xùn)練約2個(gè)月，合計(jì)成本僅557.6萬(wàn)美金。

有傳言，R1模型的訓(xùn)練成本基本相當(dāng)，但參數(shù)規(guī)模達(dá)到驚人的6710億，這些數(shù)據(jù)都足夠令外界震驚。

作為對(duì)比，GPT-4o模型的訓(xùn)練成本約為1億美元，需要英偉達(dá)GPU量級(jí)在萬(wàn)塊以上，且是比H800性能更強(qiáng)的H100。

同樣是開源模式的Meta Llama 3 系列模型，其訓(xùn)練需要多達(dá)3930萬(wàn)H100 GPU小時(shí)，DeepSeek的訓(xùn)練成本約相當(dāng)于Llama 3的7%。也有AI大佬表示過(guò)，僅DeepSeek-V3級(jí)別的能力就需要接近16000顆GPU的集群。

也就是說(shuō)，這家中國(guó)初創(chuàng)AI公司僅用不到十分之一的成本，就達(dá)到了世界一流水平。

這種顛覆性的成本優(yōu)勢(shì)，極有可能改變過(guò)往“高投入、高算力”的研發(fā)路徑，市場(chǎng)對(duì)算力硬件需求持續(xù)高增長(zhǎng)的預(yù)期或產(chǎn)生動(dòng)搖。

“四兩撥千斤”的能力源于其自研的MLA和MOE架構(gòu)，為其自身的模型訓(xùn)練成本下降起到了關(guān)鍵作用。

此外，R1模型使用數(shù)據(jù)蒸餾技術(shù)（Distillation），通過(guò)一系列算法和策略，將原始復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉，從而得到更為精煉、更為有用的數(shù)據(jù)，提升訓(xùn)練效率。

模型蒸餾可以通過(guò)訓(xùn)練小型模型模仿大型模型，廣泛應(yīng)用于提高AI效率與降低成本。比喻來(lái)說(shuō)，DeepSeek相當(dāng)于通過(guò)更高效的學(xué)習(xí)方法獲得了優(yōu)異分?jǐn)?shù)，而OpenAI還在搞題海戰(zhàn)術(shù)。

關(guān)于“蒸餾技術(shù)”網(wǎng)絡(luò)上出現(xiàn)了一些爭(zhēng)議

OpenAI的訓(xùn)練非常依賴人工，其數(shù)據(jù)團(tuán)隊(duì)甚至分為不同水平的部門，大量數(shù)據(jù)標(biāo)注還要轉(zhuǎn)交給肯尼亞等廉價(jià)外包勞工，高維數(shù)據(jù)還需更高素質(zhì)的專業(yè)人員進(jìn)行標(biāo)注，這些都是成本。

近期OpenAI和一些輿論也在公開指責(zé)DeepSeek團(tuán)隊(duì)通過(guò)“模型蒸餾”技術(shù)“違規(guī)復(fù)制”其產(chǎn)品功能，但始終未提供具體證據(jù)。

而且“數(shù)據(jù)越多性能越強(qiáng)”屬于慣性固有思維，因?yàn)閿?shù)據(jù)量越多，其中的干擾也將隨之變大，在此之前，市場(chǎng)上已經(jīng)有“人工智能變蠢了”的討論出現(xiàn)。

也就是說(shuō)，如何對(duì)數(shù)據(jù)進(jìn)行清洗和精煉，同樣是提升模型能力的關(guān)鍵。通過(guò)創(chuàng)新訓(xùn)練方法，DeepSeek改變了堆砌算力的共識(shí)。

正如創(chuàng)始人梁文鋒所說(shuō)：“我們想去驗(yàn)證一些猜想�！�

改寫

半導(dǎo)體領(lǐng)域普遍遵循摩爾定律，AGI行業(yè)則是沿著Scaling Law（模型規(guī)模定律）向前演進(jìn)。

Scaling Law被業(yè)界認(rèn)為是大模型訓(xùn)練的“第一性原理”，模型性能與規(guī)模（參數(shù)量、數(shù)據(jù)大小、算力資源）呈正相關(guān)——參數(shù)越多、計(jì)算資源越大，模型的性能就越強(qiáng)。

好比一個(gè)中學(xué)生，給他提供更豐富的學(xué)習(xí)資料、更長(zhǎng)的學(xué)習(xí)時(shí)間和更好的學(xué)習(xí)環(huán)境，他的學(xué)習(xí)成績(jī)普遍會(huì)更好。

此次AI浪潮正是以Scaling law為底層邏輯的技術(shù)革命，但DeepSeek的出現(xiàn)打破了這一定律，或者至少讓Scaling law的邊際效益出現(xiàn)放緩的跡象。

這帶給業(yè)界的啟示是，人工智能產(chǎn)業(yè)將不再一味追求大規(guī)模算力的投入，而是在模型架構(gòu)和工程優(yōu)化結(jié)合上進(jìn)行突破。粗放式的瘋狂投入發(fā)展階段逐步退潮，AI創(chuàng)新進(jìn)入追求效率，追求模型架構(gòu)設(shè)計(jì)、工程優(yōu)化全新階段。

正如達(dá)摩院首席科學(xué)家趙德麗所認(rèn)為的，大模型可以看成是知識(shí)的壓縮，怎么利用知識(shí)產(chǎn)生更好的智能，就是基于基礎(chǔ)模型的思維推理必然發(fā)展的方向。

如微軟rStar-Math無(wú)需蒸餾，用60塊A100訓(xùn)練的7B模型在數(shù)學(xué)推理上可媲美 OpenAI-o1；上海 AI 實(shí)驗(yàn)室的書生·浦語(yǔ)3.0，僅使用4T數(shù)據(jù)進(jìn)行訓(xùn)練，綜合性能超過(guò)了同量級(jí)的開源模型，而且訓(xùn)練成本降低了75%以上。

DeepSeek帶來(lái)的“范式轉(zhuǎn)移”，不僅破除了科技大廠建立的技術(shù)領(lǐng)先壁壘，同時(shí)還打破了重資本比拼的游戲慣例。而且它不僅開源，而且還免費(fèi)。

作為回應(yīng)，OpenAI緊急上線新一代推理模型o3系列的mini版本，并且首次免費(fèi)向用戶開放其基礎(chǔ)功能。奧特曼承認(rèn)，“我個(gè)人認(rèn)為，在（開閉源）這個(gè)問題上我們站在了歷史的錯(cuò)誤一方，需要找出一個(gè)不同的開源策略�！�

效率優(yōu)化策略，無(wú)疑給互聯(lián)網(wǎng)大廠們的超級(jí)愿景潑了一盆冷水。

字節(jié)跳動(dòng)2024年在AI賽道的資本開支就高達(dá)800億元，接近BAT的總和；微軟、谷歌、亞馬遜、Meta、蘋果五巨頭合計(jì)資本開支2253億美元，2025年有望繼續(xù)增長(zhǎng)19.6%。其中，單是微軟就計(jì)劃在2025財(cái)年砸下800億美元，用于建設(shè)人工智能數(shù)據(jù)中心。

就在DeepSeek-R1模型發(fā)布兩天后，美國(guó)政府就聯(lián)合OpenAI、軟銀、甲骨文等啟動(dòng)“星際之門”項(xiàng)目，計(jì)劃在未來(lái)四年內(nèi)最高投資5000億美元。孫正義還宣布要給OpenAI投資250億美元，巨頭們期望通過(guò)“軍備競(jìng)賽”，維持自身在AI領(lǐng)域的全球領(lǐng)導(dǎo)地位。

此前，美國(guó)大廠為GPT-5、Llama4等下一代模型正使盡全力補(bǔ)充算力，奧特曼甚至一度去找到中東巨富，計(jì)劃籌集7萬(wàn)億美金建設(shè)一座超級(jí)數(shù)據(jù)中心和芯片制造廠。

奧特曼一度試圖籌資7萬(wàn)億美元

DeepSeek的出現(xiàn)，改變了這種超大規(guī)模擴(kuò)張算力的行業(yè)發(fā)展“固定路徑”，但同時(shí)也出現(xiàn)了一種應(yīng)該徹底放棄算力建設(shè)的聲音。

過(guò)剩？

國(guó)家算力戰(zhàn)略部署的復(fù)雜性，顯然會(huì)超過(guò)一般輿論討論所得出的結(jié)論。尤其是，我國(guó)算力基礎(chǔ)設(shè)施目前仍處于初步搭建階段，還遠(yuǎn)未到過(guò)剩狀態(tài)。

一方面，隨著訪問量急速飆升，用戶蜂擁而至，DeepSeek深度思考和聯(lián)網(wǎng)搜索功能也出現(xiàn)了宕機(jī)情況。DeepSeek移動(dòng)應(yīng)用上線僅18天就迎來(lái)了1600萬(wàn)次下載，幾乎是ChatGPT同期的兩倍，更是成為全球140個(gè)市場(chǎng)中下載量最高的APP。

另一方面，需要注意的是，DeepSeek目前僅支持文字問答、讀圖、讀文檔等功能，還未涉及圖片、音頻和視頻生成領(lǐng)域，未來(lái)要想突破文本范疇，其對(duì)算力和前期訓(xùn)練成本的投入都將呈幾何級(jí)飆升。

對(duì)于其他追隨DeepSeek的大模型公司來(lái)說(shuō)情況也是類似，隨著用戶的增長(zhǎng)和產(chǎn)品線的不斷豐富，最終都需要不斷擴(kuò)張算力。目前國(guó)內(nèi)各大投資機(jī)構(gòu)都在“瘋狂對(duì)接”DeepSeek，顯然是對(duì)此有非常清晰的判斷。

百度CTO王海峰就認(rèn)為，規(guī)模定律（Scaling Law）仍然有效，更高質(zhì)量更大規(guī)模的數(shù)據(jù)、更大的模型將會(huì)帶來(lái)更強(qiáng)的能力。

目前算力建設(shè)已成為國(guó)家級(jí)戰(zhàn)略。2024年《政府工作報(bào)告》中就明確提出，適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施，加快形成全國(guó)一體化算力體系。根據(jù)《中國(guó)綜合算力指數(shù)（2024年）》報(bào)告，截至2023年末，我國(guó)算力基礎(chǔ)設(shè)施規(guī)模占全球的26%，名列第二，僅次于美國(guó)。

工信部數(shù)據(jù)顯示，截至2024年9月，我國(guó)算力總規(guī)模246EFLOPS（每秒進(jìn)行百億億次浮點(diǎn)運(yùn)算的能力），在用算力中心機(jī)架總規(guī)模超過(guò)830萬(wàn)標(biāo)準(zhǔn)機(jī)架。

此前，六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》，其中指出到2025年，我國(guó)算力規(guī)模將達(dá)到300EFLOPS，智能算力占比要達(dá)到35%。

“東數(shù)西算”工程早在2021年5月就已啟動(dòng)，京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝、貴州、內(nèi)蒙古、甘肅、寧夏八大樞紐和10大集群雛形已現(xiàn)。

國(guó)內(nèi)已建、正在建設(shè)的智算中心超過(guò)250個(gè)，規(guī)劃具有超萬(wàn)張GPU集群的智算中心已有十多個(gè)，國(guó)產(chǎn)芯片廠商也因此受到極大關(guān)注。華為昇騰910B、寒武紀(jì)思元590、百度昆倉(cāng)芯II-R200、海光信息深算二號(hào)，加上中芯國(guó)際，共同形成了對(duì)抗英偉達(dá)、AMD的中國(guó)軍團(tuán)。

這些大規(guī)模部署和研發(fā)投入，都具有歷史性的戰(zhàn)略意義，是人工智能時(shí)代的重要社會(huì)財(cái)富。

寫在最后

用低成本開發(fā)出優(yōu)質(zhì)產(chǎn)品，是中國(guó)在資源匱乏的歷史條件下，實(shí)現(xiàn)工業(yè)現(xiàn)代化的獨(dú)特文化，而美國(guó)則擅長(zhǎng)所謂的“范佛里特彈藥量”，倚仗超大規(guī)模投入獲得超級(jí)領(lǐng)先地位。

在當(dāng)前的世界經(jīng)濟(jì)格局中，中國(guó)家電、光伏等制造業(yè)基本都是以高性價(jià)比策略取勝，DeepSeek的成功，也是在另一個(gè)領(lǐng)域中體現(xiàn)出了中國(guó)智慧、巧思和韌性。

中美AI拉鋸的混戰(zhàn)中，原先還處在追趕階段的中國(guó)企業(yè)，突然以一種領(lǐng)先或顛覆者的身份出現(xiàn)，讓全球科技界大為吃驚。但我們?nèi)孕枰３掷潇o和謙遜的心態(tài)。

就像梁文鋒所說(shuō)的：

在美國(guó)每天發(fā)生的大量創(chuàng)新里，這是非常普通的一個(gè)。他們之所以驚訝，是因?yàn)檫@是一個(gè)中國(guó)公司，以創(chuàng)新貢獻(xiàn)者的身份，加入到他們的游戲里去。

也正因如此，算力基礎(chǔ)設(shè)施仍是一種人工智能時(shí)代不可或缺的創(chuàng)新土壤、社會(huì)資源。

原文標(biāo)題 : “算力崩塌”，是真是假｜巨潮