訂閱
糾錯(cuò)
加入自媒體

DeepSeek殺出一條血路:國(guó)產(chǎn)大模型突圍不靠運(yùn)氣!

【從注意力到Agent,能力躍遷的底層解法。】

作者:高恒出品:高見(jiàn)觀潮  全文約3500字,閱讀時(shí)間大約5分鐘

進(jìn)入2025年末,全球大模型賽道的技術(shù)焦點(diǎn)幾乎被Google重新奪回。Gemini 3 Pro橫空出世,在多個(gè)權(quán)威基準(zhǔn)上超越所有開(kāi)源模型,重新確立了閉源陣營(yíng)的技術(shù)高地。一時(shí)間,業(yè)內(nèi)關(guān)于“開(kāi)源模型是否已到極限”“Scaling Law是否真的撞墻”的質(zhì)疑聲再起,一股遲滯情緒在開(kāi)源社區(qū)彌漫。

但就在此時(shí),DeepSeek沒(méi)有選擇沉默。12月1日,它一口氣發(fā)布了兩款重磅模型:推理性能對(duì)標(biāo)GPT-5的DeepSeek-V3.2,以及在數(shù)學(xué)、邏輯和多輪工具調(diào)用中表現(xiàn)異常強(qiáng)勢(shì)的Speciale版本。這不僅是對(duì)技術(shù)能力的集中展示,也是在當(dāng)前算力資源并不占優(yōu)的前提下,對(duì)閉源“新天花板”的正面回應(yīng)。

這不是一次簡(jiǎn)單的模型更新。DeepSeek試圖在后Scaling時(shí)代找出一條全新路徑:如何用架構(gòu)重塑彌補(bǔ)預(yù)訓(xùn)練差距?如何通過(guò)“工具使用中的思考鏈”實(shí)現(xiàn)低token高效率的智能體表現(xiàn)?更關(guān)鍵的是,Agent為何從附屬功能變成了模型能力躍遷的核心引擎?

本文將圍繞這三條主線展開(kāi)分析:DeepSeek是如何在技術(shù)瓶頸下突破的?為何率先在開(kāi)源陣營(yíng)中重注Agent?而這是否意味著,開(kāi)源模型仍有穿透閉源護(hù)城河的那條路?

一、從落后到并跑,DeepSeek靠什么殺入第一梯隊(duì)

在頂級(jí)AI模型的競(jìng)技場(chǎng)中,開(kāi)源選手一直被認(rèn)為只能“追平”,難以真正“對(duì)抗”。但這一次,DeepSeek-V3.2交出的成績(jī)單,已不再是追趕者的姿態(tài)。

根據(jù)DeepSeek官方公布的數(shù)據(jù),V3.2在公開(kāi)的推理類基準(zhǔn)測(cè)試中,已全面對(duì)標(biāo)GPT-5,僅略低于Gemini 3 Pro。在多個(gè)關(guān)鍵評(píng)估中,它不僅穩(wěn)定勝出Kimi-K2-Thinking,還成功刷新了國(guó)內(nèi)開(kāi)源模型在推理能力上的最高紀(jì)錄。在數(shù)學(xué)、邏輯、復(fù)雜問(wèn)答等任務(wù)中,DeepSeek-V3.2的表現(xiàn)接近閉源領(lǐng)先模型,已足以躋身“全球第二梯隊(duì)”的頭部。

這背后的關(guān)鍵,并非大模型“繼續(xù)放大”就能解釋。DeepSeek的突破,核心在于對(duì)底層架構(gòu)的重塑,尤其是稀疏注意力機(jī)制(DSA)的引入。傳統(tǒng)Transformer架構(gòu)中,注意力機(jī)制對(duì)每一個(gè)token都要計(jì)算與前序所有token之間的關(guān)系,其計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng),成為大模型推理中的主要成本瓶頸。

而DSA所引入的“閃電索引器”(Lightning Indexer),則相當(dāng)于在這場(chǎng)計(jì)算中裝上了一套“快速預(yù)判器”——它不再對(duì)所有token做全量注意力分配,而是通過(guò)極少量、低精度的索引頭(可在FP8上運(yùn)行)快速篩出最關(guān)鍵的token對(duì),只對(duì)這些核心位置進(jìn)行精算。這樣的設(shè)計(jì),使得模型的核心注意力機(jī)制從平方級(jí)復(fù)雜度降至近線性,即便在128K這樣的超長(zhǎng)上下文輸入中,也能保持相對(duì)穩(wěn)定的計(jì)算負(fù)擔(dān)。

值得注意的是,DeepSeek在引入DSA時(shí)并未選擇激進(jìn)替換,而是采取了“密集預(yù)熱—稀疏過(guò)渡”的雙階段訓(xùn)練策略。在模型預(yù)訓(xùn)練的早期階段,保留原始注意力結(jié)構(gòu),僅訓(xùn)練索引器模仿原始分布;而后再在后訓(xùn)練階段逐步替換為稀疏結(jié)構(gòu),實(shí)現(xiàn)無(wú)中斷切換。這種“架構(gòu)漸變式演進(jìn)”,讓V3.2在長(zhǎng)上下文推理中不僅效率提升,精度也未受損。Fiction.liveBench、AA-LCR等長(zhǎng)文本任務(wù)測(cè)試顯示,V3.2在信息召回、上下文一致性和壓縮表達(dá)能力方面的得分均有顯著上升。

但更具行業(yè)價(jià)值的突破,并不止于此。DeepSeek在V3.2中首次提出“Thinking in Tool-Use”的工具使用范式,將模型的執(zhí)行鏈條從“思考→調(diào)用工具→結(jié)束”改造為“思考→調(diào)用→繼續(xù)思考→再調(diào)用”的交錯(cuò)邏輯。這種機(jī)制與近年來(lái)Agent領(lǐng)域提出的“Interleaved Thinking”方向高度一致,不僅提升了工具調(diào)用的邏輯持續(xù)性,也讓模型能夠在一次任務(wù)中反復(fù)復(fù)用推理中間狀態(tài)。

這種能力,在真實(shí)的Agent場(chǎng)景中尤為關(guān)鍵,F(xiàn)實(shí)任務(wù)往往并非一步到位,而是需要多輪信息獲取、驗(yàn)證與策略修正。如果每次調(diào)用工具都讓模型“失憶”一次,就意味著它必須不斷從頭再推一次。而V3.2的做法,是明確將“推理軌跡”保留為上下文中的一部分,在工具返回新信息后,接續(xù)原思考路徑繼續(xù)向下延伸。這樣的機(jī)制不僅減少了重復(fù)token生成,也大幅降低了因狀態(tài)漂移造成的邏輯中斷。

歸根結(jié)底,DeepSeek的這輪技術(shù)躍遷,并非靠更大的FLOPs堆出來(lái),而是靠“更聰明地用算力”。DSA讓計(jì)算分配更有效,交錯(cuò)思維讓工具調(diào)用更穩(wěn)定,兩個(gè)維度共同指向一個(gè)目標(biāo):讓模型真正成為一個(gè)“可持續(xù)思考的智能體”,而不僅是一個(gè)大號(hào)的語(yǔ)言補(bǔ)全器。

這也意味著,在規(guī)模紅利見(jiàn)頂之后,未來(lái)模型的競(jìng)爭(zhēng)焦點(diǎn),將逐步從“參數(shù)多少”回歸到“思維組織力”與“能效比”。而V3.2,恰好是這一轉(zhuǎn)向的早期注腳。

二、押注Agent,不是跟風(fēng),而是戰(zhàn)略拐點(diǎn)

相比模型性能上的技術(shù)突破,DeepSeek-V3.2在戰(zhàn)略路徑上的最大變化,是它將“Agent能力”與“推理能力”并列,明確寫入技術(shù)文檔的核心指標(biāo)。這是過(guò)去國(guó)內(nèi)開(kāi)源模型幾乎未曾公開(kāi)強(qiáng)調(diào)過(guò)的方向調(diào)整。在DeepSeek看來(lái),Agent不再是工具調(diào)用的附屬模塊,而是模型能力釋放與產(chǎn)業(yè)落地之間的橋梁,甚至是未來(lái)大模型平臺(tái)化的前哨站。

這種判斷并非脫離現(xiàn)實(shí)的技術(shù)浪漫。過(guò)去一年,大模型行業(yè)經(jīng)歷了一個(gè)重要轉(zhuǎn)向:企業(yè)開(kāi)始意識(shí)到,“更聰明的聊天機(jī)器人”帶來(lái)的邊際價(jià)值正在減退,真正具備“動(dòng)作能力”的Agent,才是有望形成商業(yè)閉環(huán)的核心角色。從自動(dòng)寫報(bào)告、自動(dòng)生成報(bào)表,到批量工單處理與代碼修復(fù),企業(yè)愿意為這些“可執(zhí)行”的智能體付費(fèi),而不是為一句更像人類的話語(yǔ)買單。

這也解釋了為何DeepSeek在V3.2后訓(xùn)練階段投入大量資源打造Agent訓(xùn)練體系,并自建了一套規(guī);娜蝿(wù)生成流水線。據(jù)官方披露,團(tuán)隊(duì)為此合成了超過(guò)1800個(gè)智能體環(huán)境,并圍繞Agent任務(wù)設(shè)計(jì)了約85,000條高復(fù)雜度任務(wù)提示。這些任務(wù)并非來(lái)源于人工標(biāo)注,而是通過(guò)環(huán)境構(gòu)建器與軌跡評(píng)分機(jī)制自動(dòng)生成,并借助強(qiáng)化學(xué)習(xí)形成閉環(huán)訓(xùn)練。

這種做法跳出了傳統(tǒng)預(yù)訓(xùn)練依賴海量對(duì)話語(yǔ)料的思路。相比之下,Agent任務(wù)軌跡具備更強(qiáng)的結(jié)構(gòu)性、驗(yàn)證性和稀缺性。一旦構(gòu)建完成,訓(xùn)練效果將遠(yuǎn)優(yōu)于常規(guī)“對(duì)話式補(bǔ)全”。更關(guān)鍵的是,強(qiáng)化學(xué)習(xí)機(jī)制使得模型能力可以不斷通過(guò)反饋回路優(yōu)化,而不再受限于預(yù)訓(xùn)練階段的單向迭代。

DeepSeek在訓(xùn)練中采用了自研的GRPO(Group Relative Policy Optimization)策略,并對(duì)其進(jìn)行了深度本地化適配,以適應(yīng)大規(guī)模多輪任務(wù)訓(xùn)練。在這一過(guò)程中,模型不僅需要優(yōu)化單輪產(chǎn)出的合理性,更要平衡多輪任務(wù)中的推理一致性與語(yǔ)言表達(dá)穩(wěn)定性。為避免傳統(tǒng)RL中“災(zāi)難性遺忘”的問(wèn)題,DeepSeek將推理獎(jiǎng)勵(lì)、語(yǔ)言一致性得分與任務(wù)完成度打分整合為多維獎(jiǎng)勵(lì)信號(hào),使得模型在訓(xùn)練中持續(xù)保持Agent執(zhí)行鏈的完整性。

而要支撐這一復(fù)雜的訓(xùn)練機(jī)制,模型自身的“狀態(tài)感知能力”也必須同步升級(jí)。V3.2在架構(gòu)中引入了完整的上下文管理策略:模型只會(huì)在用戶發(fā)出新消息時(shí)重置思考狀態(tài),而在連續(xù)的工具調(diào)用過(guò)程中,其推理軌跡將被完整保留。這意味著模型可以持續(xù)積累“思維殘留”,在工具返回新信息后繼續(xù)推理而非重啟邏輯。這種“狀態(tài)延續(xù)機(jī)制”成為Agent多輪行為連續(xù)性的重要保障,也使得模型能勝任更復(fù)雜、跨階段的任務(wù)拆解。

從系統(tǒng)邏輯上看,DeepSeek對(duì)Agent的理解已從“任務(wù)執(zhí)行插件”上升到了“模型操作系統(tǒng)”的組成部分。它不是一個(gè)外掛,而是模型核心運(yùn)行結(jié)構(gòu)的一部分。這種系統(tǒng)觀的轉(zhuǎn)變,意味著未來(lái)大模型平臺(tái)的形態(tài)將趨近于一個(gè)調(diào)度操作系統(tǒng):模型本身是OS內(nèi)核,Agent是用戶態(tài)的執(zhí)行程序,插件工具則成為可調(diào)用模塊。誰(shuí)掌握了Agent層的標(biāo)準(zhǔn),誰(shuí)就可能在AI時(shí)代掌控平臺(tái)話語(yǔ)權(quán)。

這也是為何DeepSeek試圖主導(dǎo)“交錯(cuò)式思維+工具使用”的統(tǒng)一范式,并提出“Thinking in Tool-Use”這樣的底層設(shè)計(jì)語(yǔ)言。這不僅是技術(shù)細(xì)節(jié)的不同,更是一種平臺(tái)思維的顯現(xiàn)。

對(duì)行業(yè)而言,DeepSeek的這一輪轉(zhuǎn)向標(biāo)志著一個(gè)新的分水嶺:Agent能力不再是工程團(tuán)隊(duì)“可做可不做”的附加選項(xiàng),而是模型構(gòu)建路徑中的核心分支。是否具備平臺(tái)級(jí)Agent能力,已經(jīng)成為衡量模型中長(zhǎng)期競(jìng)爭(zhēng)力的關(guān)鍵指標(biāo)之一。

三、開(kāi)源模型的極限在哪里?DeepSeek的“后訓(xùn)練戰(zhàn)術(shù)”試圖給出答案

盡管V3.2和Speciale在多個(gè)基準(zhǔn)上實(shí)現(xiàn)了開(kāi)源“從追趕到并跑”的逆轉(zhuǎn),但DeepSeek在技術(shù)報(bào)告中也坦言:開(kāi)源模型與閉源系統(tǒng)之間的差距,仍在某些關(guān)鍵維度上被進(jìn)一步拉大。尤其是在知識(shí)廣度、極復(fù)雜任務(wù)處理能力以及token生成效率上,開(kāi)源體系仍受限于資源、數(shù)據(jù)與預(yù)算。

DeepSeek選擇并不掩飾這些局限,而是以極具可執(zhí)行性的策略給出了回應(yīng):如果資源拼不過(guò),就從方法入手,把訓(xùn)練過(guò)程“做深”。

這一策略的核心,是其獨(dú)有的“后訓(xùn)練三件套”:專家蒸餾 + 多軌強(qiáng)化學(xué)習(xí) + 工具思維機(jī)制融合。

首先,是專家蒸餾(Expert Distillation)。在大多數(shù)模型仍以通用數(shù)據(jù)混合訓(xùn)練為主時(shí),DeepSeek為V3.2量身打造了六類專家模型,覆蓋數(shù)學(xué)、編程、邏輯推理、通用Agent、Agent編程和Agent搜索等核心能力域。每一類任務(wù)均有一組專屬模型,在自有數(shù)據(jù)集和生成軌跡中強(qiáng)化單一技能。這些專家并不直接部署,而是用來(lái)生成高質(zhì)量訓(xùn)練樣本,反哺主模型。

隨后,這些“任務(wù)專精模型”產(chǎn)出的數(shù)據(jù),會(huì)被統(tǒng)一用于訓(xùn)練一個(gè)通用模型。在技術(shù)上,這相當(dāng)于用多個(gè)極致偏科的“學(xué)霸”反向喂養(yǎng)一個(gè)全面發(fā)展的“全才”,既避免了多任務(wù)訓(xùn)練中的能力稀釋,又保留了不同任務(wù)之間的結(jié)構(gòu)聯(lián)通性。

第二層,則是強(qiáng)化學(xué)習(xí)(RL)的擴(kuò)展升級(jí)。DeepSeek延續(xù)了V3.2-Exp中的GRPO(Group Relative Policy Optimization)策略,并在數(shù)據(jù)與獎(jiǎng)勵(lì)結(jié)構(gòu)上進(jìn)一步升級(jí)。模型不僅要完成任務(wù),還需同時(shí)優(yōu)化語(yǔ)言質(zhì)量、推理鏈邏輯合理性與對(duì)工具的自然調(diào)用能力。整個(gè)后訓(xùn)練階段的算力投入,占比已超過(guò)了預(yù)訓(xùn)練預(yù)算的10%,在開(kāi)源模型體系中極為罕見(jiàn)。

更重要的是,強(qiáng)化學(xué)習(xí)過(guò)程中并非依賴人類評(píng)分,而是通過(guò)任務(wù)環(huán)境自帶的反饋機(jī)制與rubric自動(dòng)評(píng)分。這一設(shè)計(jì)使得模型訓(xùn)練不再受限于人工對(duì)齊數(shù)據(jù),而是進(jìn)入“結(jié)構(gòu)化任務(wù)-自動(dòng)評(píng)分-行為優(yōu)化”的閉環(huán)學(xué)習(xí)路徑,也因此形成了比Chat數(shù)據(jù)更稀缺、但更具復(fù)用性的模型能力。

第三層,是工具使用與“思考鏈”的融合機(jī)制。在訓(xùn)練初期,模型往往無(wú)法理解“什么時(shí)候該調(diào)用工具、何時(shí)該繼續(xù)思考”,導(dǎo)致推理軌跡斷裂、邏輯中斷。為此,DeepSeek為V3.2設(shè)計(jì)了一套冷啟動(dòng)系統(tǒng)提示,在思維軌跡中自然嵌入工具調(diào)用的示例,使得模型逐步學(xué)會(huì)在多輪任務(wù)中“帶著工具思考”,而非“思考完才調(diào)用工具”。

此外,整個(gè)上下文狀態(tài)也被重新設(shè)計(jì):工具調(diào)用不會(huì)中斷思考內(nèi)容,用戶新輸入才會(huì)觸發(fā)清除。這一策略顯著降低了token冗余,也避免了每輪任務(wù)都從頭開(kāi)始推理的問(wèn)題。

這些技術(shù)設(shè)計(jì)看似工程化,其實(shí)都指向一個(gè)本質(zhì)問(wèn)題:在參數(shù)量和訓(xùn)練規(guī)模受限的前提下,開(kāi)源模型如何提升“單位token的智能密度”。

DeepSeek給出的答案是,把資源盡可能壓縮在“推理鏈條”的關(guān)鍵路徑中,讓每一輪推理都盡可能多帶信息,盡可能少重復(fù)。這不是規(guī)模的勝利,而是方法的勝利。

當(dāng)然,即便如此,DeepSeek仍未完全填補(bǔ)開(kāi)源與閉源之間的知識(shí)鴻溝。官方報(bào)告也指出,V3.2的世界知識(shí)廣度與最新閉源模型仍有差距,Speciale模型雖然在復(fù)雜競(jìng)賽中表現(xiàn)突出,但token開(kāi)銷顯著增加,尚不適用于泛化日用場(chǎng)景。

但如果說(shuō)Gemini 3 Pro代表了閉源陣營(yíng)對(duì)“更大、更快、更強(qiáng)”的繼續(xù)探索,那么V3.2與Speciale所代表的,或許是一種“更輕、更穩(wěn)、更聰明”的新路徑。在行業(yè)對(duì)Scaling Law前景仍存爭(zhēng)議之際,DeepSeek正試圖以更強(qiáng)的推理組織力、更少的資源消耗、以及更高效的訓(xùn)練范式,重構(gòu)開(kāi)源模型的競(jìng)爭(zhēng)秩序。

文字丨高見(jiàn)觀潮原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)

       原文標(biāo)題 : DeepSeek殺出一條血路:國(guó)產(chǎn)大模型突圍不靠運(yùn)氣!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)