訂閱
糾錯
加入自媒體

改款DeepSeek,亂了華為心態(tài)

2025-07-07 18:34
源媒匯
關(guān)注

文源:源Byte

作者:柯基的柯

當技術(shù)參數(shù)的相關(guān)性飆到0.927,行業(yè)直接炸了。

近期,有研究團隊在GitHub上公開比對數(shù)據(jù),指出華為盤古ProMoE與阿里Qwen-2.5 14B參數(shù)結(jié)構(gòu)高度雷同,居然高達0.927,超過業(yè)內(nèi)正常范圍(通常低于0.7)。華為盤古團隊迅速回應(yīng),強調(diào)其模型基于昇騰硬件優(yōu)化,屬于“殊途同歸”,向來在輿論場上不輸陣仗的阿里,卻意外保持沉默。

圖片

截圖來源于諾亞方舟實驗室公號

無獨有偶,就在上個月,月之暗面的Kimi-Dev-72B憑借60.4%的測試成績驚艷亮相,因“Basemodel:Qwen2.5-72B”的標注被貼上“套殼”標簽陷入爭議。就在開發(fā)者們爭論不休之時,外界發(fā)現(xiàn)“受害者”依舊是阿里,不禁發(fā)出如此疑問:這是微調(diào)技術(shù)的勝利,還是原創(chuàng)性匱乏的遮羞布?

而曾被寄予厚望的DeepSeek R2,遲遲未能面世,這款有望繼續(xù)對世界頂級大模型持續(xù)施壓的模型長期“跳票”,一定程度助推了國產(chǎn)大模型的技術(shù)標準“失焦”。

在一片R2“狼來了”的聲音中,市場似乎在等待中逐漸失去耐心,正在讓國產(chǎn)大模型的競爭,從技術(shù)比拼滑向資源內(nèi)耗。

01 參數(shù)之爭背后的技術(shù)迷局

華為盤古ProMoE與阿里Qwen-2.5 14B的“0.927相似度”,直接剖開了大模型研發(fā)的黑箱。

圖片

研究團隊通過比對注意力參數(shù)分布,發(fā)現(xiàn)兩者結(jié)構(gòu)相似性遠超行業(yè)常態(tài)。華為堅稱其模型基于昇騰硬件優(yōu)化,屬于“異構(gòu)架構(gòu)的殊途同歸”;阿里則保持沉默,但開源社區(qū)已涌現(xiàn)對代碼復用合規(guī)性的質(zhì)疑。

然而,技術(shù)細節(jié)的爭議很快滑向商業(yè)博弈的泥潭。

盤古團隊緊急發(fā)布技術(shù)白皮書,強調(diào)其MoE架構(gòu)的專利布局;阿里則加速推進Qwen-3.0迭代,似乎在用版本升級對沖輿論風險。一位不愿具名的芯片工程師透露:“參數(shù)結(jié)構(gòu)的趨同,本質(zhì)上是算力軍備競賽下的技術(shù)妥協(xié)。”

開發(fā)者社區(qū)并不買賬,用戶 @HonestAGI 通過 “LLM 指紋” 技術(shù)反向驗證,結(jié)果與原始研究高度吻合。技術(shù)趨同是否等同于抄襲?這一問題在開源社區(qū)引發(fā)激烈辯論。

支持華為的聲音認為,大模型領(lǐng)域的技術(shù)重疊難以避免,關(guān)鍵在于優(yōu)化和落地。昇騰生態(tài)的擁躉特別指出,盤古的動態(tài)專家網(wǎng)絡(luò)設(shè)計解決了分布式訓練負載均衡的難題,是實打?qū)嵉膭?chuàng)新。

但反對者,反對者翻出匿名爆料,稱部分盤古模型存在“洗水印”嫌棄——即對開源模型進行微調(diào)后重新包裝。盡管爆料未提供具體證據(jù),但阿里通義千問的開源協(xié)議中明確要求衍生模型需標注來源,這一細節(jié)讓爭議更加撲朔迷離。

從技術(shù)角度看,參數(shù)結(jié)構(gòu)的相似性可能源于訓練數(shù)據(jù)的重疊或優(yōu)化目標的趨同。但問題的核心在于,當兩家巨頭在公開場合強調(diào)“自主創(chuàng)新”時,這種高度一致性是否違背了開源協(xié)議的精神?

華為盤古團隊的回應(yīng)中,一個細節(jié)值得玩味:他們提到“參考了業(yè)界開源實踐”,但未具體說明哪些實踐。這種模糊表述讓外界難以判斷其行為的邊界。而阿里的沉默,則被解讀為一種戰(zhàn)術(shù)性回避,避免卷入公開論戰(zhàn)。

一位長期觀察AI行業(yè)的分析師表示:“參數(shù)之爭的背后,是國產(chǎn)大模型在高速發(fā)展中的身份焦慮——既要追趕國際巨頭,又要在本土競爭中脫穎而出。”這種焦慮,或許正是技術(shù)迷局的真正底色。

02 微調(diào)紅利與創(chuàng)新困局

華為與阿里的糾紛并非孤立事件,就在上個月,月之暗面與阿里就曾陷入類似的糾紛。

就在外界認為月之暗面要在國產(chǎn)大模型內(nèi)卷中掉隊之時,其推出的Kimi-Dev-72B在SWE-bench測試中一騎絕塵。

該模型通過1500億專項數(shù)據(jù)和數(shù)百萬GitHub工單優(yōu)化,將代碼任務(wù)準確率提升至60.4%。在當時,它刷新了開源模型的紀錄,將包括DeepSeek在內(nèi)的眾多競爭對手甩在了身后。

不過好景不長,開發(fā)者們很快發(fā)現(xiàn),Kimi-Dev-72B明確標注了其基礎(chǔ)模型為Qwen/Qwen2.5-72B,隨后,開發(fā)者社區(qū)的分歧迅速蔓延:有人將其視為“站在巨人肩膀上”的微調(diào)典范,也有人質(zhì)疑這是披著開源外衣的“技術(shù)組裝”。

微調(diào)本是行業(yè)常態(tài),但標注的透明性未能消弭質(zhì)疑。月之暗面官方解釋,他們以Qwen 2.5-72B為起點,收集了數(shù)百萬個GitHub問題單和PR提交作為中期訓練數(shù)據(jù)集,其核心創(chuàng)新點在于采用了大規(guī)模強化學習技術(shù)。

爭議的核心并非技術(shù)本身,而是創(chuàng)新的邊界。Kimi-Dev-72B的表現(xiàn)確實亮眼,但它的成功是否依賴于基座模型的原始能力?有匿名開發(fā)者尖銳指出:“如果微調(diào)就能達到頂尖水平,原創(chuàng)的價值在哪里?”

開源生態(tài)的規(guī)則正在被重新定義。阿里通過協(xié)議更新試圖維護技術(shù)主權(quán),而月之暗面則用性能說話,試圖證明微調(diào)并非簡單的“套殼”。市場反應(yīng)兩極分化:一部分企業(yè)開始效仿這種快速迭代的模式,另一部分則呼吁回歸原創(chuàng)研發(fā)。

值得注意的是,Kimi-Dev-72B的優(yōu)化框架確實有其獨特性,它結(jié)合了BugFixer和TestWriter角色,通過強化學習精準提升代碼修復和測試編寫的效率。

但這種優(yōu)化是否足以定義“創(chuàng)新”,仍是一個懸而未決的問題?梢姡袠I(yè)的焦慮感正在加劇,當微調(diào)成為捷徑,原創(chuàng)研發(fā)的成本和風險是否會被邊緣化?對此,一位風投機構(gòu)合伙人給出解釋:“資本更傾向于快速見效的項目,原創(chuàng)大模型的投入周期太長。”

03 失序的競爭

R1的輝煌已成往事,R2的難產(chǎn)卻讓市場陷入焦灼。DeepSeek曾以低成本、高性能對標OpenAI,一度成為全球開源推理類模型的標桿。

圖片

截圖來源于DeepSeek官網(wǎng)

傳聞在今年4月發(fā)布的R2,時至今日也未能問世,僅僅在5月末推出了一個R1的改款。

至少從6月以來的兩起“套殼”事件來看,改款的R1模型難以承擔定義行業(yè)標準的重任。

有媒體爆料稱,因公司創(chuàng)始人梁文鋒對性能的極致追求和H20芯片短缺被迫延期,根據(jù)爆料的內(nèi)部文件顯示,其1.2萬億參數(shù)的MoE設(shè)計對標GPT-4Turbo,但訓練成本控制成為致命瓶頸。

技術(shù)瓶頸之外,行業(yè)正面臨更嚴峻的信任危機。R1曾以純強化學習訓練打破技術(shù)范式,而R2的缺席讓華為、阿里有望搶占生態(tài)位,有風投機構(gòu)對源Byte表示:“當所有人都忙著給模型‘鍍金’,真正的創(chuàng)新反而成了奢侈品。”

DeepSeek如今已經(jīng)成為了國產(chǎn)大模型的代名詞,其R1模型具備定義行業(yè)標準的意義,但長達半年多的技術(shù)缺位、R2接連跳票后,難免有人想取而代之。“對于一線互聯(lián)網(wǎng)大廠來說,能夠定義行業(yè)標準、引領(lǐng)行業(yè)前進方向,才是他們最為看重的。”上述風投機構(gòu)坦言。

簡單點理解,就是DeepSeek R2的跳票,或變相造成了國產(chǎn)大模型的競爭失焦。

華為和阿里在R2真空期內(nèi)動作頻頻,華為盤古ProMoE的爭議尚未平息,阿里已悄然推進Qwen-3.0的迭代。兩家巨頭的技術(shù)路徑雖有差異,但核心邏輯仍是參數(shù)與性能的堆砌,難怪不少匿名開發(fā)者都在調(diào)侃:“大家都在玩‘誰的數(shù)字更大’,沒人關(guān)心技術(shù)是否真的進步。”

據(jù)部分開發(fā)者向源Byte爆料稱,部分國產(chǎn)智能體專注“出海”,而非針對國內(nèi)市場開發(fā),除了國內(nèi)市場尚未形成付費習慣,還有相當一部分的原因是,國產(chǎn)大模型僅僅在參數(shù)上追平或趕超海外模型,但在具體的開發(fā)細節(jié)上,仍存在一定差距,直接導致開發(fā)成本的飆升。

與此同時,芯片短缺加劇了這場混亂。英偉達H20的供應(yīng)緊張,讓依賴高端硬件的企業(yè)陷入被動。DeepSeek的延遲或許只是開始,更多中小廠商可能因資源不足被迫退出競爭。

即便如此,市場對R2的期待仍未消退。傳聞稱其混合專家架構(gòu)(MoE)將成本大大降低,但具體表現(xiàn)仍是未知數(shù)。若R2能如期突破,或許能重新點燃行業(yè)的信心;若繼續(xù)延遲,國產(chǎn)大模型的競爭格局或?qū)⒏膶憽?/span>

耐人尋味的是,這場延遲反而讓市場看清了行業(yè)的真實狀態(tài),技術(shù)路徑趨同、創(chuàng)新乏力、資源壟斷——這些問題在R2的缺席中被放大。一位從業(yè)者無奈表示:“我們需要的不是另一個參數(shù)怪獸,而是能真正解決問題的工具。”

部分圖片來源于網(wǎng)絡(luò),如有侵權(quán)請告知刪除

       原文標題 : 改款DeepSeek,亂了華為心態(tài)

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號