改款DeepSeek,亂了華為心態(tài)
文源:源Byte
作者:柯基的柯
當(dāng)技術(shù)參數(shù)的相關(guān)性飆到0.927,行業(yè)直接炸了。
近期,有研究團(tuán)隊(duì)在GitHub上公開比對數(shù)據(jù),指出華為盤古ProMoE與阿里Qwen-2.5 14B參數(shù)結(jié)構(gòu)高度雷同,居然高達(dá)0.927,超過業(yè)內(nèi)正常范圍(通常低于0.7)。華為盤古團(tuán)隊(duì)迅速回應(yīng),強(qiáng)調(diào)其模型基于昇騰硬件優(yōu)化,屬于“殊途同歸”,向來在輿論場上不輸陣仗的阿里,卻意外保持沉默。
截圖來源于諾亞方舟實(shí)驗(yàn)室公號
無獨(dú)有偶,就在上個(gè)月,月之暗面的Kimi-Dev-72B憑借60.4%的測試成績驚艷亮相,因“Basemodel:Qwen2.5-72B”的標(biāo)注被貼上“套殼”標(biāo)簽陷入爭議。就在開發(fā)者們爭論不休之時(shí),外界發(fā)現(xiàn)“受害者”依舊是阿里,不禁發(fā)出如此疑問:這是微調(diào)技術(shù)的勝利,還是原創(chuàng)性匱乏的遮羞布?
而曾被寄予厚望的DeepSeek R2,遲遲未能面世,這款有望繼續(xù)對世界頂級大模型持續(xù)施壓的模型長期“跳票”,一定程度助推了國產(chǎn)大模型的技術(shù)標(biāo)準(zhǔn)“失焦”。
在一片R2“狼來了”的聲音中,市場似乎在等待中逐漸失去耐心,正在讓國產(chǎn)大模型的競爭,從技術(shù)比拼滑向資源內(nèi)耗。
01 參數(shù)之爭背后的技術(shù)迷局
華為盤古ProMoE與阿里Qwen-2.5 14B的“0.927相似度”,直接剖開了大模型研發(fā)的黑箱。
研究團(tuán)隊(duì)通過比對注意力參數(shù)分布,發(fā)現(xiàn)兩者結(jié)構(gòu)相似性遠(yuǎn)超行業(yè)常態(tài)。華為堅(jiān)稱其模型基于昇騰硬件優(yōu)化,屬于“異構(gòu)架構(gòu)的殊途同歸”;阿里則保持沉默,但開源社區(qū)已涌現(xiàn)對代碼復(fù)用合規(guī)性的質(zhì)疑。
然而,技術(shù)細(xì)節(jié)的爭議很快滑向商業(yè)博弈的泥潭。
盤古團(tuán)隊(duì)緊急發(fā)布技術(shù)白皮書,強(qiáng)調(diào)其MoE架構(gòu)的專利布局;阿里則加速推進(jìn)Qwen-3.0迭代,似乎在用版本升級對沖輿論風(fēng)險(xiǎn)。一位不愿具名的芯片工程師透露:“參數(shù)結(jié)構(gòu)的趨同,本質(zhì)上是算力軍備競賽下的技術(shù)妥協(xié)。”
開發(fā)者社區(qū)并不買賬,用戶 @HonestAGI 通過 “LLM 指紋” 技術(shù)反向驗(yàn)證,結(jié)果與原始研究高度吻合。技術(shù)趨同是否等同于抄襲?這一問題在開源社區(qū)引發(fā)激烈辯論。
支持華為的聲音認(rèn)為,大模型領(lǐng)域的技術(shù)重疊難以避免,關(guān)鍵在于優(yōu)化和落地。昇騰生態(tài)的擁躉特別指出,盤古的動態(tài)專家網(wǎng)絡(luò)設(shè)計(jì)解決了分布式訓(xùn)練負(fù)載均衡的難題,是實(shí)打?qū)嵉膭?chuàng)新。
但反對者,反對者翻出匿名爆料,稱部分盤古模型存在“洗水印”嫌棄——即對開源模型進(jìn)行微調(diào)后重新包裝。盡管爆料未提供具體證據(jù),但阿里通義千問的開源協(xié)議中明確要求衍生模型需標(biāo)注來源,這一細(xì)節(jié)讓爭議更加撲朔迷離。
從技術(shù)角度看,參數(shù)結(jié)構(gòu)的相似性可能源于訓(xùn)練數(shù)據(jù)的重疊或優(yōu)化目標(biāo)的趨同。但問題的核心在于,當(dāng)兩家巨頭在公開場合強(qiáng)調(diào)“自主創(chuàng)新”時(shí),這種高度一致性是否違背了開源協(xié)議的精神?
華為盤古團(tuán)隊(duì)的回應(yīng)中,一個(gè)細(xì)節(jié)值得玩味:他們提到“參考了業(yè)界開源實(shí)踐”,但未具體說明哪些實(shí)踐。這種模糊表述讓外界難以判斷其行為的邊界。而阿里的沉默,則被解讀為一種戰(zhàn)術(shù)性回避,避免卷入公開論戰(zhàn)。
一位長期觀察AI行業(yè)的分析師表示:“參數(shù)之爭的背后,是國產(chǎn)大模型在高速發(fā)展中的身份焦慮——既要追趕國際巨頭,又要在本土競爭中脫穎而出。”這種焦慮,或許正是技術(shù)迷局的真正底色。
02 微調(diào)紅利與創(chuàng)新困局
華為與阿里的糾紛并非孤立事件,就在上個(gè)月,月之暗面與阿里就曾陷入類似的糾紛。
就在外界認(rèn)為月之暗面要在國產(chǎn)大模型內(nèi)卷中掉隊(duì)之時(shí),其推出的Kimi-Dev-72B在SWE-bench測試中一騎絕塵。
該模型通過1500億專項(xiàng)數(shù)據(jù)和數(shù)百萬GitHub工單優(yōu)化,將代碼任務(wù)準(zhǔn)確率提升至60.4%。在當(dāng)時(shí),它刷新了開源模型的紀(jì)錄,將包括DeepSeek在內(nèi)的眾多競爭對手甩在了身后。
不過好景不長,開發(fā)者們很快發(fā)現(xiàn),Kimi-Dev-72B明確標(biāo)注了其基礎(chǔ)模型為Qwen/Qwen2.5-72B,隨后,開發(fā)者社區(qū)的分歧迅速蔓延:有人將其視為“站在巨人肩膀上”的微調(diào)典范,也有人質(zhì)疑這是披著開源外衣的“技術(shù)組裝”。
微調(diào)本是行業(yè)常態(tài),但標(biāo)注的透明性未能消弭質(zhì)疑。月之暗面官方解釋,他們以Qwen 2.5-72B為起點(diǎn),收集了數(shù)百萬個(gè)GitHub問題單和PR提交作為中期訓(xùn)練數(shù)據(jù)集,其核心創(chuàng)新點(diǎn)在于采用了大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)。
爭議的核心并非技術(shù)本身,而是創(chuàng)新的邊界。Kimi-Dev-72B的表現(xiàn)確實(shí)亮眼,但它的成功是否依賴于基座模型的原始能力?有匿名開發(fā)者尖銳指出:“如果微調(diào)就能達(dá)到頂尖水平,原創(chuàng)的價(jià)值在哪里?”
開源生態(tài)的規(guī)則正在被重新定義。阿里通過協(xié)議更新試圖維護(hù)技術(shù)主權(quán),而月之暗面則用性能說話,試圖證明微調(diào)并非簡單的“套殼”。市場反應(yīng)兩極分化:一部分企業(yè)開始效仿這種快速迭代的模式,另一部分則呼吁回歸原創(chuàng)研發(fā)。
值得注意的是,Kimi-Dev-72B的優(yōu)化框架確實(shí)有其獨(dú)特性,它結(jié)合了BugFixer和TestWriter角色,通過強(qiáng)化學(xué)習(xí)精準(zhǔn)提升代碼修復(fù)和測試編寫的效率。
但這種優(yōu)化是否足以定義“創(chuàng)新”,仍是一個(gè)懸而未決的問題?梢,行業(yè)的焦慮感正在加劇,當(dāng)微調(diào)成為捷徑,原創(chuàng)研發(fā)的成本和風(fēng)險(xiǎn)是否會被邊緣化?對此,一位風(fēng)投機(jī)構(gòu)合伙人給出解釋:“資本更傾向于快速見效的項(xiàng)目,原創(chuàng)大模型的投入周期太長。”
03 失序的競爭
R1的輝煌已成往事,R2的難產(chǎn)卻讓市場陷入焦灼。DeepSeek曾以低成本、高性能對標(biāo)OpenAI,一度成為全球開源推理類模型的標(biāo)桿。
截圖來源于DeepSeek官網(wǎng)
傳聞在今年4月發(fā)布的R2,時(shí)至今日也未能問世,僅僅在5月末推出了一個(gè)R1的改款。
至少從6月以來的兩起“套殼”事件來看,改款的R1模型難以承擔(dān)定義行業(yè)標(biāo)準(zhǔn)的重任。
有媒體爆料稱,因公司創(chuàng)始人梁文鋒對性能的極致追求和H20芯片短缺被迫延期,根據(jù)爆料的內(nèi)部文件顯示,其1.2萬億參數(shù)的MoE設(shè)計(jì)對標(biāo)GPT-4Turbo,但訓(xùn)練成本控制成為致命瓶頸。
技術(shù)瓶頸之外,行業(yè)正面臨更嚴(yán)峻的信任危機(jī)。R1曾以純強(qiáng)化學(xué)習(xí)訓(xùn)練打破技術(shù)范式,而R2的缺席讓華為、阿里有望搶占生態(tài)位,有風(fēng)投機(jī)構(gòu)對源Byte表示:“當(dāng)所有人都忙著給模型‘鍍金’,真正的創(chuàng)新反而成了奢侈品。”
DeepSeek如今已經(jīng)成為了國產(chǎn)大模型的代名詞,其R1模型具備定義行業(yè)標(biāo)準(zhǔn)的意義,但長達(dá)半年多的技術(shù)缺位、R2接連跳票后,難免有人想取而代之。“對于一線互聯(lián)網(wǎng)大廠來說,能夠定義行業(yè)標(biāo)準(zhǔn)、引領(lǐng)行業(yè)前進(jìn)方向,才是他們最為看重的。”上述風(fēng)投機(jī)構(gòu)坦言。
簡單點(diǎn)理解,就是DeepSeek R2的跳票,或變相造成了國產(chǎn)大模型的競爭失焦。
華為和阿里在R2真空期內(nèi)動作頻頻,華為盤古ProMoE的爭議尚未平息,阿里已悄然推進(jìn)Qwen-3.0的迭代。兩家巨頭的技術(shù)路徑雖有差異,但核心邏輯仍是參數(shù)與性能的堆砌,難怪不少匿名開發(fā)者都在調(diào)侃:“大家都在玩‘誰的數(shù)字更大’,沒人關(guān)心技術(shù)是否真的進(jìn)步。”
據(jù)部分開發(fā)者向源Byte爆料稱,部分國產(chǎn)智能體專注“出海”,而非針對國內(nèi)市場開發(fā),除了國內(nèi)市場尚未形成付費(fèi)習(xí)慣,還有相當(dāng)一部分的原因是,國產(chǎn)大模型僅僅在參數(shù)上追平或趕超海外模型,但在具體的開發(fā)細(xì)節(jié)上,仍存在一定差距,直接導(dǎo)致開發(fā)成本的飆升。
與此同時(shí),芯片短缺加劇了這場混亂。英偉達(dá)H20的供應(yīng)緊張,讓依賴高端硬件的企業(yè)陷入被動。DeepSeek的延遲或許只是開始,更多中小廠商可能因資源不足被迫退出競爭。
即便如此,市場對R2的期待仍未消退。傳聞稱其混合專家架構(gòu)(MoE)將成本大大降低,但具體表現(xiàn)仍是未知數(shù)。若R2能如期突破,或許能重新點(diǎn)燃行業(yè)的信心;若繼續(xù)延遲,國產(chǎn)大模型的競爭格局或?qū)⒏膶憽?/span>
耐人尋味的是,這場延遲反而讓市場看清了行業(yè)的真實(shí)狀態(tài),技術(shù)路徑趨同、創(chuàng)新乏力、資源壟斷——這些問題在R2的缺席中被放大。一位從業(yè)者無奈表示:“我們需要的不是另一個(gè)參數(shù)怪獸,而是能真正解決問題的工具。”
部分圖片來源于網(wǎng)絡(luò),如有侵權(quán)請告知刪除
原文標(biāo)題 : 改款DeepSeek,亂了華為心態(tài)

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
7月8日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題