要聞

V4新模型炸場(chǎng) ，DeepSeek率道而行，梁文鋒AGI求索定力不改

2026-04-24 21:20:24

4月24日，DeepSeek-V4新模型正式發(fā)布，其亮點(diǎn)包括1M超長(zhǎng)上下文、Agent能力等。新模型適配華為等國(guó)產(chǎn)芯片，引發(fā)關(guān)注。英偉達(dá)CEO黃仁勛曾稱若DeepSeek成果先在華為平臺(tái)出現(xiàn)，對(duì)美國(guó)將是糟糕結(jié)果。盡管DeepSeek有部分人才流動(dòng)，但研究陣容仍龐大。DeepSeek表示將秉持長(zhǎng)期主義，努力向?qū)崿F(xiàn)AGI的目標(biāo)靠近。

每經(jīng)記者｜葉曉丹每經(jīng)編輯｜廖丹

“不誘于譽(yù)，不恐于誹，率道而行，端然正己?！?/p>

過去一周，圍繞DeepSeek新模型發(fā)布、適配華為芯片以及融資消息此起彼伏。4月24日，在市場(chǎng)高預(yù)期中，DeepSeek-V4新模型正式發(fā)布。

1M超長(zhǎng)上下文、Agent 能力、世界知識(shí)和推理性能是本次模型亮點(diǎn)，而在模型發(fā)布之外，DeepSeek的上述16字表態(tài)更像是回應(yīng)市場(chǎng)諸多輿論的一次價(jià)值觀宣言。

值得注意的是，盡管此前DeepSeek內(nèi)部研發(fā)人員流動(dòng)，但從此次發(fā)布的節(jié)奏和披露的技術(shù)作者名單來看，創(chuàng)始人梁文鋒AGI求索的定力依舊很穩(wěn)，DeepSeek表示“我們將始終秉持長(zhǎng)期主義的原則理念，在嘗試與思考中踏實(shí)前行，努力向?qū)崿F(xiàn) AGI 的目標(biāo)不斷靠近?！?/p>

此前有分析人士認(rèn)為，DeepSeek-R1在2025年驚艷出圈后，背負(fù)著AI大模型“掃地僧”的包袱，V4大模型未必能延續(xù)去年出圈的驚喜，但DeepSeek直言要“率道而行”。

更被市場(chǎng)聚焦的一個(gè)亮點(diǎn)是，此次DeepSeek-V4新模型適配華為等國(guó)產(chǎn)芯片。英偉達(dá)CEO黃仁勛4月中旬在一檔播客節(jié)目中直言“DeepSeek的進(jìn)步意義重大。要是哪天像DeepSeek這樣的成果先在華為平臺(tái)上出現(xiàn)，那對(duì)美國(guó)會(huì)是非常糟糕的結(jié)果?！?/p>

靴子落地，國(guó)產(chǎn)大模型適配國(guó)產(chǎn)半導(dǎo)體迎來了全新AI敘事空間。

浙江浙大網(wǎng)新圖靈信息科技有限公司總工程師兼數(shù)科事業(yè)部總經(jīng)理?xiàng)顟c在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，DeepSeek-V4的發(fā)布，其意義遠(yuǎn)不止于單一模型參數(shù)的躍升，而是一場(chǎng)涉及模型架構(gòu)、應(yīng)用范式與底層算力生態(tài)的系統(tǒng)性變革。

DeepSeek-V4結(jié)構(gòu)創(chuàng)新，海外開發(fā)者熱議

DeepSeek最新技術(shù)報(bào)告顯示，此次發(fā)布的DeepSeek-V4系列的預(yù)覽版本，包含兩款強(qiáng)大的專家混合（MoE）語言模型。

它們分別是參數(shù)量為1.6T（激活參數(shù)490億）的DeepSeek-V4-Pro，以及參數(shù)量為2840億（激活參數(shù)130億）的DeepSeek-V4-Flash。

此前DeepSeek官網(wǎng)悄然上線的專家模式，對(duì)應(yīng)的正是此次發(fā)布的新模型DeepSeek-V4-Pro，而快速模式則對(duì)應(yīng)DeepSeek-V4-Flash。

兩個(gè)版本模型數(shù)據(jù) 圖片來源：DeepSeek微信公眾號(hào)

此次更新的DeepSeek-V4系列新模型的亮點(diǎn)主要表現(xiàn)為擁有百萬字超長(zhǎng)上下文，在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開源領(lǐng)域的領(lǐng)先。

DeepSeek披露的技術(shù)報(bào)告顯示，DeepSeek-V4系列在架構(gòu)和優(yōu)化方面實(shí)現(xiàn)了多項(xiàng)關(guān)鍵改進(jìn)。

首先是混合注意力架構(gòu)，結(jié)合壓縮稀疏注意力（CSA）與重度壓縮注意力（HCA）以提升長(zhǎng)上下文效率；

其次是流形約束超連接（mHC），增強(qiáng)傳統(tǒng)殘差連接；此外還有Muon優(yōu)化器，實(shí)現(xiàn)更快收斂與更高的訓(xùn)練穩(wěn)定性。DeepSeek使用超過32T多樣化、高質(zhì)量標(biāo)記對(duì)兩個(gè)模型進(jìn)行預(yù)訓(xùn)練，隨后通過完整的后訓(xùn)練流程解鎖并進(jìn)一步提升其性能。

超高上下文效率是此次新模型的亮點(diǎn)之一，DeepSeek方面透露。在百萬詞元的上下文設(shè)置下，DeepSeek-V4-Pro所需的單詞元推理FLOPs計(jì)算量?jī)H為DeepSeek-V3.2的27%，所需KV緩存空間也僅為其10%。基于這一突破，DeepSeek也同步宣布，從4月24日開始，1M（一百萬）上下文將是DeepSeek所有官方服務(wù)的標(biāo)配。

DeepSeek-V4 和 DeepSeek-V3.2 的計(jì)算量和顯存容量隨上下文長(zhǎng)度的變化圖片來源：DeepSeek微信公眾號(hào)

新模型發(fā)布后，在國(guó)內(nèi)外開發(fā)者社區(qū)引發(fā)巨大關(guān)注。

專注于評(píng)估大語言模型（LLM）的排行榜Vals AI在社交媒體表示：“DeepSeek-V4現(xiàn)在是我們Vibe Code Benchmark上排名第一的開源權(quán)重模型，而且差距明顯。甚至擊敗了像Gemini3.1Pro這樣的前沿閉源模型?！?/p>

DeepSeek-V4-Pro性能評(píng)分圖片來源：DeepSeek微信公眾號(hào)

密歇根州立大學(xué)理論物理學(xué)及計(jì)算數(shù)學(xué)、科學(xué)與工程學(xué)教授Steve Hsu則從使用體驗(yàn)角度給出判斷。他貼出一段讓模型推演復(fù)雜問題的完整推理軌跡，評(píng)價(jià)其“在數(shù)學(xué)和物理方面又快又聰明，最終結(jié)果精致且準(zhǔn)確”。

英偉達(dá)人工智能研究員Rick Lamers看到內(nèi)部基準(zhǔn)測(cè)試排名后，評(píng)價(jià)道“DeepSeek-V4在智能體工程方面的可用性看起來非常高，感覺很棒”。

DeepSeek新模型適配華為芯片，黃仁勛也擔(dān)心

《每日經(jīng)濟(jì)新聞》記者注意到，在DeepSeek技術(shù)報(bào)告提及性能與開源Mega-Kernel：“我們?cè)?NVIDIA GPU和 HUAWEI Ascend NPU平臺(tái)上驗(yàn)證了該細(xì)粒度EP方案。與強(qiáng)大的非融合基線方法相比，該方案在通用推理工作負(fù)載中實(shí)現(xiàn)了1.50至1.73倍的加速比，在延遲敏感場(chǎng)景（如強(qiáng)化學(xué)習(xí)部署和高速智能體服務(wù)）中加速比最高可達(dá)1.96倍?！?/p>

此前DeepSeek-V4遲遲未發(fā)布，市場(chǎng)有消息稱DeepSeek新模型在和華為芯片做適配，從最新DeepSeek技術(shù)報(bào)告來看，DeepSeek新模型除了適配原有的英偉達(dá)芯片外，也在和華為昇騰芯片進(jìn)行適配。

目前，DeepSeek API已同步上線V4-Pro與V4-Flash。不過，從DeepSeek公布的API接入價(jià)格來看，當(dāng)前V4-Pro接入的成本仍然較高。對(duì)此，DeepSeek表示，受限于高端算力，目前Pro的服務(wù)吞吐十分有限，預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，Pro價(jià)格會(huì)大幅下調(diào)。

兩個(gè)版本模型接入成本圖片來源：DeepSeek微信公眾號(hào)

謎底揭開，DeepSeek同時(shí)適配了英偉達(dá)和華為芯片。對(duì)DeepSeek和華為芯片的適配，英偉達(dá)CEO黃仁勛此前不乏擔(dān)心。

在4月中旬一期播客訪談中，黃仁勛表示，要是哪天像DeepSeek這樣的成果先在華為平臺(tái)上出現(xiàn)，那對(duì)美國(guó)會(huì)是非常糟糕的結(jié)果。黃仁勛認(rèn)為假設(shè)DeepSeek針對(duì)華為的架構(gòu)進(jìn)行優(yōu)化，那么對(duì)英偉達(dá)來說，就處于劣勢(shì)。

黃仁勛的擔(dān)心，所為何來？

楊慶在接受每經(jīng)記者采訪時(shí)表示，DeepSeek V4的發(fā)布，其意義遠(yuǎn)不止于單一模型參數(shù)的躍升，而是一場(chǎng)涉及模型架構(gòu)、應(yīng)用范式與底層算力生態(tài)的系統(tǒng)性變革。

楊慶分析，從技術(shù)層面看，V4新模型帶來的百萬級(jí)上下文窗口以及深度強(qiáng)化的推理規(guī)劃?rùn)C(jī)制，將從根本上拓展AI處理復(fù)雜長(zhǎng)程任務(wù)的邊界。這意味著Agent從“能對(duì)話”走向“能辦事”的“最后一公里”正在被打通。

從產(chǎn)業(yè)生態(tài)層面看，V4與國(guó)產(chǎn)算力底座的深度適配尤為關(guān)鍵。楊慶表示，若這一適配在生產(chǎn)環(huán)境中獲得驗(yàn)證，其示范效應(yīng)將加速“去CUDA化”（即擺脫對(duì)英偉達(dá)CUDA生態(tài)的依賴）進(jìn)程，推動(dòng)國(guó)產(chǎn)AI芯片從“可用”走向“好用”，并帶動(dòng)上下游的協(xié)同成熟。對(duì)于全球AI競(jìng)爭(zhēng)格局而言，這標(biāo)志著中國(guó)大模型產(chǎn)業(yè)正邁入以“任務(wù)執(zhí)行效率”和“算力自主生態(tài)”為核心競(jìng)爭(zhēng)力的新賽段。

DeepSeek真的被挖空了？梁文鋒定力依然很穩(wěn)

一個(gè)不被注意的細(xì)節(jié)是，DeepSeek-V4的技術(shù)報(bào)告披露了作者名單。“研究與工程”的作者名單里有近300人，其中有10人顯示已經(jīng)離開了DeepSeek團(tuán)隊(duì)。

此前，DeepSeek的人才流動(dòng)情況備受市場(chǎng)關(guān)注。

一度有消息稱，DeepSeek正在進(jìn)行首次外部融資，目的是為了留住那些以股票期權(quán)作為薪酬的員工，防止他們被競(jìng)爭(zhēng)對(duì)手挖走。但截至發(fā)稿，每經(jīng)記者尚未確認(rèn)該消息真實(shí)性。

然而，不可否認(rèn)的是，一鳴驚人的DeepSeek的確存在部分人才流動(dòng)的情況，但從此次披露的技術(shù)報(bào)告名單來看，DeepSeek的研究人才依舊陣容龐大。

《每日經(jīng)濟(jì)新聞》記者梳理發(fā)現(xiàn)，在近一年的人才流動(dòng)中，影響最大的當(dāng)屬郭達(dá)雅的離職。郭達(dá)雅于2026年3月正式離開DeepSeek，其后加入字節(jié)跳動(dòng)。

比郭達(dá)雅更早離開的是王炳宣，2025年底，王炳宣被騰訊姚順雨團(tuán)隊(duì)挖走。王炳宣是DeepSeek第一代大語言模型DeepSeek LLM的核心作者，此后參與了歷代模型的訓(xùn)練工作。

另一位核心成員魏浩然約在2026年春節(jié)前后離開。魏浩然是DeepSeek-OCR系列的核心作者，該系列在文檔識(shí)別與多模態(tài)處理方面有著重要布局。截至目前，魏浩然的具體去向尚未公開披露。

在時(shí)間線上，近一年內(nèi)最早離開的核心成員是阮翀。阮翀的離職時(shí)間約在2025年上半年，離職后他進(jìn)入了一段休整期，直到2026年1月才正式官宣加入自動(dòng)駕駛創(chuàng)業(yè)公司元戎啟行。

此外，被外界稱為“AI天才少女”的羅福莉也在這一輪人才流動(dòng)中離開了DeepSeek。2025年11月12日，羅福莉正式官宣加入小米，出任小米MiMo大模型負(fù)責(zé)人。

但另一方面，DeepSeek也在加大人才招聘力度。從釋放的崗位來看，DeepSeek正在強(qiáng)化Agent研究人才儲(chǔ)備，4月24日發(fā)布的一系列招聘崗位中，有不少和Agent相關(guān)的崗位。譬如Agent全棧開發(fā)工程師、Agent深度學(xué)習(xí)算法研究員、Agent數(shù)據(jù)策略工程師等。

楊慶認(rèn)為，未來三至五年，AI行業(yè)的核心演進(jìn)方向?qū)@三個(gè)關(guān)鍵詞展開：智能體化、軟硬協(xié)同與可信執(zhí)行。AI應(yīng)用形態(tài)將從“模型即服務(wù)”加速演進(jìn)為“智能體即生產(chǎn)力”。企業(yè)不再滿足于獲得文本答案，而是期望部署能夠自主規(guī)劃、調(diào)用系統(tǒng)、完成閉環(huán)任務(wù)的數(shù)字化勞動(dòng)力。

其次，軟硬協(xié)同將成為降本增效的主戰(zhàn)場(chǎng)。推理成本已成為商業(yè)化的核心約束變量，未來競(jìng)爭(zhēng)將從算法延伸至芯片指令集、推理框架與模型壓縮的全棧效率之爭(zhēng)。最后，可信執(zhí)行將成為規(guī)?；渴鸬那疤?。當(dāng)Agent開始操作生產(chǎn)系統(tǒng)、處理隱私數(shù)據(jù)時(shí)，可審計(jì)性、安全邊界與幻覺治理將從學(xué)術(shù)議題上升為合規(guī)剛需。

然而，國(guó)產(chǎn)AI仍在進(jìn)化之中，DeepSeek在中國(guó)AI發(fā)展路徑中，也仍保有對(duì)技術(shù)的極致探索精神。談及DeepSeek創(chuàng)始人梁文鋒，網(wǎng)易副總裁、網(wǎng)易智企總經(jīng)理阮良此前在接受每經(jīng)記者采訪時(shí)認(rèn)為，作為浙大校友，梁文鋒身上有著一種極客專注精神，不會(huì)因?yàn)橥饨绺蓴_而影響自身的判斷和方向。

4月24日，DeepSeek在最后也強(qiáng)調(diào)“我們將始終秉持長(zhǎng)期主義的原則理念，在嘗試與思考中踏實(shí)前行，努力向?qū)崿F(xiàn)AGI的目標(biāo)不斷靠近?！?/p>

（實(shí)習(xí)生張京寶對(duì)本文亦有貢獻(xiàn)）

封面圖片來源：蘭素英

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

光啟技術(shù)：公司905基地相關(guān)建設(shè)和產(chǎn)能配套工作均在有序推進(jìn)中

返回每經(jīng)網(wǎng)首頁

下一篇文章

生益科技：2025年凈利潤(rùn)33.34億元同比增長(zhǎng)91.75%

相關(guān)文章