2026-04-24 21:20:24
4月24日,DeepSeek-V4新模型正式發(fā)布,其亮點(diǎn)包括1M超長(zhǎng)上下文、Agent能力等。新模型適配華為等國(guó)產(chǎn)芯片,引發(fā)關(guān)注。英偉達(dá)CEO黃仁勛曾稱若DeepSeek成果先在華為平臺(tái)出現(xiàn),對(duì)美國(guó)將是糟糕結(jié)果。盡管DeepSeek有部分人才流動(dòng),但研究陣容仍龐大。DeepSeek表示將秉持長(zhǎng)期主義,努力向?qū)崿F(xiàn)AGI的目標(biāo)靠近。
每經(jīng)記者|葉曉丹 每經(jīng)編輯|廖丹
“不誘于譽(yù),不恐于誹,率道而行,端然正己?!?/p>
過去一周,圍繞DeepSeek新模型發(fā)布、適配華為芯片以及融資消息此起彼伏。4月24日,在市場(chǎng)高預(yù)期中,DeepSeek-V4新模型正式發(fā)布。
1M超長(zhǎng)上下文、Agent 能力、世界知識(shí)和推理性能是本次模型亮點(diǎn),而在模型發(fā)布之外,DeepSeek的上述16字表態(tài)更像是回應(yīng)市場(chǎng)諸多輿論的一次價(jià)值觀宣言。
值得注意的是,盡管此前DeepSeek內(nèi)部研發(fā)人員流動(dòng),但從此次發(fā)布的節(jié)奏和披露的技術(shù)作者名單來看,創(chuàng)始人梁文鋒AGI求索的定力依舊很穩(wěn),DeepSeek表示“我們將始終秉持長(zhǎng)期主義的原則理念,在嘗試與思考中踏實(shí)前行,努力向?qū)崿F(xiàn) AGI 的目標(biāo)不斷靠近?!?/p>
此前有分析人士認(rèn)為,DeepSeek-R1在2025年驚艷出圈后,背負(fù)著AI大模型“掃地僧”的包袱,V4大模型未必能延續(xù)去年出圈的驚喜,但DeepSeek直言要“率道而行”。
更被市場(chǎng)聚焦的一個(gè)亮點(diǎn)是,此次DeepSeek-V4新模型適配華為等國(guó)產(chǎn)芯片。英偉達(dá)CEO黃仁勛4月中旬在一檔播客節(jié)目中直言“DeepSeek的進(jìn)步意義重大。要是哪天像DeepSeek這樣的成果先在華為平臺(tái)上出現(xiàn),那對(duì)美國(guó)會(huì)是非常糟糕的結(jié)果?!?/p>
靴子落地,國(guó)產(chǎn)大模型適配國(guó)產(chǎn)半導(dǎo)體迎來了全新AI敘事空間。
浙江浙大網(wǎng)新圖靈信息科技有限公司總工程師兼數(shù)科事業(yè)部總經(jīng)理?xiàng)顟c在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示,DeepSeek-V4的發(fā)布,其意義遠(yuǎn)不止于單一模型參數(shù)的躍升,而是一場(chǎng)涉及模型架構(gòu)、應(yīng)用范式與底層算力生態(tài)的系統(tǒng)性變革。
DeepSeek最新技術(shù)報(bào)告顯示,此次發(fā)布的DeepSeek-V4系列的預(yù)覽版本,包含兩款強(qiáng)大的專家混合(MoE)語言模型。
它們分別是參數(shù)量為1.6T(激活參數(shù)490億)的DeepSeek-V4-Pro,以及參數(shù)量為2840億(激活參數(shù)130億)的DeepSeek-V4-Flash。
此前DeepSeek官網(wǎng)悄然上線的專家模式,對(duì)應(yīng)的正是此次發(fā)布的新模型DeepSeek-V4-Pro,而快速模式則對(duì)應(yīng)DeepSeek-V4-Flash。
兩個(gè)版本模型數(shù)據(jù) 圖片來源:DeepSeek微信公眾號(hào)
此次更新的DeepSeek-V4系列新模型的亮點(diǎn)主要表現(xiàn)為擁有百萬字超長(zhǎng)上下文,在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開源領(lǐng)域的領(lǐng)先。
DeepSeek披露的技術(shù)報(bào)告顯示,DeepSeek-V4系列在架構(gòu)和優(yōu)化方面實(shí)現(xiàn)了多項(xiàng)關(guān)鍵改進(jìn)。
首先是混合注意力架構(gòu),結(jié)合壓縮稀疏注意力(CSA)與重度壓縮注意力(HCA)以提升長(zhǎng)上下文效率;
其次是流形約束超連接(mHC),增強(qiáng)傳統(tǒng)殘差連接;此外還有Muon優(yōu)化器,實(shí)現(xiàn)更快收斂與更高的訓(xùn)練穩(wěn)定性。DeepSeek使用超過32T多樣化、高質(zhì)量標(biāo)記對(duì)兩個(gè)模型進(jìn)行預(yù)訓(xùn)練,隨后通過完整的后訓(xùn)練流程解鎖并進(jìn)一步提升其性能。
超高上下文效率是此次新模型的亮點(diǎn)之一,DeepSeek方面透露。在百萬詞元的上下文設(shè)置下,DeepSeek-V4-Pro所需的單詞元推理FLOPs計(jì)算量?jī)H為DeepSeek-V3.2的27%,所需KV緩存空間也僅為其10%。基于這一突破,DeepSeek也同步宣布,從4月24日開始,1M(一百萬)上下文將是DeepSeek所有官方服務(wù)的標(biāo)配。
DeepSeek-V4 和 DeepSeek-V3.2 的計(jì)算量和顯存容量隨上下文長(zhǎng)度的變化 圖片來源:DeepSeek微信公眾號(hào)
新模型發(fā)布后,在國(guó)內(nèi)外開發(fā)者社區(qū)引發(fā)巨大關(guān)注。
專注于評(píng)估大語言模型(LLM)的排行榜Vals AI在社交媒體表示:“DeepSeek-V4現(xiàn)在是我們Vibe Code Benchmark上排名第一的開源權(quán)重模型,而且差距明顯。甚至擊敗了像Gemini3.1Pro這樣的前沿閉源模型?!?/p>
DeepSeek-V4-Pro性能評(píng)分 圖片來源:DeepSeek微信公眾號(hào)
密歇根州立大學(xué)理論物理學(xué)及計(jì)算數(shù)學(xué)、科學(xué)與工程學(xué)教授Steve Hsu則從使用體驗(yàn)角度給出判斷。他貼出一段讓模型推演復(fù)雜問題的完整推理軌跡,評(píng)價(jià)其“在數(shù)學(xué)和物理方面又快又聰明,最終結(jié)果精致且準(zhǔn)確”。
英偉達(dá)人工智能研究員Rick Lamers看到內(nèi)部基準(zhǔn)測(cè)試排名后,評(píng)價(jià)道“DeepSeek-V4在智能體工程方面的可用性看起來非常高,感覺很棒”。
《每日經(jīng)濟(jì)新聞》記者注意到,在DeepSeek技術(shù)報(bào)告提及性能與開源Mega-Kernel:“我們?cè)?NVIDIA GPU和 HUAWEI Ascend NPU平臺(tái)上驗(yàn)證了該細(xì)粒度EP方案。與強(qiáng)大的非融合基線方法相比,該方案在通用推理工作負(fù)載中實(shí)現(xiàn)了1.50至1.73倍的加速比,在延遲敏感場(chǎng)景(如強(qiáng)化學(xué)習(xí)部署和高速智能體服務(wù))中加速比最高可達(dá)1.96倍?!?/p>
此前DeepSeek-V4遲遲未發(fā)布,市場(chǎng)有消息稱DeepSeek新模型在和華為芯片做適配,從最新DeepSeek技術(shù)報(bào)告來看,DeepSeek新模型除了適配原有的英偉達(dá)芯片外,也在和華為昇騰芯片進(jìn)行適配。
目前,DeepSeek API已同步上線V4-Pro與V4-Flash。不過,從DeepSeek公布的API接入價(jià)格來看,當(dāng)前V4-Pro接入的成本仍然較高。對(duì)此,DeepSeek表示,受限于高端算力,目前Pro的服務(wù)吞吐十分有限,預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后,Pro價(jià)格會(huì)大幅下調(diào)。
兩個(gè)版本模型接入成本 圖片來源:DeepSeek微信公眾號(hào)
謎底揭開,DeepSeek同時(shí)適配了英偉達(dá)和華為芯片。對(duì)DeepSeek和華為芯片的適配,英偉達(dá)CEO黃仁勛此前不乏擔(dān)心。
在4月中旬一期播客訪談中,黃仁勛表示,要是哪天像DeepSeek這樣的成果先在華為平臺(tái)上出現(xiàn),那對(duì)美國(guó)會(huì)是非常糟糕的結(jié)果。黃仁勛認(rèn)為假設(shè)DeepSeek針對(duì)華為的架構(gòu)進(jìn)行優(yōu)化,那么對(duì)英偉達(dá)來說,就處于劣勢(shì)。
黃仁勛的擔(dān)心,所為何來?
楊慶在接受每經(jīng)記者采訪時(shí)表示,DeepSeek V4的發(fā)布,其意義遠(yuǎn)不止于單一模型參數(shù)的躍升,而是一場(chǎng)涉及模型架構(gòu)、應(yīng)用范式與底層算力生態(tài)的系統(tǒng)性變革。
楊慶分析,從技術(shù)層面看,V4新模型帶來的百萬級(jí)上下文窗口以及深度強(qiáng)化的推理規(guī)劃?rùn)C(jī)制,將從根本上拓展AI處理復(fù)雜長(zhǎng)程任務(wù)的邊界。這意味著Agent從“能對(duì)話”走向“能辦事”的“最后一公里”正在被打通。
從產(chǎn)業(yè)生態(tài)層面看,V4與國(guó)產(chǎn)算力底座的深度適配尤為關(guān)鍵。楊慶表示,若這一適配在生產(chǎn)環(huán)境中獲得驗(yàn)證,其示范效應(yīng)將加速“去CUDA化”(即擺脫對(duì)英偉達(dá)CUDA生態(tài)的依賴)進(jìn)程,推動(dòng)國(guó)產(chǎn)AI芯片從“可用”走向“好用”,并帶動(dòng)上下游的協(xié)同成熟。對(duì)于全球AI競(jìng)爭(zhēng)格局而言,這標(biāo)志著中國(guó)大模型產(chǎn)業(yè)正邁入以“任務(wù)執(zhí)行效率”和“算力自主生態(tài)”為核心競(jìng)爭(zhēng)力的新賽段。
一個(gè)不被注意的細(xì)節(jié)是,DeepSeek-V4的技術(shù)報(bào)告披露了作者名單。“研究與工程”的作者名單里有近300人,其中有10人顯示已經(jīng)離開了DeepSeek團(tuán)隊(duì)。
此前,DeepSeek的人才流動(dòng)情況備受市場(chǎng)關(guān)注。
一度有消息稱,DeepSeek正在進(jìn)行首次外部融資,目的是為了留住那些以股票期權(quán)作為薪酬的員工,防止他們被競(jìng)爭(zhēng)對(duì)手挖走。但截至發(fā)稿,每經(jīng)記者尚未確認(rèn)該消息真實(shí)性。
然而,不可否認(rèn)的是,一鳴驚人的DeepSeek的確存在部分人才流動(dòng)的情況,但從此次披露的技術(shù)報(bào)告名單來看,DeepSeek的研究人才依舊陣容龐大。
《每日經(jīng)濟(jì)新聞》記者梳理發(fā)現(xiàn),在近一年的人才流動(dòng)中,影響最大的當(dāng)屬郭達(dá)雅的離職。郭達(dá)雅于2026年3月正式離開DeepSeek,其后加入字節(jié)跳動(dòng)。
比郭達(dá)雅更早離開的是王炳宣,2025年底,王炳宣被騰訊姚順雨團(tuán)隊(duì)挖走。王炳宣是DeepSeek第一代大語言模型DeepSeek LLM的核心作者,此后參與了歷代模型的訓(xùn)練工作。
另一位核心成員魏浩然約在2026年春節(jié)前后離開。魏浩然是DeepSeek-OCR系列的核心作者,該系列在文檔識(shí)別與多模態(tài)處理方面有著重要布局。截至目前,魏浩然的具體去向尚未公開披露。
在時(shí)間線上,近一年內(nèi)最早離開的核心成員是阮翀。阮翀的離職時(shí)間約在2025年上半年,離職后他進(jìn)入了一段休整期,直到2026年1月才正式官宣加入自動(dòng)駕駛創(chuàng)業(yè)公司元戎啟行。
此外,被外界稱為“AI天才少女”的羅福莉也在這一輪人才流動(dòng)中離開了DeepSeek。2025年11月12日,羅福莉正式官宣加入小米,出任小米MiMo大模型負(fù)責(zé)人。
但另一方面,DeepSeek也在加大人才招聘力度。從釋放的崗位來看,DeepSeek正在強(qiáng)化Agent研究人才儲(chǔ)備,4月24日發(fā)布的一系列招聘崗位中,有不少和Agent相關(guān)的崗位。譬如Agent全棧開發(fā)工程師、Agent深度學(xué)習(xí)算法研究員、Agent數(shù)據(jù)策略工程師等。
楊慶認(rèn)為,未來三至五年,AI行業(yè)的核心演進(jìn)方向?qū)@三個(gè)關(guān)鍵詞展開:智能體化、軟硬協(xié)同與可信執(zhí)行。AI應(yīng)用形態(tài)將從“模型即服務(wù)”加速演進(jìn)為“智能體即生產(chǎn)力”。企業(yè)不再滿足于獲得文本答案,而是期望部署能夠自主規(guī)劃、調(diào)用系統(tǒng)、完成閉環(huán)任務(wù)的數(shù)字化勞動(dòng)力。
其次,軟硬協(xié)同將成為降本增效的主戰(zhàn)場(chǎng)。推理成本已成為商業(yè)化的核心約束變量,未來競(jìng)爭(zhēng)將從算法延伸至芯片指令集、推理框架與模型壓縮的全棧效率之爭(zhēng)。最后,可信執(zhí)行將成為規(guī)?;渴鸬那疤?。當(dāng)Agent開始操作生產(chǎn)系統(tǒng)、處理隱私數(shù)據(jù)時(shí),可審計(jì)性、安全邊界與幻覺治理將從學(xué)術(shù)議題上升為合規(guī)剛需。
然而,國(guó)產(chǎn)AI仍在進(jìn)化之中,DeepSeek在中國(guó)AI發(fā)展路徑中,也仍保有對(duì)技術(shù)的極致探索精神。談及DeepSeek創(chuàng)始人梁文鋒,網(wǎng)易副總裁、網(wǎng)易智企總經(jīng)理阮良此前在接受每經(jīng)記者采訪時(shí)認(rèn)為,作為浙大校友,梁文鋒身上有著一種極客專注精神,不會(huì)因?yàn)橥饨绺蓴_而影響自身的判斷和方向。
4月24日,DeepSeek在最后也強(qiáng)調(diào)“我們將始終秉持長(zhǎng)期主義的原則理念,在嘗試與思考中踏實(shí)前行,努力向?qū)崿F(xiàn)AGI的目標(biāo)不斷靠近?!?/p>
(實(shí)習(xí)生張京寶對(duì)本文亦有貢獻(xiàn))
封面圖片來源:蘭素英
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP