一句话摘要:DeepSeek V4 即将在 2026 年 4 月下旬发布,这篇文章把目前已知的所有技术细节——1T 参数 MoE、Engram 条件记忆、稀疏 FP8 解码、华为昇腾芯片适配——全部梳理一遍,帮你搞清楚 DeepSeek 在算力受限条件下到底做了什么。

DeepSeek 为什么要折腾这么多东西?

2025 年 1 月 DeepSeek-R1 发布的时候,很多人第一次意识到:原来不靠 NVIDIA 顶级算力,也能训出世界级的模型。V3 用了 2,788 万 H800 GPU 小时、14.8T tokens,做出了 671B 参数(37B 活跃)的 MoE 模型,性能直接对标 GPT-4o 和 Claude 3.5 Sonnet——API 价格还便宜了 95%。

但现在的情况变了。美国对华芯片出口管制持续收紧,NVIDIA H800 已经很难大规模获取了。DeepSeek 2026 年 4 月被 Reuters 曝出拒绝给予 NVIDIA 和 AMD 早期优化访问权——这不仅是态度问题,更是一个信号:他们已经决定彻底转向国产芯片生态。

那问题来了:在算力受限、CUDA 生态不兼容的情况下,怎么把模型从 671B 做到 1T?怎么把上下文从 128K 拉到 1M?怎么保证训练和推理的效率不崩盘?

DeepSeek V4 给出的答案,是四项技术创新的组合拳。

架构全景:从 V3 到 V4 做了什么?

先看一张全局图,把 V3 和 V4 的核心差异放在一块儿对比:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总参数从 671B 翻到约 1T,但每个 token 激活的参数量基本没变(32-37B)。这意味着 V4 不是简单地"堆大",而是靠更多专家子网络来覆盖更广的知识面。DeepSeekMoE 的哲学一直是:用更少的计算量,激活更精准的知识。V4 把这个思路推到了极致——256 个专家子网络中每次选 8 个,比 V3 的 top-2/top-4 路由策略灵活得多。

不过这些参数规模目前还是推测,基于代码分析和供应链信息,官方没有最终确认。

四大技术突破,一个比一个硬核

1. Engram 条件记忆:把"背书"和"推理"分开

这是我觉得 V4 最有意思的设计。

传统 Transformer 的注意力机制有个根本问题:它既要靠注意力去检索上下文中的知识,又要靠注意力去做推理。这两个任务其实互相干扰——检索需要广撒网,推理需要深聚焦。DeepSeek 在 2026 年 1 月发表的 Engram 论文提出了一种截然不同的思路:用 O(1) 哈希查找替代注意力检索

简单说,Engram 做了一个可扩展的查找表(Lookup Table),把模型的静态知识存进去。推理的时候,模型不需要通过注意力去"回忆"这些知识,而是直接用哈希查找"翻字典"。注意力机制就被解放出来了,可以专心做推理。

效果很直观:在 27B 的测试模型上,Needle-in-Haystack 测试(从超长文本中找到特定信息)准确率从 84.2% 跳到了 97%。这不仅是数字的提升,更是架构范式的变化——它证明了静态知识检索和动态推理确实应该分开处理。

对 V4 意味着什么?如果 Engram 被集成到 V4 中,配合 MoE 架构,每个专家可以拥有更大容量的知识库,而不用在推理时付出额外的注意力计算成本。这可能也是 V4 敢把目标上下文窗口拉到 1M token 的底气之一——Engram 让长上下文的处理效率大幅提升。

不过 1M 上下文目前还是非官方确认的目标,最终规格要以发布为准。

2. DSA 稀疏注意力:长上下文不再"算力黑洞"

V3.2 就已经引入了 DSA(DeepSeek Sparse Attention)。这个机制的核心思路是:不是所有 token 之间的关系都需要计算注意力,大部分 token 之间的交互其实贡献很小。

DSA 用了两阶段索引器加 top-k 选择:先快速粗筛出可能重要的 token,再对这些 token 做精细的注意力计算。这跟搜索引擎的"先召回再精排"思路异曲同工。

V3.2 用 DSA 把上下文从 V3 的 128K 支撑起来了。到了 V4,如果目标真的是 1M token,DSA 大概率会进一步升级——可能的优化方向包括更高效的索引结构、更大的 top-k 选择范围,以及和 Engram 记忆模块的协同。

3. mHC 流形约束超连接:让训练不再"炸"

这是四项创新中最"学院派"的一个,但解决的问题非常实际。

DeepSeek 在 V3 中引入了 Hyper-Connections——一种让信息在 Transformer 各层之间直接流动的连接方式,跳过了传统的逐层残差连接。效果是模型能力更强了,但副作用也很明显:训练不稳定。信息流动太自由了,梯度有时候会跑飞。

mHC(Manifold-Constrained Hyper-Connections) 就是为了解决这个问题而生的。它通过双重随机约束(manifold constraint)把信息流限制在一个合理的"流形空间"里,既保留了 Hyper-Connections 的优势,又让训练过程稳定下来。27B 模型的实验显示,mHC 让训练收敛显著改善,而且带来了约 30% 的训练加速。

对 V4 这样 1T 参数级别的模型来说,训练稳定性是生死攸关的问题。一次训练崩溃的损失可能是几百万美元级别的算力成本。mHC 让 DeepSeek 敢于用更大的学习率、更激进的训练策略去跑 1T 参数的训练。

4. 稀疏 FP8 解码 + 分层 KV Cache:推理效率的秘密武器

这两项优化是搭配使用的,都跟推理阶段的内存和计算效率有关。

稀疏 FP8 解码的思路是:KV Cache 用 FP8 精度存储(比 FP16 节省一半内存),但在矩阵乘法时用 bfloat16 计算。不是所有 token 的 KV Cache 都需要高精度——大量"填充性"token 的 KV 值本身信息量就低,用 FP8 完全够用。FlashMLA 的代码分析显示,这种方案在 H800 上能达到 410 TFLOPS 的利用率,甚至在 B200 上也能跑到 350 TFLOPS。推理速度提升约 1.8x。

分层 KV Cache 则是从存储层面优化内存使用。热点 token(最近生成的、频繁引用的)放在 GPU VRAM 里,温数据放在系统 DRAM,冷数据放在 NVMe SSD。这就像操作系统的页面置换算法——把最常用的东西放在最快的存储里。效果是整体内存占用减少约 40%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这两项优化组合在一起的效果是:推理更快、内存更省、成本更低。对 DeepSeek 的商业模式来说——API 价格已经比 GPT-5 便宜 95%——进一步的推理效率提升意味着他们可以把价格压得更低,或者用同样的成本支撑更多用户。

华为昇腾适配:比换芯片难一百倍的事

硬件换芯只是开始,软件生态适配才是真正的硬仗。

DeepSeek V3 用的是 NVIDIA H800,跑在 CUDA 生态上。V4 要切换到华为昇腾 910C 和 950PR,意味着整个训练和推理栈都要重写或大幅修改。

昇腾芯片的规格

先看 V4 搭配的两颗昇腾芯片:

芯片 算力(FP8) HBM 容量 带宽 定位
Ascend 910C 800 TFLOPS(FP16) 3.2TB/s 核心训练算力,双 die 封装
Ascend 950PR 1 PFLOPS 144GB 4TB/s 高端部署,V4 标配
Ascend 960(2027Q4) 2 PFLOPS 288GB 9.6TB/s 下一代,规划中
Ascend 970(2028Q4) 4 PFLOPS 288GB 14.4TB/s 路线图终点

950PR 是 V4 的核心芯片,1 PFLOPS 的 FP8 算力跟 NVIDIA H100 差不多一个级别。但光看算力数字没意义——CANN(华为的 AI 计算框架)跟 CUDA 的成熟度差距,才是真正的瓶颈。

V4 为什么延迟了?

V4 原本计划 2026 年 2 月中旬发布,但两次延迟。TrendForce 报道称,延迟的核心原因就是适配国产芯片的时间比预期长

这个延迟其实很容易理解。CUDA 生态经过十几年积累,cuBLAS、cuDNN、NCCL 这些库的优化程度远超 CANN。DeepSeek 的 MLA 注意力机制、MoE 路由、FP8 训练——这些在 CUDA 上已经有成熟实现的组件,在 CANN 上可能要全部重新优化。

更棘手的是,DeepSeek 拒绝了 NVIDIA 的早期优化访问权,意味着他们没有拿到 NVIDIA 针对 V4 架构可能的预发布优化支持。这是 DeepSeek 主动选择的一条更难的路,但也是一条更自主的路。

有意思的是,V4 的延迟反而带动了华为芯片的涨价。TrendForce 报道,因为阿里、字节、腾讯都在大规模订购昇腾芯片(为了各自的模型训练),华为芯片价格上涨了约 20%。2026 年华为计划生产约 60 万颗 910C,总昇腾产能 160 万颗——这个数字听着多,但跟国内 AI 公司的需求比起来,可能还是不够分。

性能预期:看了眼馋,但得打问号

根据泄露的预发布内部数据(未经独立验证),V4 在几个关键 benchmark 上的表现如下:

Benchmark V3.2 V4(预期) 提升幅度
SWE-bench 67.8% ~81% +13.2pp
HumanEval ~82% ~90% +8pp
MMLU-Pro 85.0% ~89% +4pp
Needle-in-Haystack 84.2%(27B) 97%(Engram 27B) +12.8pp

SWE-bench 从 67.8% 到 81% 的提升非常亮眼——这测试的是模型解决真实 GitHub issue 的能力,81% 意味着 V4 可能成为最强的开源代码模型之一。但同样要提醒:这些数据来自预发布内部测试,实际发布时可能会有差异。

内存减少 40%、推理速度提升 1.8x、训练速度提升 30%——如果这些数字最终被确认,V4 在效率层面的进步可能比 benchmark 分数更有实际意义。

国内大模型格局:DeepSeek 的位置

聊完技术,说说更大的图景。

2026 年初的国内大模型市场,竞争已经白热化了。QuestMobile 数据显示:

  • 豆包(字节):MAU 1.55 亿,国内第一,日活破亿,日均调用量突破 50 万亿 tokens
  • DeepSeek:长期位居国内第二
  • 通义千问(阿里):公测一周下载量破千万,30 天 MAU 破 4000 万,增长势头最猛
  • 文心一言(百度):MAU 从 1500 万跌到约 500 万,已经掉队

投入力度也很夸张——阿里过去一年 AI 投入超 1200 亿元,字节去年约 1500 亿元,2026 年计划 1600 亿元。

在这种"军备竞赛"环境下,DeepSeek 的策略其实很清晰:不走"烧钱堆参数"的路线,而是靠架构创新(MLA、MoE、Engram、DSA)和算力效率(稀疏 FP8、分层 KV Cache、国产芯片)来建立护城河。

API 价格比 GPT-5 便宜 95%[资料包],这背后靠的就是这些效率优化。如果 V4 的推理效率再提升 1.8x,成本优势会更大。

待确认 / 待补充

写到这里,必须诚实地标注一下:V4 尚未正式发布(截至 2026 年 4 月 16 日),以下信息仍存在不确定性:

  • 1M 上下文窗口:基于 Engram 架构和 V4-Lite 测试表现推断,官方未确认
  • 1T 参数规模:基于代码分析和供应链信息推测
  • SWE-bench 81% 等性能数据:预发布内部数据,未经独立验证
  • 16 专家路径/256 专家中选 8:基于代码分析推测
  • 多模态能力(原生图像+文本,可能支持视频):预期功能,无技术细节[资料包]
  • 具体发布日期:梁文峰内部确认"4 月下旬",但具体哪天还没定
  • CANN 框架适配的技术细节:公开信息极少,华为和 DeepSeek 均未披露
  • V4 的训练数据规模和配比:无公开信息
  • V4 开源策略:是否会延续 V3 的开源路线,暂无消息

写在发布之前

DeepSeek V4 目前定在 2026 年 4 月下旬发布,梁文峰内部已确认。这篇文章基于目前已公开的所有信息——论文、代码分析、供应链消息、媒体报道——做了系统性的技术梳理。

不管最终规格如何,V4 的战略意义已经很明显了:它是中国第一个在大规模训练中深度适配国产芯片(华为昇腾)的万亿参数级模型。这个里程碑的意义,可能比 benchmark 分数大得多。

等 V4 正式发布后,我会跟进更新技术细节和实测数据。


参考链接

DeepSeek V4 Expected to Launch in Late April with Massive Parameter Scale — GizChina https://www.gizchina.com/ai/deepseek-v4-expected-to-launch-in-late-april-with-massive-parameter-scale

DeepSeek V4: Release Date, Features, Benchmarks, and What to Expect — Codersera https://codersera.com/blog/deepseek-v4-release-date-features-benchmarks

Decoding DeepSeek V4: How Huawei’s Ascend 950PR Is Powering China’s Push — TrendForce https://www.trendforce.com/news/2026/04/07/news-decoding-deepseek-v4-how-huaweis-ascend-950-pr-is-powering-chinas-push-to-break-cuda-dependence/

DeepSeek V4 Cuts Memory by 40% and Boosts AI Speed 1.8x — ThePromptBuddy https://www.thepromptbuddy.com/prompts/deepseek-v4-cuts-memory-by-40-and-boosts-ai-speed-1-8x-the-complete-technical-breakdown

Conditional Memory via Scalable Lookup (Engram) — ArXiv https://arxiv.org/abs/2601.07372

mHC: Manifold-Constrained Hyper-Connections — ArXiv https://arxiv.org/abs/2512.24880

DeepSeek-V3 Technical Report — ArXiv https://arxiv.org/abs/2412.19437

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models — ArXiv https://arxiv.org/abs/2512.02556

国产AI芯片:华为昇腾的迭代路线 — EDN China https://www.ednchina.com/technews/36451.html

豆包日活破亿、千问元宝追赶,百度文心掉队 — 新浪财经 https://finance.sina.com.cn/roll/2026-01-13/doc-inhhcxit9180312.shtml

DeepSeek’s V4 model will run on Huawei chips — Reuters https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/

FlashMLA: Efficient Multi-head Latent Attention Kernels — GitHub https://github.com/deepseek-ai/FlashMLA

DeepSeek V4 Developer Guide: Trillion-Parameter MoE & Engram Memory — LushBinary https://lushbinary.com/blog/deepseek-v4-developer-guide-trillion-parameter-moe-engram/

DeepSeek V4 Launch Imminent: Trillion-Parameter Model — BigGo Finance https://finance.biggo.com/news/202604102303_DeepSeek_V4_April_Launch_Details

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐