引子:这一次,DeepSeek 换掉的是推理栈

过去一年,国产开源模型最常被讨论的是「参数多大、榜单多高」。但这一次 DeepSeek V4 给外界的信号完全不同——它换掉的不是参数,是底下跑的芯片

Reuters 在 4 月初援引 The Information 的报道,明确指出 DeepSeek V4 将跑在华为 Ascend 950PR 上,并且 DeepSeek 刻意没把 V4 的早期访问给 NVIDIA,而是只开放给国产芯片厂商。V4-Lite 已经在 API 节点灰度测试,开发者反馈 128K 上下文召回率从 45% 跳到 94%,推理速度提升 30%。这些数字说明一件事:V4 不是一个「又一个开源 SOTA」,而是开源阵营第一次把「模型 + 推理栈 + 国产芯片」同时做完闭环。

对国内开发者和企业技术决策者来说,这是一个需要立刻开始研究的事件。

核心事实:V4 在发布窗口内的关键数字

根据多家海外媒体与国内社区在 4 月中旬放出的信息,DeepSeek V4 的当前公开画像大致如下:

  • 总参数规模:约 1 万亿(1T),Mixture-of-Experts 架构
  • 每 token 活跃参数:约 37B
  • 上下文窗口:1M token,背后由 Engram 条件记忆机制支撑
  • 多模态能力:原生支持文本、图像、视频生成(不是外挂适配层)
  • 发布形式:Apache 2.0 开源权重(按 DeepSeek 既往传统)
  • 推理硬件:华为 Ascend 950PR,国产芯片首发
  • 预计发布窗口:2026 年 4 月下旬,内部备忘录由 CEO 梁文锋确认"月底发布"

V4-Lite 是一个很关键的先行信号。它跑在部分 API 节点上,灰度开发者在推送里反复提到两个数字:128K 召回率 94%(相比 V3 的 45%)、推理延迟下降 30%。这意味着长上下文不再是营销指标,而是真的能打的能力。

技术解读:MoE 不新鲜,但 V4 想做的事很不一样

MoE(Mixture-of-Experts)架构本身不是 V4 的卖点。Mixtral、GLM-5.1、Gemma 4 Pro 走的都是这条路。V4 真正让人关注的是三件事同时发生

1. 1M 上下文 + Engram 条件记忆

DeepSeek 没有走传统的 YaRN/RoPE scaling 硬拉上下文的老路,而是引入了「Engram 条件记忆」。从公开描述看,这更接近一种分层记忆 + 条件激活的机制:短期活跃信息走传统 attention,长程记忆用条件检索的方式激活相关专家。这也解释了为什么 V4-Lite 在 128K 上能把召回率从 45% 打到 94%——传统位置编码扩展方案到 32K-64K 就开始退化,而 Engram 把「记不住」和「想不起来」解耦成两个问题分别处理。

对开发者更实际的价值是:你不用再为了塞一本白皮书而把文档切 RAG 切到怀疑人生。V4 的长上下文如果真能稳定在宣称的水平,RAG 作为"补丁方案"的使用场景会显著压缩,更多工作流会走回「整段喂、整段读」的朴素路径。

2. 原生多模态,不是「文本模型 + 图像适配层」

V4 的多模态不是先训一个纯文本模型再接 CLIP-style vision encoder,而是在预训练阶段就把文本、图像、视频三种模态一起喂进去。这和 Gemini 的思路更接近,和 Llama 4 的 “adapter 后贴” 思路不同。

原生多模态的工程意义是:跨模态推理不再依赖中间表示的对齐质量。比如给 V4 一张架构图,让它分析里面的系统调用关系,它可以直接在统一的表示空间里推理,而不需要把图先变成 caption 再喂回语言模型。灰度测试里有开发者反馈 V4 在"读 UML 图 + 改对应代码"这种任务上的准确率明显优于 V3+CLIP 方案。

3. 昇腾 950PR:推理栈级别的国产化

这是 V4 最容易被低估、也最值得开发者关注的变化。

一个大模型从「能开源」到「能大规模部署」,中间有一座桥叫推理栈。过去这座桥几乎只有一个方案:NVIDIA CUDA + TensorRT-LLM / vLLM。开源权重发出来大家能跑,但要么自己折腾显卡,要么买 NVIDIA H100/H800 集群。

DeepSeek V4 首发绑定昇腾 950PR,意味着整个模型在训练期就针对华为昇腾的算子、内存层级、通信拓扑做了适配,而不是"权重给你,你自己想办法"。配合昇腾 CANN 的最新优化栈,国内云厂商拿到 V4 权重后能以接近"开箱即用"的体验部署,而不需要一个 GPU 工程师团队做六个月的推理栈调优。

这会直接影响国内 B 端 AI 落地的定价。推理成本一旦有了国产供应链替代方案,国内云厂 API 定价的天花板会被压低一个数量级。

行业影响:开源阵营正式进入「基础设施主权」阶段

过去两年的开源模型竞争大致经历了三个阶段:

阶段 代表 核心叙事
参数竞赛期(2023-2024) Llama 2/3, Qwen, DeepSeek V1/V2 追上闭源的参数量和数据量
能力竞赛期(2024-2025) Llama 3.1, DeepSeek V3, GLM-4.5 在特定能力(代码、数学、推理)上追平或反超
基础设施主权期(2026-) DeepSeek V4, KimiK2.5, GLM-OCR 把「模型 + 推理栈 + 硬件」作为整体的主权资产

V4 是把第三阶段特征展示得最彻底的一个。它同时满足:(1) 参数量到顶级水准;(2) 能力对标闭源前沿;(3) 推理栈不依赖 NVIDIA;(4) 发布即开源。

对中国 AI 产业来说,这种组合意味着国内的 AI 能力不再需要通过"买 H100"来进入前沿。对欧洲、东南亚、中东这些对芯片主权有焦虑的地区来说,V4 + 昇腾 950PR 提供了一个现成的"非美国方案"样板。

对开发者来说,最直接的影响是两个:

第一,模型选型要开始分"前沿系统"和"边缘代理"两条线。 Anthropic Claude Mythos 5、OpenAI GPT-5.4 这类"前沿系统"适合高价值、compute-heavy 的复杂推理;而 DeepSeek V4、Gemma 4、Gemini Flash-Lite 这类模型适合做"边缘代理"——便宜、快、可自部署、可调优。一人公司/小团队做产品时,重活交给前沿系统做一次就够了,日常请求走开源模型降成本,这是今年下半年一定要做的架构演进。

第二,国产推理栈的生态位被撑出来了。 过去做 MLOps/推理优化的国内工程师很难绕开 CUDA,但当 V4 + 昇腾成为一条完整的工程路径后,围绕昇腾做算子优化、量化、调度的岗位会真正出现。这是一个值得技术人员跟踪的长线机会。

个人观点:开源模型的分水岭不在"多大",而在"跑在哪"

我跟进国产大模型这一年最大的体会是:真正的护城河不是榜单分数,而是工程闭环。GLM-5.1 在 Code Arena 登顶是一个漂亮的事,但它要真正在客户生产环境里替代 Claude Sonnet,还要再走一段路——延迟、稳定性、推理成本、部署复杂度,每一个都可能是卡点。

V4 做的事在我看来比 GLM-5.1 登顶更重要:它把"部署成本"这件事从"模型之外的工程问题"搬回了"模型设计的一部分"。当你从训练阶段就决定要跑在昇腾上,当你为了 1M 上下文专门设计 Engram,当你的 V4-Lite 先在 API 节点把召回率验证过——这是工程纪律,不是营销。

这也是我判断 2026 下半年会出现的趋势:模型公司会分化成两类——「基础设施型」(DeepSeek、智谱、阿里)和「应用型」(月之暗面、百川等)。前者把模型当作基础设施在卖,后者把模型当作底座做上层产品。两者都有生存空间,但会走出非常不一样的路径。

对独立开发者和一人公司来说,今年要做的不是等 V4 发布再研究,而是现在就开始评估你的推理栈对多厂商模型的兼容性。一个月前你可能还在用 OpenAI API + Claude API,现在你需要加上 DeepSeek + 阿里百炼 + 智谱,然后用一层路由做成本/能力分流。越早做这件事,越容易在下一个周期拿到红利。

结语:等发布窗口关上再看就晚了

V4 的正式发布可能就在未来 2-3 周内。但有经验的从业者都知道——模型发布当天的热闹是留给媒体的,真正的工程判断要在发布前就想清楚:

  • 你的产品用的 API 如果换成 V4,成本会降多少?
  • 1M 上下文如果稳定可用,你哪些工作流会从 RAG 回到朴素 prompt?
  • 如果你的云资源可以切换到昇腾推理,什么时候切更划算?

这些问题不需要等 V4 发布再回答,现在就可以开始算账。欢迎在评论区说说你们团队怎么准备——特别是做 B 端的同学,你们客户对"模型跑在国产芯片上"这件事的态度,可能会决定你们下半年的技术选型。

参考信息来源:Reuters / The Information / TechNode / Dataconomy 2026 年 3-4 月相关报道,以及 DeepSeek 官方发布渠道的公开声明。文中数字以公开信息为准,正式版本以 DeepSeek 官方发布为准。


我是大方(dafanglab),一人公司践行者,AI 工具深度用户,每天跟进 AI 前沿并做技术解读。如果这篇对你有帮助,欢迎点赞 / 收藏 / 关注,后续会持续更新 DeepSeek V4 发布后的实测对比。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐