【卷卷漫谈】DeepSeek V4 背后那条没退路的山路

DeepSeek V4 还有不到两周发布，但它背后那条路——从 CUDA 转向华为昇腾 CANN 框架——才是这篇文章真正想说的。这是一个关于"代价"的故事。今天是 2026 年 4 月 17 日。DeepSeek V4 还没发布。从去年年底开始，"V4 下周发布"这个消息已经流传了不下十次。春节前说要发，没发。3 月初外媒预测 3 月 2 日，没发。3 月底服务器大规模瘫痪，大家以为是在做上线前

卷卷说风控

49人浏览 · 2026-04-17 16:27:40

卷卷说风控 · 2026-04-17 16:27:40 发布

结论：DeepSeek V4 还有不到两周发布，但它背后那条路——从 CUDA 转向华为昇腾 CANN 框架——才是这篇文章真正想说的。这是一个关于"代价"的故事。

今天是 2026 年 4 月 17 日。

DeepSeek V4 还没发布。

从去年年底开始，"V4 下周发布"这个消息已经流传了不下十次。春节前说要发，没发。3 月初外媒预测 3 月 2 日，没发。3 月底服务器大规模瘫痪，大家以为是在做上线前的压力测试，还是没发。

直到 4 月 10 日，梁文锋才正式确认：V4 将于 4 月下旬发布。

还有不到两周。

但我今天不想聊 V4 有多强。它难产的真正原因——华为昇腾适配——才是有意思的部分。

先说 V4 本身

从目前流出的信息看，核心升级有三个：

参数规模：671B → 约 1T

V3 是 671B 总参数，每次推理激活 37B。V4 预计翻到约 1 万亿，但激活参数量基本没变，还是 32-37B 左右。

这是 DeepSeek 一直在坚持的 MoE 路线——256 个专家子网络，每次只激活其中 8 个。参数多了覆盖的知识面更广，但计算量不会等比例增加。简单说：用更少的算力，激活更精准的知识。

上下文：128K → 1M token

百万级上下文。可以把一整个代码仓库、一整本书、几十份合同全部塞进去，让它在完整语境下处理。

Engram 条件记忆：把"背书"和"推理"分开

这是 V4 最有意思的设计，来自 DeepSeek 今年 1 月发表的论文。

传统 Transformer 的注意力机制有个根本问题：既要靠注意力去检索上下文中的知识，又要靠注意力去做推理。这两个任务互相干扰——检索需要广撒网，推理需要深聚焦。

Engram 的思路是：用 O(1) 哈希查找替代注意力检索。把模型的静态知识存进一个可扩展的查找表，推理时直接"翻字典"，不需要通过注意力去"回忆"。注意力机制被解放出来，专心做推理。

效果：在 27B 测试模型上，Needle-in-Haystack 准确率从 84.2% 跳到了 97%。

然后说那条辛苦的路

V4 最大的新闻不是它有多少参数，而是：它将完全运行在华为昇腾 950PR 芯片上，技术架构从 CUDA 全面转向 CANN 框架。

这句话背后是什么，我慢慢说。

CUDA 的护城河有多高

先说清楚 CUDA 是什么。

CUDA 是英伟达的编程框架，全球 90% 的 AI 开发者都在用它。十几年积累的框架、库、工具链，构成了一道几乎无法撼动的生态壁垒。PyTorch、TensorFlow、vLLM、SGLang——这些你听过的名字，全都深度依赖 CUDA。

黄仁勋说过一句话："计算不是冰箱，今天用这个明天换那个。从 CUDA 工具链到 PyTorch 框架，从模型训练到部署运维，开发者在英伟达生态上沉淀了数年心血。一个资深 AI 工程师的迁移成本，可能比买 100 块 GPU 还高。"

这话说得很准。想不用英伟达？可以。但你得重写所有代码，重新优化所有算法，重新培训所有工程师。这个成本，大到让绝大多数公司望而却步。

这就是为什么，即便在制裁背景下，国内大厂依然在通过各种渠道抢购 A100、H100——不是不想用国产，是不敢冒险。

昇腾的脾气有多难驯

华为昇腾采用达芬奇架构，和 GPU 有本质区别。

GPU 里有成千上万个 CUDA Core 并行计算。昇腾 NPU 里，计算核心是 AI Core，内部主要包含两个单元：Cube Unit（矩阵运算）和 Vector Unit（向量运算）。

关键点在这里：Cube Unit 非常强，Vector Unit 相对弱。

这意味着，如果你的模型算子能被编译成矩阵乘法，在昇腾上就是起飞；如果充斥着大量零碎的向量计算，性能就会大打折扣。

DeepSeek 的 MoE 架构里，有大量的专家路由计算、稀疏激活、动态调度——这些都不是标准的矩阵乘法，在昇腾上跑起来，需要从底层算子开始重新优化。

更麻烦的是内存。V4 有 1T 参数，256 个专家，每个专家大约 2.5G。普通 64GB 内存的 AI 硬件根本扛不动，必须依赖集群协作。专家分布在不同芯片上，数据传输耗时甚至超过计算时间——就像团队成员频繁开会沟通，效率大打折扣。

还有 MLA（多头隐式注意力机制）。这个机制虽然压缩了数据空间，却导致中间变量激增，对芯片的计算能力提出更高要求。

这些问题，在英伟达上有成熟的解决方案，在昇腾上，得从头趟。

他们是怎么趟过来的

DeepSeek 没有等昇腾"成熟"了再用，而是深度参与到了芯片优化过程中。

算法层面，自研的 MLA 架构大幅降低了训练和推理的算力需求。别人需要 100 张卡干的活，他们只需要 60 张。这不是靠硬件，是靠算法把需求降下来。

软硬协同层面，DeepSeek 和华为工程师一起，从底层驱动到上层框架，把每一个环节都抠到了极致。用 KernelCAT 等专项优化工具，针对昇腾的 Cube Unit 特性重写了核心算子。

量化层面，采用 SmoothQuant 技术，对模型进行 A8W8 动态量化，把 FP16 精度压缩到 FP8/FP4，显存占用骤降。700 亿参数模型用 FP16 需要 140GB 显存，用 FP4 只需要 35GB——过去需要三张 H20 才能加载的模型，现在单卡就能跑。

集群层面，华为推出 Atlas 950 超节点，支持 8192 张昇腾 950DT，FP8 算力规模达到 8EFLOPS。这不是靠单卡性能碾压，是靠集群化的系统架构来弥补单点差距。

已有实测数据显示，在昇腾 910B 上部署 DeepSeek-V3.2-Exp 时，128K 长序列的首 Token 延迟低于 2 秒，每输出 Token 时间小于 30ms。V4 进一步优化后，预计推理成本可降至英伟达方案的三分之一。

但这些成果是用多少个日夜换来的，没有人说。

还有一件事：英伟达和 AMD 被拒之门外

今年 4 月，路透社报道了一个细节：DeepSeek 拒绝给予英伟达和 AMD 早期优化访问权。

这不只是态度问题，是一个信号：他们已经决定彻底转向国产芯片生态。

英伟达和 AMD 以前是 DeepSeek 的"甲方"——模型在他们的芯片上跑，他们提供优化支持。现在这个关系反过来了。DeepSeek 把最新模型优先给华为、寒武纪这些国产厂商做适配测试，英伟达排在后面。

黄仁勋据说拍桌子了。

但这件事的逻辑很清楚：美国的芯片禁令，把 DeepSeek 逼到了华为怀里。制裁越紧，国产替代的动力越强，适配的深度越深，最终形成的生态越难被打破。最讽刺的"反向助推器"。

V4 在这个时间节点的竞争位置

维度	DeepSeek V4（预期）	Claude Opus 4.7	GPT-5.4
参数规模	~1T（MoE，激活 37B）	未公开	未公开
上下文窗口	1M token	200K token	1M token
编程能力	预期对标顶尖	SWE-bench Pro 64.3%	SWE-bench Pro 57.7%
芯片依赖	华为昇腾（国产）	英伟达	英伟达
开源	是	否	否
推理成本	预期为英伟达方案 1/3	$5/百万 token	$2.5/百万 token

V4 最大的差异化在于两件事：开源 + 国产芯片。

开源意味着全球开发者可以自己部署、自己优化、自己魔改。这是 Claude 和 GPT 永远给不了的东西。

国产芯片意味着，在英伟达被禁售的市场里，V4 是唯一能跑起来的顶尖模型。中东、东南亚、拉美……这些不受美国限制的市场，正在用脚投票。中东某主权基金的 AI 项目负责人公开说："我们不在乎芯片是美国的还是中国的，只要模型效果好、部署成本低。昇腾 + DeepSeek 的组合，已经帮我们省了 40% 的算力支出。"

一个感受

V4 难产这件事，让我想起一个词：代价。

在 CUDA 生态里做大模型，就像在一条修好的高速公路上开车——路是平的，工具是现成的，踩油门就行。

在昇腾上做大模型，是在山里开路。路没有，工具不顺手，每走一步都要先解决一个没人解决过的问题。

V4 难产，不是因为 DeepSeek 的团队不够强。恰恰相反，正是因为他们选了一条更难的路——在算力受限、生态不成熟、工具链残缺的条件下，硬是把一个万亿参数的模型训出来，还要让它跑在国产芯片上。

这件事的意义，不只是一个模型发布。

它是第一次有人证明：不靠英伟达，也能训出世界级的大模型，还能让它在国产芯片上高效运行。

这条路走通了，后面的人就有路可走了。

V4 还有不到两周就要来了。

等它。

数据来源：梁文锋内部沟通（2026年4月10日）、路透社报道、华为昇腾官方技术报告（2026年4月）

注：V4 参数规模、架构细节均为基于代码分析和供应链信息的推测，官方尚未最终确认。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

ArkUI 布局神器：RelativeContainer

人工智能6S服务平台

Flutter 三方库 flutter_secure_storage 的鸿蒙化适配指南

通过本次适配，flutter_secure_storage已经完美支持OpenHarmony平台，为咱们Flutter跨平台开发者提供了一种安全可靠的敏感数据存储方案。未来我还会继续优化这个库，添加更多鸿蒙平台特有的功能，比如支持生物识别验证访问敏感数据。如果你在使用过程中遇到问题，欢迎加入开源鸿蒙跨平台社区和我交流哦！让我们一起打造更安全的Flutter for OpenHarmony应用🥰。