DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

DeepSeek V4 定了 4 月下旬发布，但这次最大的看点不是万亿参数——而是推理跑在华为昇腾芯片上，推理不再依赖英伟达。三次跳票换来的是从 CUDA 到 CANN 的全栈迁移，开源 + 国产算力的组合在国内独一份。

香蕉AEcru

95人浏览 · 2026-04-12 21:36:24

香蕉AEcru · 2026-04-12 21:36:24 发布

正文

3月29号晚上十点半，我正让 DeepSeek 帮我改一段代码，对话框突然弹出"服务器繁忙"。以为是高峰期卡了，等几分钟就好——结果一等就是一整夜。

第二天早上七点才恢复。整整13个小时，网页端、App、API 全线变灰。微博热搜热度冲到95万+，海外 Reddit 上讨论帖热度也炸了，外媒专门发稿报道这次"Major Outage"。

当时大家都在骂服务器不稳定。但恢复之后，第一批抢着登录的人发现了蹊跷——代码输出结构变了，推理过程比之前更完整，连 SVG 图形生成都跟之前判若两人。有人拿"鹈鹕骑自行车"的经典测试题跑了一遍，效果比一周前好了一大截。

我当时就一个念头：这不是故障，这是换引擎。

4 月下旬，终于定了

4月10号，《创智记》从多位知情人士处拿到消息：梁文锋在内部沟通中确认，DeepSeek V4 将于4月下旬正式发布。新浪科技也跟进了这条消息，截至发稿 DeepSeek 方面未回应。

这条信息的分量在于——V4 的发布时间已经变成了一部连载悬疑剧。原计划2月中旬春节前后发，推迟到3月，再推迟到4月。三次跳票，每次都有人喊"狼来了"，每次都落空。这次不一样，是内部确认，不是路边社。

更凑巧的是，4月7号深夜 DeepSeek 网页端悄悄上线了"快速模式"和"专家模式"。快速模式适合日常对话、即时响应，支持图片和文件识别；专家模式擅长复杂问题，编码、数理推理能力明显更强，就是高峰期得排队等。

有网友直接问了句"你是V4吗"，专家模式居然回答了"是的"。当然这可能只是模型幻觉，但配合之前13小时宕机和各种蛛丝马迹，V4 的雏形已经在跑了，基本没跑。

万亿参数，百万上下文

那 V4 到底升级了什么？综合多方信源和泄露信息：

V4 延续 MoE 架构——混合专家模型，简单说就是模型虽然总参数大，但每次推理只激活一小部分"专家"，所以不贵。总参数约 1万亿，推理激活约 370亿。上下文窗口从 V3 的 128K 直接拉到了 100万 token。

100万 token 什么概念？你把一整个中型项目的源码全扔进去，它一次读完，不用分批。

架构上最大的创新是内存层。1月份梁文锋参与发表的 Engram 论文，核心思路是把"记住东西"和"思考问题"拆开——以前模型每次回答都要重新算一遍已知信息，大量算力浪费在重复检索上。Engram 把静态知识存到外部内存，用的时候直接查表，不用重新算。论文数据显示，1000亿参数的查找表放到主机内存，吞吐量损失不到3%。

这技术对国内算力环境特别关键：用便宜的 CPU 内存替代昂贵的 GPU 显存来存知识，等于给算力受限的团队开了条新路。

在这里插入图片描述

泄露的基准测试数据（未经官方确认）：HumanEval 90%，SWE-bench 超 80%。如果属实，代码能力追上了目前市面上的大部分竞品。不过自己报的分和第三方独立跑出来的经常是两回事，先打个问号，等正式发布看真功夫。

真正的杀手锏：跑在华为芯片上

V4 这回最值得关注的，是它跑在谁的芯片上。

据路透社4月3日报道和 The Information 的跟进，V4 的推理将运行在华为昇腾 950PR 芯片上。这颗芯片今年一季度刚量产，是华为专门为推理场景设计的。FP4 精度算力 1.56 PFLOPS，片上内存 112GB，单卡算力是英伟达 H20 的 2.87 倍。

对，V4 推理不用英伟达了。

更狠的是 DeepSeek 这次打破行业惯例：以前大模型发布前都会先跟英伟达联调优化，V4 直接跳过了，没有向任何美国芯片厂商开放测试，优先跟华为和寒武纪合作。

软件层面，华为的 CANN Next 新增了 SIMT 编程模型，可以直接兼容英伟达 CUDA 代码。简单说就是：以前写的 CUDA 程序，迁移到昇腾上改动不大就能跑。不是完全无缝，第三方库支持还有空白，调试工具链也还不够成熟，但对 DeepSeek 这种有专业团队的项目来说，迁移已经跑通了。

这件事的意义比"又一个新模型"大得多。DeepSeek 是目前中国最有影响力的开源大模型，它主动适配国产芯片，等于给整条国产算力供应链做了信用背书。每一个基于 DeepSeek 开源版本做应用的开发者，都会把算力需求导向国产硬件。对华为昇腾、寒武纪、海光、摩尔线程这些厂商来说，这波客户来得比任何广告都实在。

有报道称，阿里、字节、腾讯已经向华为预订了数十万颗新一代 AI 芯片，准备通过云服务部署 V4 模型。受此影响，AI 芯片价格近期涨了约 20%。

在这里插入图片描述

不过要实事求是：V4 的训练目前仍然依赖英伟达 GPU。推理跑在昇腾上已经是重要一步了，但"完全脱离 CUDA"还需要编译器、算子、分布式训练框架等全栈能力的成熟。业内预计至少还要一两年。

为什么跳票三次？

说了这么多好消息，V4 为什么拖了三个月才定档？从2月拖到4月，不是梁文锋拖延症犯了，是三件事卡在了一起。

首先是芯片。昇腾 950PR 今年3月才量产，V4 等的就是这颗芯片。模型从 CUDA 全栈迁移到 CANN Next，编译器、算子、通信库、推理框架全得重写，这不是一两周的活。

架构重构也是个硬骨头。Engram 条件记忆、mHC 流形约束超连接、DeepSeek Sparse Attention 三项技术要整合进同一个模型，稳定性需要时间打磨。据《晚点》报道，梁文锋对效果不满意，宁可推迟也不凑合发布。

还有一层压力来自外部。2025年初 V3 出来的时候，国内大模型还是蓝海。现在智谱刚发了 GLM-5.1，编程定价直接对标 Claude；MiniMax M2.7 号称支持 Agent 自我进化；腾讯混元 3.0 姚顺雨带队，也定在4月发布。迟到三个月的 V4 必须足够惊艳，否则就是白跳票。

行业格局：从价格战到质量战

聊完 V4 本身，说说大环境。过去一年国产大模型市场的竞争逻辑变了。2025年各家还在疯狂压 API 价格，用"白菜价"抢用户。到了2026年，竞争焦点已经转到模型真正解决问题的能力上了。

智谱 GLM-5.1 的定价就是信号：年内涨价超八成后再度提价10%，核心场景价格接近 Claude Sonnet 4.6。这是国产模型第一次不再靠"便宜"打仗，而是用性能溢价打入了国际模型的定价区间。

从这个角度看，V4 的定价策略会很有意思。Apache 2.0 开源，企业可以自主部署，这个底牌已经亮了——成本控制不是靠压 API 价，是靠国产算力把推理成本打下来。

我的看法

V4 能不能复刻去年 V3 的炸场效应？

我觉得很难，但也不需要复刻。去年 V3 的震撼来自两个：模型能力确实强，加上成本比同行低一个数量级，直接把英伟达股价打下来了一截。现在同行都追上来了，"便宜且强"不再是 DeepSeek 的独门绝技。

V4 真正的筹码在算力生态。 当中国最火的开源大模型完全跑在国产芯片上，这件事对产业链的影响比任何一组基准测试数据都实在。

如果你想用国产算力跑自己的 AI 服务，V4 + 昇腾 950PR 是目前最成熟的开源组合，没有之一。

至于"要不要等 V4"——做 AI 应用开发的，值得等。开源加上国产算力再加上成本可控，这个组合在国内市场上找不出第二家。

评论区押注：你觉得 V4 能在 SWE-bench 上超 80% 吗？超了的扣 1，没超的扣 2，最离谱的答案我请你喝咖啡（虽然不一定兑现）。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

【HarmonyOS 6】鸿蒙原生应用智能体接入

人工智能6S服务平台

HarmonyOS 鸿蒙PC开源electron框架——简易心率监测工具实战开发

人工智能6S服务平台

鸿蒙flutter第三方库适配 - 二维表格

运行效果图二维表格应用是一款功能强大的电子表格工具，支持大数据量展示、流畅滚动优化、单元格编辑等核心功能。应用以清新的绿色为主色调，象征高效与精准。涵盖表格编辑、数据分析、文件管理、设置四大模块，用户可以创建工作表、编辑单元格、使用公式计算、导入导出数据，满足日常办公和数据处理需求。序号格式类型选项描述1对齐方式左对齐/居中/右对齐文本对齐2字体样式粗体/正常字体加粗3背景颜色自定义颜色单元格背景