正文

3月29号晚上十点半,我正让 DeepSeek 帮我改一段代码,对话框突然弹出"服务器繁忙"。以为是高峰期卡了,等几分钟就好——结果一等就是一整夜。

第二天早上七点才恢复。整整13个小时,网页端、App、API 全线变灰。微博热搜热度冲到95万+,海外 Reddit 上讨论帖热度也炸了,外媒专门发稿报道这次"Major Outage"。

当时大家都在骂服务器不稳定。但恢复之后,第一批抢着登录的人发现了蹊跷——代码输出结构变了,推理过程比之前更完整,连 SVG 图形生成都跟之前判若两人。有人拿"鹈鹕骑自行车"的经典测试题跑了一遍,效果比一周前好了一大截。

我当时就一个念头:这不是故障,这是换引擎。

4 月下旬,终于定了

4月10号,《创智记》从多位知情人士处拿到消息:梁文锋在内部沟通中确认,DeepSeek V4 将于4月下旬正式发布。新浪科技也跟进了这条消息,截至发稿 DeepSeek 方面未回应。

这条信息的分量在于——V4 的发布时间已经变成了一部连载悬疑剧。原计划2月中旬春节前后发,推迟到3月,再推迟到4月。三次跳票,每次都有人喊"狼来了",每次都落空。这次不一样,是内部确认,不是路边社。

更凑巧的是,4月7号深夜 DeepSeek 网页端悄悄上线了"快速模式"和"专家模式"。快速模式适合日常对话、即时响应,支持图片和文件识别;专家模式擅长复杂问题,编码、数理推理能力明显更强,就是高峰期得排队等。

有网友直接问了句"你是V4吗",专家模式居然回答了"是的"。当然这可能只是模型幻觉,但配合之前13小时宕机和各种蛛丝马迹,V4 的雏形已经在跑了,基本没跑。

万亿参数,百万上下文

那 V4 到底升级了什么?综合多方信源和泄露信息:

V4 延续 MoE 架构——混合专家模型,简单说就是模型虽然总参数大,但每次推理只激活一小部分"专家",所以不贵。总参数约 1万亿,推理激活约 370亿。上下文窗口从 V3 的 128K 直接拉到了 100万 token。

100万 token 什么概念?你把一整个中型项目的源码全扔进去,它一次读完,不用分批。

架构上最大的创新是内存层。1月份梁文锋参与发表的 Engram 论文,核心思路是把"记住东西"和"思考问题"拆开——以前模型每次回答都要重新算一遍已知信息,大量算力浪费在重复检索上。Engram 把静态知识存到外部内存,用的时候直接查表,不用重新算。论文数据显示,1000亿参数的查找表放到主机内存,吞吐量损失不到3%。

这技术对国内算力环境特别关键:用便宜的 CPU 内存替代昂贵的 GPU 显存来存知识,等于给算力受限的团队开了条新路。

在这里插入图片描述

泄露的基准测试数据(未经官方确认):HumanEval 90%,SWE-bench 超 80%。如果属实,代码能力追上了目前市面上的大部分竞品。不过自己报的分和第三方独立跑出来的经常是两回事,先打个问号,等正式发布看真功夫。

真正的杀手锏:跑在华为芯片上

V4 这回最值得关注的,是它跑在谁的芯片上。

据路透社4月3日报道和 The Information 的跟进,V4 的推理将运行在华为昇腾 950PR 芯片上。这颗芯片今年一季度刚量产,是华为专门为推理场景设计的。FP4 精度算力 1.56 PFLOPS,片上内存 112GB,单卡算力是英伟达 H20 的 2.87 倍。

对,V4 推理不用英伟达了。

更狠的是 DeepSeek 这次打破行业惯例:以前大模型发布前都会先跟英伟达联调优化,V4 直接跳过了,没有向任何美国芯片厂商开放测试,优先跟华为和寒武纪合作。

软件层面,华为的 CANN Next 新增了 SIMT 编程模型,可以直接兼容英伟达 CUDA 代码。简单说就是:以前写的 CUDA 程序,迁移到昇腾上改动不大就能跑。不是完全无缝,第三方库支持还有空白,调试工具链也还不够成熟,但对 DeepSeek 这种有专业团队的项目来说,迁移已经跑通了。

这件事的意义比"又一个新模型"大得多。DeepSeek 是目前中国最有影响力的开源大模型,它主动适配国产芯片,等于给整条国产算力供应链做了信用背书。每一个基于 DeepSeek 开源版本做应用的开发者,都会把算力需求导向国产硬件。对华为昇腾、寒武纪、海光、摩尔线程这些厂商来说,这波客户来得比任何广告都实在。

有报道称,阿里、字节、腾讯已经向华为预订了数十万颗新一代 AI 芯片,准备通过云服务部署 V4 模型。受此影响,AI 芯片价格近期涨了约 20%。

在这里插入图片描述

不过要实事求是:V4 的训练目前仍然依赖英伟达 GPU。推理跑在昇腾上已经是重要一步了,但"完全脱离 CUDA"还需要编译器、算子、分布式训练框架等全栈能力的成熟。业内预计至少还要一两年。

为什么跳票三次?

说了这么多好消息,V4 为什么拖了三个月才定档?从2月拖到4月,不是梁文锋拖延症犯了,是三件事卡在了一起。

首先是芯片。昇腾 950PR 今年3月才量产,V4 等的就是这颗芯片。模型从 CUDA 全栈迁移到 CANN Next,编译器、算子、通信库、推理框架全得重写,这不是一两周的活。

架构重构也是个硬骨头。Engram 条件记忆、mHC 流形约束超连接、DeepSeek Sparse Attention 三项技术要整合进同一个模型,稳定性需要时间打磨。据《晚点》报道,梁文锋对效果不满意,宁可推迟也不凑合发布。

还有一层压力来自外部。2025年初 V3 出来的时候,国内大模型还是蓝海。现在智谱刚发了 GLM-5.1,编程定价直接对标 Claude;MiniMax M2.7 号称支持 Agent 自我进化;腾讯混元 3.0 姚顺雨带队,也定在4月发布。迟到三个月的 V4 必须足够惊艳,否则就是白跳票。

行业格局:从价格战到质量战

聊完 V4 本身,说说大环境。过去一年国产大模型市场的竞争逻辑变了。2025年各家还在疯狂压 API 价格,用"白菜价"抢用户。到了2026年,竞争焦点已经转到模型真正解决问题的能力上了。

智谱 GLM-5.1 的定价就是信号:年内涨价超八成后再度提价10%,核心场景价格接近 Claude Sonnet 4.6。这是国产模型第一次不再靠"便宜"打仗,而是用性能溢价打入了国际模型的定价区间。

从这个角度看,V4 的定价策略会很有意思。Apache 2.0 开源,企业可以自主部署,这个底牌已经亮了——成本控制不是靠压 API 价,是靠国产算力把推理成本打下来。

我的看法

V4 能不能复刻去年 V3 的炸场效应?

我觉得很难,但也不需要复刻。去年 V3 的震撼来自两个:模型能力确实强,加上成本比同行低一个数量级,直接把英伟达股价打下来了一截。现在同行都追上来了,"便宜且强"不再是 DeepSeek 的独门绝技。

V4 真正的筹码在算力生态。 当中国最火的开源大模型完全跑在国产芯片上,这件事对产业链的影响比任何一组基准测试数据都实在。

如果你想用国产算力跑自己的 AI 服务,V4 + 昇腾 950PR 是目前最成熟的开源组合,没有之一。

至于"要不要等 V4"——做 AI 应用开发的,值得等。开源加上国产算力再加上成本可控,这个组合在国内市场上找不出第二家。

评论区押注:你觉得 V4 能在 SWE-bench 上超 80% 吗?超了的扣 1,没超的扣 2,最离谱的答案我请你喝咖啡(虽然不一定兑现)。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐