推理性能比肩顶级闭源、百万上下文成标配、Agent能力开源领跑

2026年4月24日,距离前代大版本更新整整15个月之后,DeepSeek终于亮出了万众期待的DeepSeek-V4预览版,同步开源模型权重和技术报告。这不是一次简单的升级迭代——DeepSeek在技术报告中坦率承认,其通用推理能力大约滞后前沿闭源模型3到6个月。但这恰恰是这篇博客想探讨的核心:一个开源模型如何靠工程创新和极致性价比,拉平了原本动辄需要数百亿美金算力堆砌的能力鸿沟。

一、双版本并行:清晰的定位策略

V4一口气推出两个版本,形成鲜明的差异化定位:

DeepSeek-V4-Pro:旗舰性能版,总参数达到1.6万亿,激活参数490亿,预训练数据33万亿-42。核心定位是性能比肩顶级闭源模型,适合复杂智能体任务、长文档分析、专业代码生成等高要求场景。

DeepSeek-V4-Flash:轻量高效版,总参数2840亿,激活参数130亿,预训练数据32万亿。主打高性价比与低延迟,推理能力接近Pro版,适合日常对话、轻量任务和大规模API调用。

二、百万上下文“标配”:从一个昂贵的名词变成“水电煤”

一年前,1M(一百万token)上下文还是Gemini独家的王牌,其他闭源模型要么128K要么200K,开源阵营几乎没人玩得起这个量级-1。DeepSeek-V4直接把它从“高端功能”变成了所有官方服务的标配。以中文文本测算,100万token约等效于一次性处理75万字——相当于完整承载《三体》三部曲的全部文字体量。

大模型处理超长文本的最大痛点从来不是“能不能装下”,而是跑不动、记不住、算不起。传统注意力机制呈平方级复杂度攀升,百万token场景下显存与算力几乎直接“爆炸”。DeepSeek-V4的解决方案是:在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),相比传统方法大幅降低了对计算和显存的需求。具体数据更直观:在1M上下文下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV缓存只有V3.2的10%;V4-Flash更极端,分别压到10%和7%。V4-Flash单token计算量比V3.2降低了9.8倍。

三、Agent能力大幅提升:内部员工都说好用

Agent(智能体)能力是V4的另一大亮点。DeepSeek-V4-Pro在Agentic Coding评测中已达到当前开源模型最佳水平。根据官方披露的信息,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,使用体验优于Anthropic的Sonnet 4.5,交付质量接近Opus 4.6非思考模式。OpenAI GPT-5.5发布仅仅几小时后,DeepSeek亮出的这张牌,让海外网友直呼“鲸鱼回来了”“便宜又强大”。

模型还针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了专项适配优化。也就是说,V4不仅仅是一个语言模型,更是一个可以被智能体调用的强大引擎——代码任务、文档生成、多步骤推理都在它的能力射程之内。

四、国产算力合作:V4可能是AI芯片竞赛下的第一张通用船票

更具产业里程碑意义的是,DeepSeek-V4从设计之初就深度适配国产算力,在华为昇腾芯片生态中实现训练与推理,成为全球首个在国产算力底座上完成全链路验证的万亿参数级模型。虽然官方也坦诚,受限于高端算力,目前Pro版本的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格还会大幅下调。这也意味着,V4的付费版本短期内其实处于一个“性能大于供给”的阶段。

寒武纪也在V4发布当天宣布,已基于vLLM推理框架完成对DeepSeek-V4-flash和DeepSeek-V4-pro的Day 0适配,适配代码已开源到GitHub社区-6——国产算力生态正在加速围拢。两条完全不同的国产AI芯片路线同时锁定了V4,无疑释放了一个关键信号:V4很可能是大模型国产推理新平台生态中最通用的那张船票。

五、定价策略:Flash极致性价比,Pro更贵但涨得有道理

DeepSeek-V4的API定价延续了一贯的普惠策略,但Pro版本的价格上浮明显。

模型 输入(缓存命中) 输入(未命中) 输出
V4-Flash 0.2元 / 百万token 1元 / 百万token 2元 / 百万token
V4-Pro 1元 / 百万token 12元 / 百万token 24元 / 百万token

相比前代V3.2的定价,V4-Flash在输入未命中场景下价格几乎砍半(V3.2未命中输入为2元),输出价格还略有下调,体现的是效率革命带来的真实成本传导。V4-Pro输出价格是Flash的12倍,这种价差背后是实打实的算力消耗。DeepSeek选择让性能极致的Pro版保持价格门槛,同时把经过验证的长上下文和推理能力以Flash版普惠化——这是清晰的“剪刀差”定价逻辑,也让V4整体在AI市场中保持“高性价比”的形象。

在推理速度方面,V4的推理速度较前代V3提升了35倍,能耗降低了40%。

六、性能真相:开源第一梯队,但不是AI冠军

综合各项榜单和实测数据,V4的真实定位更为清晰:

  • 编程与推理能力提升明显:V4-Pro在LiveCodeBench达到93.5,Codeforces Rating达到3206,在Apex Shortlist硬核推理任务中以90.2%的成绩领先Claude、Gemini和GPT四款模型中的对手。在Agentic Coding评测中达到开源模型最佳水平。

  • 知识类能力与顶尖闭源仍有差距:在通用知识评测中,V4-Pro大幅领先其他开源模型,但稍逊于Gemini-Pro-3.1。通过将V4-Pro与前代V3.2的各项关键指标做对比,可以更直观地看到V4的真实提升:

类别 指标 V3.2 V4-Pro 提升幅度
知识 MMLU-Pro 65.5 73.5 +8.0
知识 C-Eval 90.4 93.1 +2.7
知识 MultiLoKo 38.7 51.1 +12.4
事实问答 SimpleQA 28.3 55.2 +26.9
事实问答 FACTS 27.1 62.6 +35.5
代码 HumanEval 62.8 76.8 +14.0
长上下文 LongBench-V2 40.2 51.5 +11.3

(数据来源:DeepSeek官方报告与社区汇总统计)

  • 第三方评测稳居开源前列:在vals.ai榜单上,V4位列全球第九、开源第一;在arena.ai榜单中,文本能力排名第20,编程能力排名第14。V4不支持多模态,因此在图像及视觉领域未参与评测。

七、站在岔路口的V4:底牌与悬念

V4的发布稿结尾,DeepSeek引用了荀子《非十二子》的一句话:“不诱于誉,不恐于诽,率道而行,端然正己。”

但从技术报告看,DeepSeek自己也做了冷静的判断:通用推理和世界知识整体上落后闭源前沿约3-6个月,这是开源模型在算力和闭源团队工程积累上不可绕开的差距。V4的最大突破,不在于一次性跻身世界冠军,而在于用工程创新压低了接近顶级闭源的准入门槛。如果下半年昇腾算力供给跟上、Pro推理成本降低,V4的双版本策略将不再是“性能vs成本”的二选一,而是国产推理落地最有竞争力的标准配置。开源模型追赶闭源模型的时间线,很可能因V4的架构创新第一次被真正缩短。

毕竟——在AI这场马拉松里,DeepSeek用V4证明了一件事:中国开源大模型不只靠参数刷新排行榜,而是靠做减法,让人人用得起高性能长文本的AI能力。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐