DeepSeek-V4 来了：沉默15个月，憋了一颗“开源核弹”

2026年4月26日 13点热度 0人点赞 0条评论

大家好，我是蓝戒，本篇我们来聊聊”开源核弹DeepSeek-V4“。

2026年4月23日，一个普通的周四下午。当硅谷的AI研究者们正准备结束一天的工作时，DeepSeek 悄然上线了 V4 预览版——没有发布会，没有直播路演，甚至没有任何预热海报。 只有 HuggingFace 上的一纸技术报告，以及官网、App、API 的同步更新。

但正是这场“沉默的上线”，瞬间点燃了整个AI圈。

一道荀子的古语，回应了半年的喧嚣

在发布稿的结尾，DeepSeek 引用了《荀子·非十二子》中的一句话：

“不诱于誉，不恐于诽，率道而行，端然正己。”

——不被赞誉诱惑，不被诽谤吓退，按自己认定的路走下去，端正自己。

这句话放在今天，意味深长。过去半年，关于 V4 什么时候发、是不是跳票了、是不是已经被 OpenAI 和 Anthropic 彻底甩开、甚至是不是被 Claude 蒸馏了数据……各种传言在中外 AI 圈里来回滚了无数遍。有人信誓旦旦说春节前必发，也有人断言 DeepSeek “已经掉队了”。

面对喧嚣，他们一次都没回应过。

然后在 4 月 23 日这一天，直接把 V4 甩了出来——同步开源，同步上线 API，同步更新官网和 App。 顺便，还在发布稿里轻描淡写地提了一句：DeepSeek 内部员工已经全面弃用 Claude 了，V4 的 Agentic Coding 体验优于 Sonnet 4.5，交付质量接近 Opus 4.6。

没有宏大的路线图，没有长篇大论的访谈。“率道而行”四个字，被他们用行动做到了极致。

两个版本，一种野心：把一美元花出极限

这次 V4 一口气发了两个版本，目标极其明确：

版本	总参数量	激活参数量	上下文长度	定位
V4-Pro	1.6T	49B	1M	满血对标顶级闭源模型
V4-Flash	284B	13B	1M	更小更快的极致经济版

两个版本均采用 MoE（混合专家）架构，全系支持 100 万 token 的超长上下文，且同时支持非思考模式（Non-think）和思考模式（Think High / Think Max）。

最恐怖的细节在于：V4-Pro 的激活参数仅仅只有 49B，却能直接硬刚千亿甚至万亿激活参数的闭源模型。 这意味着 DeepSeek 在 MoE 路由效率上做到了极其变态的优化——花最少的算力，拿最高的分数。这完美延续了他们从 V2 时代就确立的核心底色：每一美元，都要榨出最大价值。

跑分说话：开源从未如此逼近闭源王座

先看这组最核心的 Benchmark 成绩单（V4-Pro Max 模式 vs 当前最强闭源模型）：

评测基准	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro
LiveCodeBench	93.5 🥇	88.8	—	91.7
Codeforces Rating	3206 🥇	—	3168	3052
Apex Shortlist	90.2 🥇	85.9	78.1	89.1
IMOAnswerBench	89.8	75.3	91.4	81.0
GPQA Diamond	90.1	91.3	93.0	94.3
HLE	37.7	40.0	39.8	44.4
SWE Verified	80.6	80.8	—	80.6
Terminal Bench 2.0	67.9	65.4	75.1	68.5
MCPAtlas Public	73.6	73.8	67.2	69.2

代码能力绝对碾压： V4-Pro 拿下了三个关键基准的第一名（LiveCodeBench、Codeforces 和 Apex Shortlist），这全是最顶级的编程竞赛和真实代码评测。
数学推理跨代领跑： IMOAnswerBench 达到 89.8，远超 Opus 4.6 的 75.3，仅次于 GPT-5.4。在 HMMT 2026 年 2 月的竞赛题上更是轰下 95.2 的超高分。
Agent 能力第一梯队： SWE Verified 和 MCPAtlas 均与 Opus 4.6 打得难解难分。

坦诚地说，V4-Pro 并非无死角的六边形战士。在 SimpleQA 的世界知识评测中，它与 Gemini 3.1 Pro 仍有差距；在 HLE 硬核推理上也需要继续追赶。

但如果把它放在整个大模型发展史的坐标系中：一个开源模型，能在如此多核心维度上对全球最顶级的闭源模型形成交叉火力甚至压制，这在一年前根本是天方夜谭。 它是对闭源阵营的一次降维打击。