大家好,我是蓝戒,本篇我们来聊聊”开源核弹DeepSeek-V4“。
2026年4月23日,一个普通的周四下午。当硅谷的AI研究者们正准备结束一天的工作时,DeepSeek 悄然上线了 V4 预览版——没有发布会,没有直播路演,甚至没有任何预热海报。 只有 HuggingFace 上的一纸技术报告,以及官网、App、API 的同步更新。
但正是这场“沉默的上线”,瞬间点燃了整个AI圈。
一道荀子的古语,回应了半年的喧嚣
在发布稿的结尾,DeepSeek 引用了《荀子·非十二子》中的一句话:
“不诱于誉,不恐于诽,率道而行,端然正己。”
——不被赞誉诱惑,不被诽谤吓退,按自己认定的路走下去,端正自己。
这句话放在今天,意味深长。过去半年,关于 V4 什么时候发、是不是跳票了、是不是已经被 OpenAI 和 Anthropic 彻底甩开、甚至是不是被 Claude 蒸馏了数据……各种传言在中外 AI 圈里来回滚了无数遍。有人信誓旦旦说春节前必发,也有人断言 DeepSeek “已经掉队了”。
面对喧嚣,他们一次都没回应过。
然后在 4 月 23 日这一天,直接把 V4 甩了出来——同步开源,同步上线 API,同步更新官网和 App。 顺便,还在发布稿里轻描淡写地提了一句:DeepSeek 内部员工已经全面弃用 Claude 了,V4 的 Agentic Coding 体验优于 Sonnet 4.5,交付质量接近 Opus 4.6。
没有宏大的路线图,没有长篇大论的访谈。“率道而行”四个字,被他们用行动做到了极致。
两个版本,一种野心:把一美元花出极限
这次 V4 一口气发了两个版本,目标极其明确:
| 版本 | 总参数量 | 激活参数量 | 上下文长度 | 定位 |
| V4-Pro | 1.6T | 49B | 1M | 满血对标顶级闭源模型 |
| V4-Flash | 284B | 13B | 1M | 更小更快的极致经济版 |
两个版本均采用 MoE(混合专家)架构,全系支持 100 万 token 的超长上下文,且同时支持非思考模式(Non-think)和思考模式(Think High / Think Max)。
最恐怖的细节在于:V4-Pro 的激活参数仅仅只有 49B,却能直接硬刚千亿甚至万亿激活参数的闭源模型。 这意味着 DeepSeek 在 MoE 路由效率上做到了极其变态的优化——花最少的算力,拿最高的分数。这完美延续了他们从 V2 时代就确立的核心底色:每一美元,都要榨出最大价值。
跑分说话:开源从未如此逼近闭源王座
先看这组最核心的 Benchmark 成绩单(V4-Pro Max 模式 vs 当前最强闭源模型):
| 评测基准 | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro |
| LiveCodeBench | 93.5 🥇 | 88.8 | — | 91.7 |
| Codeforces Rating | 3206 🥇 | — | 3168 | 3052 |
| Apex Shortlist | 90.2 🥇 | 85.9 | 78.1 | 89.1 |
| IMOAnswerBench | 89.8 | 75.3 | 91.4 | 81.0 |
| GPQA Diamond | 90.1 | 91.3 | 93.0 | 94.3 |
| HLE | 37.7 | 40.0 | 39.8 | 44.4 |
| SWE Verified | 80.6 | 80.8 | — | 80.6 |
| Terminal Bench 2.0 | 67.9 | 65.4 | 75.1 | 68.5 |
| MCPAtlas Public | 73.6 | 73.8 | 67.2 | 69.2 |
- 代码能力绝对碾压: V4-Pro 拿下了三个关键基准的第一名(LiveCodeBench、Codeforces 和 Apex Shortlist),这全是最顶级的编程竞赛和真实代码评测。
- 数学推理跨代领跑: IMOAnswerBench 达到 89.8,远超 Opus 4.6 的 75.3,仅次于 GPT-5.4。在 HMMT 2026 年 2 月的竞赛题上更是轰下 95.2 的超高分。
- Agent 能力第一梯队: SWE Verified 和 MCPAtlas 均与 Opus 4.6 打得难解难分。
坦诚地说,V4-Pro 并非无死角的六边形战士。在 SimpleQA 的世界知识评测中,它与 Gemini 3.1 Pro 仍有差距;在 HLE 硬核推理上也需要继续追赶。
但如果把它放在整个大模型发展史的坐标系中:一个开源模型,能在如此多核心维度上对全球最顶级的闭源模型形成交叉火力甚至压制,这在一年前根本是天方夜谭。 它是对闭源阵营的一次降维打击。
背后的技术密码:不卷参数,重写架构
V4 绝不是一次“加数据、堆参数、刷榜单”的常规挤牙膏。它是 DeepSeek 过去 15 个月对底层架构的一场彻底重构。核心武器有三:
1. CSA + HCA:把百万上下文变成“水电煤”
V4 开创了全新的混合注意力机制,包含两个互补的压缩架构:
- 压缩稀疏注意力(CSA): 将每 4 个 token 的 KV 缓存压缩为 1 个条目,序列长度瞬间压缩到 1/4。
- 高度压缩注意力(HCA): 以惊人的 128:1 压缩率处理低信息密度场景。
配合自研的 DSA 稀疏注意力,V4 在保持推理质量的前提下,将长上下文的算力和显存需求直接打成“白菜价”。这就是为什么 DeepSeek 敢把 1M(一百万)上下文做成标配——曾经这是只有巨头才玩得起的“高端局”,现在 DeepSeek 把它变成了基础设施。
2. Engram 条件记忆:给大模型装上“外挂速查手册”
创始人梁文锋亲自下场署名的论文成果。核心逻辑极其粗暴但有效:该查表的查表,该算的算。
传统模型既要用高昂的算力去“回忆事实”,又要用算力去“逻辑推理”,极度浪费。Engram 模块让静态知识存储与动态推理彻底解耦,实现 O(1) 级别的高效查找。在 Multi-Query NIAH 测试中,成绩直接从 84.2 飙升至 97.0。这就是全新的稀疏性维度:“记—算分离”。
3. mHC 流形约束超连接:万亿参数的“稳定器”
通过数学约束,将层间连接的信号放大从传统的 3000 倍死死压制在 1.6 倍以内。这项技术让训练效率提升了约 30%,让万亿参数模型的训练真正变得可控、可行。
这三项技术传递了一个清晰的信号:DeepSeek 不做算力暴发户,他们要从底层架构的骨头缝里,榨出每一滴效率。
更大的故事:完成国产算力闭环,摆脱依赖
在眼花缭乱的跑分之外,V4 发布稿里有一行字引发了产业界的大地震——“下半年支持华为算力”。
这可不是一句空话。据多方信源透露,DeepSeek 过去数月一直在重写底层代码模块,并优先向国内供应链开放,而不是按行业惯例优先讨好美国芯片厂商。
这意味着什么?意味着 V4 已经打通了从 CUDA 到 CANN 框架的迁移。它正在成为首个完全跑在国产算力生态上的世界级旗舰大模型。
从产业逻辑看,这比跑分第一重要一百倍。过去,中国大模型的命脉几乎全部捏在英伟达 GPU 和 CUDA 生态手里。而现在,随着国产算力(如华为加速卡)占据超 40% 的本土市场份额,V4 正在证明:离开英伟达,中国的大模型一样能跑出世界顶级的水平。 ---
15 个月的沉默,与一次关键的转身
到 2026 年 4 月,DeepSeek 已经整整 15 个月没有发过大版本。这 15 个月里,友商们在应用层狂飙,在发布会上画饼,只有 DeepSeek 安静得可怕。
而就在 V4 发布前,市场传出 DeepSeek 正在开启首次外部融资,目标估值超 100 亿美元。外界曾质疑:是不是“十分之一成本”的神话破灭了?是不是也被算力成本逼到了墙角?
梁文锋曾坦承过底层算力与数据的差距带来的成本翻倍。但 V4 的发布,是他们给出的最硬核的回应:不去追赶友商的发布会节奏,而是把命交给基础架构、系统效率和算力生态的底层重构。
写在最后
V4 不是完美的。它在世界知识的广度上依然有追赶的空间,在极硬核的推理上限也尚未彻底盖过 GPT-5.4。
但请把坐标系拉长、拉远:
这是一个中国团队,在算力受限、外部环境充满围堵的情况下,用极限的成本控制,砸出了一个在代码、数学和 Agent 核心能力上与全球最强闭源模型正面对轰的开源怪物。并且,他们正在亲手搭建一条从模型到国产芯片的底层大动脉。
这哪里是“不够惊艳”?这分明是一场震耳欲聋的系统性突围。
不诱于誉,不恐于诽,率道而行,端然正己。
用 15 个月的沉默,换一颗改变行业格局的开源核弹。DeepSeek,干得漂亮。
文章评论