Claude Opus 4.7 上线：编程能力炸裂式跃升，Anthropic 手握更强模型却故意不发布

2026年4月19日 266点热度 0人点赞 0条评论

大家好，我是蓝戒，本篇我们来聊聊 Claude Opus 4.7 发布背后的能力跃迁与安全博弈。

4月16日深夜，Anthropic 抛出一枚重磅炸弹——Claude Opus 4.7 正式上线。这不是一次普通的迭代升级。SWE-bench Pro 编程测试从 53.4% 飙升至 64.3%，单代提升近 11 个百分点；视觉敏锐度从 54.5% 暴涨到 98.5%；CursorBench 从 58% 跃至 70%……一连串数字背后，AI 模型的竞争逻辑正在发生根本性转变。

但更引人注目的是：Anthropic 同时承认，Opus 4.7 并非其最强模型。一个名叫 Claude Mythos Preview 的存在，能力远在 4.7 之上，却因网络安全攻防能力过强而被刻意按下不表。一家 AI 公司，手握最强武器，选择不发布——这才是这次更新背后最耐人寻味的故事。

不是"更聪明"，而是"更靠谱的工人"

过去两年，AI 模型的竞争叙事经历了三次转移：2023 年比"知识广度"（MMLU 谁分高谁赢），2024 年比"推理能力"（能不能解数学题），2025 年以来，战场转向了一个更实际的维度——Agent 可靠性。

核心问题不再是"这个模型能不能做这件事"，而是"这个模型能不能在没人盯着的情况下，把这件事从头做到尾、不会搞砸"。

Opus 4.7 正是 Anthropic 在这个战场上的最新答卷。官方的原话是："用户反馈称，如今可以放心地将此前需要严密人工把关的最复杂编码工作交给 Opus 4.7 处理。"这句话的分量，做过 AI Agent 开发的人都懂——此前让 AI 跑长任务，你得像监工一样盯着，生怕它中途跑偏、幻觉发作、或者干脆停工。而现在，Opus 4.7 能够严谨、稳定地处理复杂且耗时较长的任务，精准理解指令，并在输出结果前自行设计验证机制。

Vercel 的杰出软件工程师 Joe Haddad 说了一句很耐人寻味的话："它甚至在写系统级代码之前先做数学证明——这是我们从之前的 Claude 模型中从未见过的行为。"

跑分全面领先，但并非全胜

来看最核心的基准测试对比，数据不会说谎：

SWE-bench Pro（编程）：Opus 4.7 得分 64.3%，远超 Opus 4.6 的 53.4%、GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%，单代提升近 11 个百分点，优势显著。

CursorBench（IDE 编程）：Opus 4.7 达到 70%，较 Opus 4.6 的 58% 大幅跃升 12 个百分点。

GDPVal-AA（知识工作）：Opus 4.7 以 1753 Elo 领跑，甩开 GPT-5.4 的 1674 和 Gemini 3.1 Pro 的 1314。

GPQA Diamond（研究生推理）：Opus 4.7 取得 94.2%，与业内最顶尖模型持平。

MCP-Atlas（工具调用）：Opus 4.7 以 77.3% 居首，领先 GPT-5.4 的 68.1% 和 Gemini 3.1 Pro 的 73.9%。

Finance Agent（金融分析）：Opus 4.7 得分 64.4%，超过 Opus 4.6 的 60.1%、GPT-5.4 的 61.5% 和 Gemini 3.1 Pro 的 59.7%。

OSWorld（计算机操作）：Opus 4.7 拿下 78.0%，领先 Opus 4.6 的 72.7% 和 GPT-5.4 的 75.0%。

CharXiv（视觉推理）：Opus 4.7 从 Opus 4.6 的 69.1% 跃升至 82.1%，提升近 13 个百分点。

BrowseComp（智能搜索）：这是 Opus 4.7 唯一明显退步的项目，从 Opus 4.6 的 83.7% 降至 79.3%，被 GPT-5.4 的 89.3% 和 Gemini 3.1 Pro 的 85.9% 反超。Anthropic 的解释令人深思：Opus 4.7 遇到缺失信息会直接报错而非编造答案，在以"是否给出答案"为评判标准的测试中反而处于劣势。这不是退步，而是一种诚实。

Terminal-Bench 2.0（终端操作）：Opus 4.7 得分 69.4%，小幅超越 Opus 4.6 的 65.4% 和 Gemini 3.1 Pro 的 68.5%，但落后于 GPT-5.4 的 75.1%。

Opus 4.7 在编程、知识工作、工具调用、金融分析、视觉推理等核心场景全面领先。但在直接可对比的基准测试中，Opus 4.7 对 GPT-5.4 的领先比分为 7:4——差距在缩小，而非拉大。

特别值得注意的是 BrowseComp 的退步——从 83.7% 降至 79.3%。Anthropic 的解释令人深思：Opus 4.7 遇到缺失信息会直接报错而非编造答案，在以"是否给出答案"为评判标准的测试中反而处于劣势。这不是退步，而是一种诚实。

视觉能力：从"看不清"到"看得比人准"

如果说编程是 Opus 4.7 的招牌菜，那视觉能力就是这次更新最大的惊喜。

Opus 4.7 是首个支持高分辨率图像的 Claude 模型，最大分辨率从 1568px/1.15MP 提升至 2576px/3.75MP——像素量是原来的 3.3 倍。对于截图分析、文档解析、图表阅读和 UI 理解，这是质变级的提升。更关键的是，模型坐标现在与实际像素 1:1 对应，再也不需要做比例换算。

网络安全公司 XBOW 的 CEO Oege de Moor 的话最能说明问题："在我们自主渗透测试的核心工作——视觉敏锐度基准上，Opus 4.7 从 54.5% 跳到 98.5%。我们之前用 Opus 最大的痛点，现在彻底消失了，这解锁了一整类此前完全无法使用它的场景。"

敢反驳你的 AI，才是好 AI

Opus 4.7 最有趣的特质不是跑分，而是它的"性格"。

Replit 总裁 Michele Catasta 说："我个人非常喜欢它在技术讨论中反驳我，帮我做出更好的决定。它真的像一个更好的同事。"

Hex 团队发现，遇到缺失数据时，Opus 4.7 会直接报错，而不是像前代那样自作主张填充错误备选值。Notion 团队的测试则表明，4.7 的工具错误率降至前代的三分之一，且能在工具链崩溃时自主绕过障碍继续完成任务——这种"死磕到底"的韧性，才是 Agent 真正需要的。

Anthropic 自己也提醒：因为 Opus 4.7 对指令的遵循更加严格和字面化，"为早期模型编写的提示词有时会产生意外结果"。简单说——以前模糊的指令它可能"猜"你的意思，现在它严格按照字面执行。提示词工程的习惯可能需要随之调整。

价格不变，但隐形成本上升

Opus 4.7 的 API 定价维持在每百万输入 Token 5 美元、输出 Token 25 美元不变。100 万 Token 的上下文窗口也没有长文本溢价——看起来很良心。

但有两处隐形成本需要留意。第一，Opus 4.7 采用了新版分词器，相同内容拆分出的 Token 数量约为原来的 1.0～1.35 倍。第二，在高算力模式下，Opus 4.7 的"思考"更充分，尤其在 Agent 场景的后续交互中，会产生更多输出 Token。叠加效应下，实际使用成本必然上升。

Anthropic 新增了"xhigh"超高难度级别，Claude Code 已将所有套餐默认 effort level 调至 xhigh。同时推出 Task Budgets 任务预算功能公测版，供开发者规划长任务的 Token 支出——这本身就是一种暗示：用 Opus 4.7 跑 Agent 任务，花钱的速度可能比你想象的快。

Claude Mythos：被锁在笼子里的核武器

Opus 4.7 的所有成绩之上，始终笼罩着一个名字——Claude Mythos Preview。

4月7日，Anthropic 发布了 Mythos Preview，一个各方面能力都碾压 Opus 4.7 的模型。SWE-bench Pro 得分 77.8%（4.7 为 64.3%），OSWorld 79.6%（4.7 为 78.0%），BrowseComp 86.9%（4.7 为 79.3%）。但它不会公开发布，原因只有一个：网络安全攻防能力太强了。

Mythos Preview 已自主发现数千个高严重性零日漏洞，包括一个在 OpenBSD 中潜伏 27 年的远程瘫痪漏洞，和一个在 FFmpeg 中存在 16 年、经过 500 万次自动化测试都没能捕获的漏洞。更令人不安的是，非安全专家的普通工程师也能用它隔夜找到远程代码执行漏洞——醒来就得到一个完整可用的漏洞利用程序。

Anthropic 的内部评估显示，Opus 4.6 在自主开发漏洞利用程序上成功率接近 0%，而 Mythos Preview 在针对 Firefox 147 漏洞的测试中，成功开发出 181 次可用攻击程序。这不是量变，这是质变。

为此，Anthropic 启动了 Project Glasswing 计划，集结 AWS、苹果、Google、微软、Nvidia、Cisco、CrowdStrike、JPMorgan Chase 等巨头，并纳入 40 多个关键基础设施组织，让它们优先使用 Mythos 进行漏洞扫描和修补。Anthropic 甚至提供了最高 1 亿美元的 Mythos Preview 使用额度，并额外捐赠 400 万美元给开源安全组织。

而 Opus 4.7 在训练阶段就主动压低了网络攻防能力，并内置了安全拦截机制——成为首个嵌入安全防护过滤层的量产模型。Anthropic 明确表示："我们从 Opus 4.7 安全防护的现实部署中学到的经验，将帮助我们最终实现 Mythos 级别模型的广泛发布。"

两个月一更：Anthropic 的节奏战

Opus 4.7 距 Opus 4.6 发布仅间隔两个月，而 Opus 4.6 距 Opus 4.5 同样间隔两个月。Anthropic 已经为 Claude Opus 建立了稳定的双月升级节奏。今年 2 月 1 日至 3 月 24 日的 52 天内，Anthropic 共更新了 74 款产品，平均不到两天一个。

同时，Claude Code 也迎来多项更新：新增 /ultrareview 深度代码审查指令，Auto Mode 自动模式扩展至 Max 订阅用户。Opus 4.7 已在所有 Claude 产品、API、Amazon Bedrock、Google Cloud Vertex AI 及 Microsoft Foundry 平台同步上线。

写在最后

Claude Opus 4.7 的发布，表面上是一次常规的模型升级，实际上折射出 AI 行业正在发生的深层变化。

竞争的焦点正在从"谁的模型跑分最高"转向"谁的模型最值得信任"。 Opus 4.7 的核心叙事不是"我比 GPT-5.4 多几分"，而是"你可以把最难的工作交给我，然后去喝杯咖啡"。当 Vercel 的工程师发现 AI 开始在写代码前先做数学数学证明，当 Replit 的总裁说 AI 会在讨论中反驳你——我们正在见证一种新的 AI 人机协作关系的诞生。

而 Mythos 的存在则提出了一个更深层的问题：当 AI 的能力已经强到必须被限制发布时，我们该如何定义"进步"？Anthropic 的答案是：先把安全做到位，再慢慢释放能力。这个策略是否明智，时间会给出答案。但至少在当下，Opus 4.7 无疑是目前最值得认真对待的 AI 模型之一——而它头顶那个"之一"，恰恰是整个行业最让人又期待又紧张的悬念。