蓝戒博客

  • 首页
  • 研发说
  • 架构论
  • 效能录
  • AI谈
  • 随笔集
智构苍穹
融合 AI、架构与工程实践,沉淀方法论,构建可持续的技术价值。
  1. 首页
  2. AI谈
  3. 正文

Claude Opus 4.7 上线:编程能力炸裂式跃升,Anthropic 手握更强模型却故意不发布

2026年4月19日 12点热度 0人点赞 0条评论

大家好,我是蓝戒,本篇我们来聊聊 Claude Opus 4.7 发布背后的能力跃迁与安全博弈。

4月16日深夜,Anthropic 抛出一枚重磅炸弹——Claude Opus 4.7 正式上线。这不是一次普通的迭代升级。SWE-bench Pro 编程测试从 53.4% 飙升至 64.3%,单代提升近 11 个百分点;视觉敏锐度从 54.5% 暴涨到 98.5%;CursorBench 从 58% 跃至 70%……一连串数字背后,AI 模型的竞争逻辑正在发生根本性转变。

但更引人注目的是:Anthropic 同时承认,Opus 4.7 并非其最强模型。一个名叫 Claude Mythos Preview 的存在,能力远在 4.7 之上,却因网络安全攻防能力过强而被刻意按下不表。一家 AI 公司,手握最强武器,选择不发布——这才是这次更新背后最耐人寻味的故事。


不是"更聪明",而是"更靠谱的工人"

过去两年,AI 模型的竞争叙事经历了三次转移:2023 年比"知识广度"(MMLU 谁分高谁赢),2024 年比"推理能力"(能不能解数学题),2025 年以来,战场转向了一个更实际的维度——Agent 可靠性。

核心问题不再是"这个模型能不能做这件事",而是"这个模型能不能在没人盯着的情况下,把这件事从头做到尾、不会搞砸"。

Opus 4.7 正是 Anthropic 在这个战场上的最新答卷。官方的原话是:"用户反馈称,如今可以放心地将此前需要严密人工把关的最复杂编码工作交给 Opus 4.7 处理。"这句话的分量,做过 AI Agent 开发的人都懂——此前让 AI 跑长任务,你得像监工一样盯着,生怕它中途跑偏、幻觉发作、或者干脆停工。而现在,Opus 4.7 能够严谨、稳定地处理复杂且耗时较长的任务,精准理解指令,并在输出结果前自行设计验证机制。

Vercel 的杰出软件工程师 Joe Haddad 说了一句很耐人寻味的话:"它甚至在写系统级代码之前先做数学证明——这是我们从之前的 Claude 模型中从未见过的行为。"


跑分全面领先,但并非全胜

来看最核心的基准测试对比,数据不会说谎:

SWE-bench Pro(编程)​:Opus 4.7 得分 64.3%,远超 Opus 4.6 的 53.4%、GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%,单代提升近 11 个百分点,优势显著。

CursorBench(IDE 编程)​:Opus 4.7 达到 70%,较 Opus 4.6 的 58% 大幅跃升 12 个百分点。

GDPVal-AA(知识工作)​:Opus 4.7 以 1753 Elo 领跑,甩开 GPT-5.4 的 1674 和 Gemini 3.1 Pro 的 1314。

GPQA Diamond(研究生推理)​:Opus 4.7 取得 94.2%,与业内最顶尖模型持平。

MCP-Atlas(工具调用)​:Opus 4.7 以 77.3% 居首,领先 GPT-5.4 的 68.1% 和 Gemini 3.1 Pro 的 73.9%。

Finance Agent(金融分析)​:Opus 4.7 得分 64.4%,超过 Opus 4.6 的 60.1%、GPT-5.4 的 61.5% 和 Gemini 3.1 Pro 的 59.7%。

OSWorld(计算机操作)​:Opus 4.7 拿下 78.0%,领先 Opus 4.6 的 72.7% 和 GPT-5.4 的 75.0%。

CharXiv(视觉推理)​:Opus 4.7 从 Opus 4.6 的 69.1% 跃升至 82.1%,提升近 13 个百分点。

BrowseComp(智能搜索)​:这是 Opus 4.7 唯一明显退步的项目,从 Opus 4.6 的 83.7% 降至 79.3%,被 GPT-5.4 的 89.3% 和 Gemini 3.1 Pro 的 85.9% 反超。Anthropic 的解释令人深思:Opus 4.7 遇到缺失信息会直接报错而非编造答案,在以"是否给出答案"为评判标准的测试中反而处于劣势。这不是退步,而是一种诚实。

Terminal-Bench 2.0(终端操作)​:Opus 4.7 得分 69.4%,小幅超越 Opus 4.6 的 65.4% 和 Gemini 3.1 Pro 的 68.5%,但落后于 GPT-5.4 的 75.1%。

Opus 4.7 在编程、知识工作、工具调用、金融分析、视觉推理等核心场景全面领先。但在直接可对比的基准测试中,Opus 4.7 对 GPT-5.4 的领先比分为 7:4——差距在缩小,而非拉大。

特别值得注意的是 BrowseComp 的退步——从 83.7% 降至 79.3%。Anthropic 的解释令人深思:Opus 4.7 遇到缺失信息会直接报错而非编造答案,在以"是否给出答案"为评判标准的测试中反而处于劣势。这不是退步,而是一种诚实。


视觉能力:从"看不清"到"看得比人准"

如果说编程是 Opus 4.7 的招牌菜,那视觉能力就是这次更新最大的惊喜。

Opus 4.7 是首个支持高分辨率图像的 Claude 模型,最大分辨率从 1568px/1.15MP 提升至 2576px/3.75MP——像素量是原来的 3.3 倍。对于截图分析、文档解析、图表阅读和 UI 理解,这是质变级的提升。更关键的是,模型坐标现在与实际像素 1:1 对应,再也不需要做比例换算。

网络安全公司 XBOW 的 CEO Oege de Moor 的话最能说明问题:"在我们自主渗透测试的核心工作——视觉敏锐度基准上,Opus 4.7 从 54.5% 跳到 98.5%。我们之前用 Opus 最大的痛点,现在彻底消失了,这解锁了一整类此前完全无法使用它的场景。"


敢反驳你的 AI,才是好 AI

Opus 4.7 最有趣的特质不是跑分,而是它的"性格"。

Replit 总裁 Michele Catasta 说:"我个人非常喜欢它在技术讨论中反驳我,帮我做出更好的决定。它真的像一个更好的同事。"

Hex 团队发现,遇到缺失数据时,Opus 4.7 会直接报错,而不是像前代那样自作主张填充错误备选值。Notion 团队的测试则表明,4.7 的工具错误率降至前代的三分之一,且能在工具链崩溃时自主绕过障碍继续完成任务——这种"死磕到底"的韧性,才是 Agent 真正需要的。

Anthropic 自己也提醒:因为 Opus 4.7 对指令的遵循更加严格和字面化,"为早期模型编写的提示词有时会产生意外结果"。简单说——以前模糊的指令它可能"猜"你的意思,现在它严格按照字面执行。提示词工程的习惯可能需要随之调整。


价格不变,但隐形成本上升

Opus 4.7 的 API 定价维持在每百万输入 Token 5 美元、输出 Token 25 美元不变。100 万 Token 的上下文窗口也没有长文本溢价——看起来很良心。

但有两处隐形成本需要留意。第一,Opus 4.7 采用了新版分词器,相同内容拆分出的 Token 数量约为原来的 1.0~1.35 倍。第二,在高算力模式下,Opus 4.7 的"思考"更充分,尤其在 Agent 场景的后续交互中,会产生更多输出 Token。叠加效应下,实际使用成本必然上升。

Anthropic 新增了"xhigh"超高难度级别,Claude Code 已将所有套餐默认 effort level 调至 xhigh。同时推出 Task Budgets 任务预算功能公测版,供开发者规划长任务的 Token 支出——这本身就是一种暗示:用 Opus 4.7 跑 Agent 任务,花钱的速度可能比你想象的快。


Claude Mythos:被锁在笼子里的核武器

Opus 4.7 的所有成绩之上,始终笼罩着一个名字——Claude Mythos Preview。

4月7日,Anthropic 发布了 Mythos Preview,一个各方面能力都碾压 Opus 4.7 的模型。SWE-bench Pro 得分 77.8%(4.7 为 64.3%),OSWorld 79.6%(4.7 为 78.0%),BrowseComp 86.9%(4.7 为 79.3%)。但它不会公开发布,原因只有一个:网络安全攻防能力太强了。

Mythos Preview 已自主发现数千个高严重性零日漏洞,包括一个在 OpenBSD 中潜伏 27 年的远程瘫痪漏洞,和一个在 FFmpeg 中存在 16 年、经过 500 万次自动化测试都没能捕获的漏洞。更令人不安的是,非安全专家的普通工程师也能用它隔夜找到远程代码执行漏洞——醒来就得到一个完整可用的漏洞利用程序。

Anthropic 的内部评估显示,Opus 4.6 在自主开发漏洞利用程序上成功率接近 0%,而 Mythos Preview 在针对 Firefox 147 漏洞的测试中,成功开发出 181 次可用攻击程序。这不是量变,这是质变。

为此,Anthropic 启动了 Project Glasswing 计划,集结 AWS、苹果、Google、微软、Nvidia、Cisco、CrowdStrike、JPMorgan Chase 等巨头,并纳入 40 多个关键基础设施组织,让它们优先使用 Mythos 进行漏洞扫描和修补。Anthropic 甚至提供了最高 1 亿美元的 Mythos Preview 使用额度,并额外捐赠 400 万美元给开源安全组织。

而 Opus 4.7 在训练阶段就主动压低了网络攻防能力,并内置了安全拦截机制——成为首个嵌入安全防护过滤层的量产模型。Anthropic 明确表示:"我们从 Opus 4.7 安全防护的现实部署中学到的经验,将帮助我们最终实现 Mythos 级别模型的广泛发布。"


两个月一更:Anthropic 的节奏战

Opus 4.7 距 Opus 4.6 发布仅间隔两个月,而 Opus 4.6 距 Opus 4.5 同样间隔两个月。Anthropic 已经为 Claude Opus 建立了稳定的双月升级节奏。今年 2 月 1 日至 3 月 24 日的 52 天内,Anthropic 共更新了 74 款产品,平均不到两天一个。

同时,Claude Code 也迎来多项更新:新增 /ultrareview 深度代码审查指令,Auto Mode 自动模式扩展至 Max 订阅用户。Opus 4.7 已在所有 Claude 产品、API、Amazon Bedrock、Google Cloud Vertex AI 及 Microsoft Foundry 平台同步上线。


写在最后

Claude Opus 4.7 的发布,表面上是一次常规的模型升级,实际上折射出 AI 行业正在发生的深层变化。

竞争的焦点正在从"谁的模型跑分最高"转向"谁的模型最值得信任"。 Opus 4.7 的核心叙事不是"我比 GPT-5.4 多几分",而是"你可以把最难的工作交给我,然后去喝杯咖啡"。当 Vercel 的工程师发现 AI 开始在写代码前先做数学数学证明,当 Replit 的总裁说 AI 会在讨论中反驳你——我们正在见证一种新的 AI 人机协作关系的诞生。

而 Mythos 的存在则提出了一个更深层的问题:当 AI 的能力已经强到必须被限制发布时,我们该如何定义"进步"?Anthropic 的答案是:先把安全做到位,再慢慢释放能力。这个策略是否明智,时间会给出答案。但至少在当下,Opus 4.7 无疑是目前最值得认真对待的 AI 模型之一——而它头顶那个"之一",恰恰是整个行业最让人又期待又紧张的悬念。

标签: Anthropic Claude Mythos Preview Claude Opus 4.7
最后更新:2026年4月17日

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

打赏 点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

cywcd

我始终相信,技术不仅是解决问题的工具,更是推动思维进化和创造价值的方式。从研发到架构,追求极致效能;在随笔中沉淀思考,于 AI 中对话未来。

最新 热点 随机
最新 热点 随机
Claude Opus 4.7 上线:编程能力炸裂式跃升,Anthropic 手握更强模型却故意不发布 Gemma 4发布4天即遭"完全越狱",开源AI的安全与自由之争 一个文件让AI写代码不再"翻车":45K星的Karpathy指南火了 3秒克隆你的声音,30国语言自由切换!这款2B开源语音模型,正在重新定义AI配音 claude-mem:给 Claude Code 补上一块最关键的“长期记忆” 🔥 狂揽 51.5k Star!这款名为 GSD 的神器,专治 AI 写代码"越写幻觉越严重"
Dan Koe:不想打工?用这套方法把兴趣变成收入停止无效努力:Dan Koe 深度长文,极致专注力,一套让你进入心流的终极方法论2026 AI 智能体革命:LangGraph 如何让你一个人活成一支队伍?AI 智能体爆发:从会生成到会行动,2026 年普通人如何抓住 AaaS 变现红利AI专用浏览器来了:比Chrome快10倍,Agent时代的基础设施正在重构OpenAI 收购 Astral:AI 不想只帮你写代码,它正深入开发者的整条工作流
向左走,向右走,终祈相见 JS获取浏览器窗口大小、获取屏幕、浏览器、网页高度宽度方法 GitHub 爆火 4 万星项目:MiroFish,到底是 AI 新神话,还是下一代预测引擎 Docker学习(一):入门教程从基础到实战篇 CLI-Anything:让任意软件变成 AI Agent 可操控的工具 IE下hasLayout知多少?
最近评论
渔夫 发布于 6 个月前(11月05日) 学到了,感谢博主分享
沙拉小王子 发布于 9 年前(11月30日) 适合vue入门者学习,赞一个
沙拉小王子 发布于 9 年前(11月30日) 适合vue入门者学习,赞一个
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8
cywcd 发布于 9 年前(04月27日) 请参考一下这篇文章http://www.jianshu.com/p/fa4460e75cd8

COPYRIGHT © 2025 蓝戒博客_智构苍穹-专注于大前端领域技术生态. ALL RIGHTS RESERVED.

京ICP备12026697号-2