Claude Opus 4.7来了，公开模型里的SOTA！不过用起来GPT味好浓

张

张建站

2026/6/22 10:02:21

10分钟阅读

Claude Opus 4.7来了，公开模型里的SOTA！不过用起来GPT味好浓

衡宇发自凹非寺量子位 | 公众号 QbitAI用Mythos向外界虚晃一枪后Anthropic猝不及防把Claude Opus 4.7抬了上来。不少小伙伴都熬夜玩儿疯了一骨碌从床上坐起来边冲浪边上手体验我从Opus 4.7身上总结了一个坏消息和一些好消息。先说坏消息吧——Opus 4.7身上怎么看怎么有点故人之姿。动不动就要“稳稳接住”我。不少网友也反馈怎么说是升级但Opus 4.7越用越像GPT如果是真的这可不是什么好事情无奈闭眼.jpg。相比坏消息只有一个好消息那是有一箩筐。在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面都比前作更好。但Agentic search等几个单项能力上有所下降。Anthropic还很臭屁地表示Opus 4.7是我们家目前最强大的公开可用模型。不过这不是我们最强大的模型哟看来最强大的还是密而不发的Mythos。看看上面的表格Mythos在那些测试上的整体表现均优越约10%至15%。毫无疑问Mythos Preview是目前Anthropic手里最夯的一张牌能力拉满但价格也是Opus 4.7的5倍。相比之下Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。但……所谓智者千虑必有一失。强大的Opus 4.7还是在昨日的阴沟里面翻了船Claude Opus 4.7突袭核心升级四大方向通览下来这个公开最强的Opus 4.7在四个方向上都有突出表现。高级软件工程领域值得托付Opus 4.7最显著的进步在高级软件工程领域。来看这组数据SWE-bench Verified测试达到78.2%SWE-bench Multimodal达到72.7%Terminal-Bench 2.0拿下68.8%Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍GitHub 93项任务编码基准也提升了13%。Cursor的CEO Michael Truell给出了一个关键评价在CursorBench上Opus 4.7从58%跃升到70%这个跃升意义重大。这种提升体现在三个关键特性上。第一严格遵循指令。Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述而是字面执行。这意味着以前你写“如果可能的话尝试优化这段代码”这种提示词模型可能会选择性忽略。现在你说“优化这段代码”它就一定会执行。这种变化要求用户重新调整提示词策略软修饰符如“if possible/ideally/try to”的权重变得更高硬限制需要更明确。第二输出前自我验证。Opus 4.7会在报告结果前devise ways to verify its own outputs就像一个资深工程师在提交代码前会自己跑一遍测试。第三擅长复杂多文件变更、模糊调试、跨服务代码审查。Notion的AI Lead Sarah Sachs分享了一个数据面对复杂多步骤工作流Opus 4.7比Opus 4.6提升14%而且token消耗更少工具错误只有三分之一。它是第一个通过我们隐性需求测试的模型。视觉能力分辨率×3看见更多细节在视觉能力方面Opus 4.7也有很不错的进步。官方数据显示长边最大支持2576像素≈3.75百万像素是Opus 4.6的3倍以上XBOW视觉敏锐度达到 98.5%Opus 4.6仅54.5%。实际落地场景几乎全覆盖能直接识别完整Figma设计稿、1080p终端截图含灰色小字精准解析复杂技术架构图、财报图表在计算机使用Computer Use场景中可清晰读取高密度UI元素视觉处理能力近乎满分。换句话说化学结构解析、复杂技术图表识别、像素级精确的UI元素定位这些过去需要专门模型的任务现在可以直接用Opus 4.7一个模搞定。Figma听了立刻股价大跌怎一个惨字了得。指令遵循与推理更可控更可靠Opus 4.7在指令遵循上也有长足进步。它不再试图猜测用户的真实意图而是严格按照字面执行。这次升级的核心优势在于严苛的字面执行如果用户要求 “不要用 TypeScript” 模型就坚决不用用户要求 “输出 JSON” 得到的输出就一定没有任何额外前缀。这种变化对老用户来说可能需要适应同时旧提示词易出现意外结果需重新校准但对需要精确控制的场景来说是福音。在推理方面100万token长上下文场景表现亮眼BFS任务得分58.6%*Opus 4.6成绩为41.2%复杂推理中逻辑连贯性显著提升。Agent能力增强为Agent而生的版本如果说之前的Claude是为对话而生Opus 4.7则是为Agent而生。这体现在几个方面。首先总体来说Opus 4.7的核心Agent能力有了全方位提升。多家AI知名企业拿出了实际使用效果相关数据——Notion多步骤工作流成功率提升14%工具调用错误率降至1/3Vending-Bench 2长期经营模拟中最终余额达10937美元Opus 4.6剩了8018美元长周期决策更稳健Genspark场景下抗死循环、一致性、错误恢复三大生产级特性拉满。同时具备文件系统记忆跨多会话可靠记住关键信息新任务可减少40%重复上下文输入。Cognition的CEO Scott Wu的描述更形象Opus 4.7在Devin中将长周期自主性提升到新水平。它能连贯工作数小时突破难题而不是放弃解锁了我们以前无法可靠运行的一类深度调查工作。与此同时Opus 4.7还为开发者提供了许多令人狂喜的Agent相关四件套。第一新增xhigh推理等级作为默认等级介于high与max之间。这给了开发者更精细的控制权可以在推理深度和延迟之间找到平衡点平衡智能与token成本适配多数编码/Agent任务。第二新增自适应思考模式替代固定预算长思考模型自主决定思考深度简单查询快速响应复杂步骤重点投入。第三任务预算公开beta开发者可引导token消耗优化长任务资源分配。第四Claude Code新增/ultrareview命令可创建专属审查会话标记细微错误与设计问题。想做一个靠谱的模型首发防护记忆增强Anthropic官方表示Opus 4.7的网络安全能力不如Mythos Preview。不过这是他们刻意为之。这种“自我设限”背后是Anthropic对AI安全的一贯坚持。自2021年成立以来这家公司花了四年时间精心打造自己的声誉试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的声誉。在Mythos Preview引发业界对强大AI模型安全风险的热议之后Opus 4.7被设计成一道缓冲带。具体来说Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力让模型在面对网络安全相关任务时表现出更谨慎的行为模式。与此同时官方发布了自动检测和阻止高风险网络安全请求的防护措施这些safeguards能够自动识别并拦截表明prohibited或high-risk网络安全用途的请求。而对于确实有合法网络安全需求的专业人士Anthropic推出了Cyber Verification Program。安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的可以通过正式渠道申请。官网还在上线播客的最后写到如果开发者们想从Opus 4.6迁移到4.7版本有一些事项需要格外注意。首先是tokenizer的更新。Opus 4.7使用了新的分词器虽然改善了文本处理效率但相同输入可能映射到更多tokens大约是1.0到1.35倍之间。这意味着同样的提示词可能会消耗更多token需要在成本预算中留出余量。其次是在更高努力级别下会产生更多输出tokens。Opus 4.7在high和xhigh级别下的思考深度明显增加特别是在Agent场景的多轮对话后期。这种“多思考、更可靠”的行为模式提升了输出质量但也意味着token消耗会随会话长度增长。与Opus 4.6同价有这些注意事项你需要知道目前Opus 4.7已实现全平台开放。除Claude官方途径外新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方API还同步上线微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台。其定价与Opus 4.6保持一致输入5美元每百万tokens输出25美元每百万tokens。虽然如前所述Opus 4.7涉及提示词的重构需求和token使用策略的调整但Anthropic在自己的内部测试中给出了积极信号。在一个内部Agent编码评估中所有effort level下的token使用效率相比Opus 4.6都有改善。换句话说虽然单次调用的token数可能增加但完成任务所需的总token往往更少因为模型犯错的次数减少了。大概就像你雇了个时薪更高的资深工程师但他完成任务的速度更快、返工更少最终总成本可能更低。另外Opus 4.7在后续轮次中会更加谨慎特别是在Agent场景中。这意味着更可靠的输出但也意味着更多的token消耗。开发者可以通过调整effort参数、设置任务预算或优化提示词来平衡性能与成本。Anthropic建议在测试Opus 4.7的编码和Agent用例时从high或xhigh努力级别开始根据实际需求逐步调整。Anyway总的来说实际使用成本会因使用方式的不同而变化但大多数情况下能力提升带来的效率增益会抵消token消耗的增加。对于依赖Claude进行复杂开发工作的团队来说这很可能是一笔划算的交易。参考链接[1]https://www.anthropic.com/news/claude-opus-4-7[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html[3]https://x.com/i/trending/2044560325509316766

ImageNet作者苏昊回国任教复旦！李飞飞高徒，具身第一高引，出任通用物理AI院长

克雷西发自凹非寺量子位 | 公众号 QbitAI具身智能领域论文被引次数最高的华人学者，带着十七年海外积淀，回来了。刚刚，在第五届中国三维视觉大会（China3DV 2026）上，李飞飞弟子、ImageNet作者苏昊正式被复旦…...

2026/6/12 22:24:20 阅读更多 →

从‘阴谋论’到代码：用Python和PyTorch亲手实现Dropout，搞懂训练测试为啥要‘精分’

从神经元"社交恐惧症"到代码实战：用Python拆解Dropout的双面人生想象一下你正在组织一场大型团队建设活动——如果每次分组时都强制打乱成员组合，禁止小团体固化，会发生什么？那些总依赖特定搭档的"社交恐惧型&quo…...

2026/5/12 22:07:45 阅读更多 →

基于逆运动学的四自由度机械臂运动控制设计（QArm分拣系统）

基于逆运动学的四自由度机械臂运动控制设计（QArm分拣系统） 1. 系统概述与任务分解在智能分拣系统中，机械臂需要从传送带或料盘中抓取随机摆放的水果（草莓、香蕉、番茄），并将其放入对应颜色的篮子中。整个系统分为视觉识别与运动控制两大模块。本文聚焦于运动控制部分，…...

2026/5/10 18:04:25 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/21 0:06:51 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/22 3:00:39 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/22 5:43:39 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/21 0:09:56 阅读更多 →