Anthropic Claude Opus 4.1 编程能力飞跃,剑指 GPT-5
Anthropic 已发布 Claude Opus 4.1,这是其旗舰混合语言模型的增强版本,表明该公司有意在 OpenAI 准备推出 GPT-5 之际保持竞争力。此次更新于 2025 年 8 月 5 日发布,旨在关键性能领域引入有针对性的改进。
新模型在编程方面取得了显著进展,在代码重构、数据密集型分析和智能体功能(即独立管理复杂、多步骤任务的能力)方面展示出卓越的能力。Claude Opus 4.1 现已通过 Claude 平台、Claude Code 及其 API,以及在 Amazon Bedrock 和 Google Cloud Vertex AI 上向付费用户开放。新模型的定价与之前的 Opus 4 版本保持一致,开发者可以使用 claude-opus-4-1-20250805
API 标签访问它。
Claude Opus 4.1 在 SWE-bench Verified 测试中设立了新基准,取得了 74.5% 的分数。这比其前身 Opus 4 提高了约两个百分点,比 OpenAI 的 o-series 模型领先约五个百分点。SWE-bench Verified 基准评估 AI 模型识别和解决开源代码库中真实世界错误的能力。除了编程,该模型还在分析和研究任务中显示出进步,Anthropic 指出其增强了细节跟踪和智能体风格的搜索能力。该公司强调,Claude Opus 4.1 在智能体编码、视觉推理和数学竞赛等领域优于其他领先的 AI 模型。此外,现已解散的编码初创公司 Windsurf 报告称,Claude Opus 4.1 在其针对初级开发者的内部基准测试中实现了标准差为一的改进,这一飞跃可与 Sonnet 3.7 到 Sonnet 4 的过渡相媲美。
Claude Opus 4.1 的发布时机尤其具有战略意义,恰逢对 OpenAI GPT-5 的广泛期待。报告表明,GPT-5 有望提升编程、数学和基于智能体的任务的性能标准,尽管预计不会像 GPT-3 到 GPT-4 之间那样实现里程碑式的飞跃。
鉴于 GPT-5 预计将带来渐进式提升,Anthropic 的最新更新使公司能够保持其竞争地位。Anthropic 建议所有用户从 Opus 4 迁移到 Opus 4.1,同时承诺在未来几周内带来“大幅度更大”的改进,这凸显了其在快速发展的 AI 领域持续创新的决心。