Claude Sonnet 4.5 发布:全球最强编程模型的进化之路

2025年9月30日,国庆节前夕,Anthropic 正式发布了 Claude Sonnet 4.5,这不仅是一次常规的模型迭代,更是 AI 编程能力的一次质的飞跃。作为目前世界上最强大的编程模型,Claude Sonnet 4.5 在代码生成、复杂推理、计算机操作等多个维度都展现出了令人瞩目的提升。

一、核心能力突破

在 SWE-bench Verified 评测中,Claude Sonnet 4.5 取得了业界领先的成绩。这个评测专门用于衡量 AI 在真实世界软件开发场景中的表现。更值得关注的是,该模型能够在超过 30 小时的持续工作中保持专注,处理复杂的多步骤任务,这种长时间、高强度的任务处理能力在实际应用中具有重要价值。
在计算机操作能力方面,Claude Sonnet 4.5 在 OSWorld 基准测试中达到了 61.4% 的成绩,这是一个测试 AI 模型执行真实计算机任务能力的评测。相比四个月前 Claude Sonnet 4 的 42.2%,这是一个显著的提升。这意味着 Claude 现在可以更自然地与浏览器交互,完成网页导航、表格填充等实际任务。
在推理和数学能力方面,Claude Sonnet 4.5 也展现出了全面的进步。来自金融、法律、医学和 STEM 领域的专家评估显示,与之前的 Opus 4.1 相比,新模型在特定领域的知识储备和推理能力上有了显著提升。

二、产品生态的全面升级

伴随 Claude Sonnet 4.5 的发布,Anthropic 同步推出了一系列产品功能升级:

Claude Code 的增强

最受期待的检查点(Checkpoints)功能终于上线,用户现在可以保存工作进度,并随时回滚到之前的状态。这对于需要进行多次尝试和迭代的开发工作来说是一个巨大的便利。同时,终端界面得到了全面刷新,并推出了原生的 VS Code 扩展,让开发者可以在熟悉的环境中无缝使用 Claude 的强大能力。

Claude API 的新特性

新增的上下文编辑功能和记忆工具让 AI 代理能够运行更长时间,处理更复杂的任务。这些能力的提升对于构建企业级应用至关重要。

Claude 应用的创新功能

代码执行和文件创建功能现在直接集成到了对话界面中。用户可以在聊天过程中直接生成电子表格、幻灯片和文档,大大提升了工作效率。

Chrome 扩展的开放

Claude for Chrome 扩展现在对加入了候补名单的 Max 用户开放,让 Claude 的能力可以直接在浏览器中发挥作用。
    

三、Claude Agent SDK:为开发者赋能

Anthropic 这次做出了一个重要决定:将 Claude Code 背后的基础设施开放给所有开发者。这就是 Claude Agent SDK。
经过六个月的打磨,Anthropic 团队解决了构建 AI 代理过程中的诸多难题:如何在长时间运行的任务中管理记忆、如何设计兼顾自主性和用户控制的权限系统、如何协调多个子代理共同完成目标等。现在,这些经验和技术都封装在了 SDK 中。
重要的是,虽然这个 SDK 最初是为编程任务设计的,但它展现出了处理各种任务的广泛适用性。开发者可以用它构建自己的专业领域 AI 助手。

四、安全性和对齐性的重大进步

Claude Sonnet 4.5 不仅是 Anthropic 最强大的模型,也是最对齐的前沿模型。通过大量的安全训练,模型在以下方面都有显著改善:

  • 降低了奉承倾向(sycophancy)
  • 减少了欺骗性行为
  • 抑制了权力寻求倾向
  • 降低了鼓励妄想思维的倾向
在代理和计算机使用能力方面,模型对提示词注入攻击的防御能力也有了长足进步,这是使用这些能力时最严重的风险之一。
模型在 AI Safety Level 3 (ASL-3) 保护措施下发布,包括专门用于检测与化学、生物、放射性和核(CBRN)武器相关的潜在危险输入和输出的分类器。值得一提的是,这些分类器的误报率已经降低到原来的十分之一,比 Claude Opus 4 发布时降低了一半。

五、定价策略:性能翻倍,价格不变

在所有这些能力提升的背景下,Claude Sonnet 4.5 的定价保持不变,仍然是每百万 token 输入 3 美元,输出 15 美元。这意味着用户可以用相同的成本获得显著提升的性能,这在行业中是相当有竞争力的。

六、特别实验:Imagine with Claude

作为一个有趣的附加功能,Anthropic 推出了为期五天的研究预览版"Imagine with Claude"。这是一个展示 Claude Sonnet 4.5 能力的实验:Claude 可以即时生成软件,没有预设功能,没有预写代码,一切都是实时创建和响应。这个功能对 Max 订阅用户开放,让用户可以直观地感受到强大模型与合适基础设施结合时的可能性。

七、实际应用场景

Claude Sonnet 4.5 的这些能力提升在实际应用中意味着什么?
  • 对于软件开发者,模型可以处理更复杂的代码重构、bug 修复和新功能实现,而且能够在更长的时间跨度内保持上下文理解。
  • 对于数据分析师,强化的推理能力和直接生成表格文档的功能让数据处理和报告生成变得更加高效。
  • 对于内容创作者,改进的语言理解和生成能力可以协助创作更高质量的内容。
  • 对于企业用户,Agent SDK 提供了构建定制化 AI 助手的基础,可以针对特定业务需求进行优化。

八、总结与展望

Claude Sonnet 4.5 的发布标志着 AI 编程和代理能力的又一个重要里程碑。从性能提升到产品功能的丰富,从开发者工具的开放到安全性的加强,这次更新展现了 Anthropic 在技术创新和负责任 AI 发展方面的综合实力。
对于已经在使用 Claude 的用户,这是一次值得立即升级的更新。对于还在观望的开发者和企业,Claude Sonnet 4.5 的能力组合和具有竞争力的定价使其成为一个值得认真考虑的选择。
随着 AI 能力的不断提升,我们有理由期待更多创新应用的出现。Claude Sonnet 4.5 不仅是一个更强大的工具,更是一个让我们重新思考 AI 如何辅助人类工作的契机。
常见问题
0

评论0

请先
显示验证码
没有账号?注册  忘记密码?