Claude Sonnet4.5来了,Anthropic说自己工程师已不写代码了,这次我信了
创始人
2025-09-30 11:04:05
0

本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:硅基版,原文标题:《Claude Sonnet 4.5 来了!Anthropic说自己工程师已不写代码了,这次我信了》


就在刚刚,Anthropic宣布推出Claude Sonnet 4.5。官方将其定位为“全球最强的代码模型”“构建复杂智能体的最强模型”以及“最会用电脑的模型”,并称其在推理与数学上也有显著提升。新模型同步带来一组面向开发者与企业使用的能力升级:包括Claude Code的VS Code原生扩展、终端2.0与一键回滚的Checkpoints,面向API的上下文编辑(Context Editing)与记忆工具(Memory Tool),以及用于自建智能体的Claude Agent SDK。


1、从7小时到30小时:Claude的长跑能力


最受瞩目的变化是持久执行能力。Anthropic在客户测试中观察到,Sonnet 4.5在复杂多步骤任务中可以连续专注运行超过30小时,远超前代约7小时的表现。这并不意味着所有任务都能达到相同时长,但足以说明模型在“耐力”上的跨越。


在权威基准测试中:


SWE-bench Verified:在“标准算力”下准确率为77.2%,更高测试条件下最高可达82.0%。


OSWorld(电脑使用能力):取得61.4%的成绩,领先所有已知模型;而四个月前Sonnet 4的分数为42.2%。


数学与推理:在AIME、MMMLU等多类评测上均有明显提升,系统卡披露了具体运行设置与多语言评测细节。


这些数据共同指向一个结论:Sonnet 4.5在解决现实任务、操作复杂系统方面比以往更稳健。


1、不止能写代码,Claude正在学会托管整个工程


这次更新不仅是模型能力的提升,更是开发工具链的一次升级。


Claude Code:新增VS Code扩展(Beta),提供可视化改动与内联diff;终端2.0支持历史检索,新增Checkpoints功能,允许在大改动前保存进度、随时回滚。Sonnet 4.5也成为Claude Code的默认模型。


Claude Agent SDK:开放内部的“智能体底座”,包括上下文管理、权限/交互设计、子智能体协作等机制,方便企业定制自己的专用智能体。


上下文管理与记忆:


1.Context Editing能在接近token上限时自动清理陈旧信息,保留关键上下文。


2.Memory Tool允许在对话外存储和复用知识。官方数据显示,两者结合可让复杂检索任务成功率提升最高39%,并在长时Web搜索中将token消耗减少84%。


应用层体验:Claude网页和桌面端新增代码执行与文件生成功能,Chrome扩展也面向Max用户开放。


换句话说,Claude 4.5不只是“更聪明的助手”,更像一个能全天候值守的开发伙伴。


1、安全边界更严,价格却没涨


Sonnet 4.5以ASL-3安全级别发布。Anthropic强调,它在防止逢迎、欺骗、提示注入等方面表现更稳健,并配有针对CBRN(化生放核)风险的内容分类器,以降低滥用可能。


定价维持不变:


API:输入$3/百万token,输出$15/百万token。


模型名:claude-sonnet-4-5-20250929(别名claude-sonnet-4-5)。


渠道:已上线AWS Bedrock与Google Cloud Vertex AI。


此外,Anthropic还推出了为期五天的实验项目“Imagine with Claude”,面向Max用户展示Sonnet 4.5如何从零生成应用。


1、夜班战士与干将智囊:开发者怎么用Claude4.5


在早期客户的实验中,Sonnet 4.5被用于从零构建一个聊天应用:模型不仅能拉起前端与后端,还能自行调试数据库接口,连续工作超过一天一夜。这种“长跑式执行”让开发者直呼“就像有了一个夜班战士”。


在实际使用中,开发者们发现Sonnet 4.5与更强大的Opus形成了互补:前者更适合日常落地和持续推进,后者则用于解决最复杂的问题。有人戏称,“Claude已经变成双保险:Opus担当‘智囊’,Sonnet则是‘干将’。”


当然,现实也提醒我们保持冷静。一些研究指出,即便是最强的生成模型,自动生成的代码仍可能隐藏缺陷或带来安全隐患。因此,Claude再强,也依然需要人类开发者的监督和测试。


1、从助手到工友:耐久执行的Claude时代


Claude Sonnet 4.5的关键词是“耐久执行”。它不仅能做事,还能把事坚持做下去,并配套一整套工具链,把开发流程托管得更稳。这意味着AI正在从“对话助手”逐渐走向“可靠工友”,从短平快的输出迈向长期、系统化的执行。


而这一切,也让人联想到不久前Anthropic联合创始人曾透露的那句话:“在公司内部,工程师们已经不再写代码了。”当时不少人半信半疑,觉得这更像是一种宣传话术。可如今,当我们看到一个能连续工作30小时、能自己拉起网站、写前后端、调试接口的Claude 4.5真正发布出来时,那句“工程师已不写代码”的未来图景,似乎真的有了几分可信。


信息来源:


Anthropic官方新闻稿:Introducing Claude Sonnet 4.5


Reuters(路透社):https://www.reuters.com/business/retail-consumer/anthropic-launches-claude-45-touts-better-abilities-targets-business-customers-2025-09-29/


点个“爱心”,再走吧

相关内容

热门资讯

【享“瘦”之旅】(57)通过运... 误区一:健康体重管理就是单纯减重 大家都很在意体重秤上的数字。如果坚持运动一段时间后,体重秤上的数字...
草药的力量:如何通过传统植物提... 在忙碌的现代生活中,压力似乎成了每个人的常态。你是否也曾因为工作或生活的琐事而感到焦虑不安?想过用一...
秋分后,少吃鸭肉和鸡肉!多给家... 嘿,家人们!入秋之后这天气啊,真是越来越让人摸不着头脑啦!白天出去溜达一圈,那太阳晒得身上还带着点夏...
静脉曲张遇上糖尿病:双重风险下... 当静脉曲张与糖尿病“相遇”,两者并非简单的“1+1”叠加,而是会相互影响、加重风险:糖尿病会让下肢血...
发展性协调障碍:被忽视的神经多... 当我们谈到神经多样性时,脑海中最先浮现的可能是自闭症或注意力缺陷多动障碍(简称多动症)。然而,在这些...
73岁“无痛取卵”?国家医保局... 中新网9月29日电 据国家医保局网站消息,大数据时代,任何违法违规行为都难逃“数据慧眼”。依托全国统...
原创 这... 在情感的漫漫征途中,男人和女人携手探寻着爱的真谛。 爱,有时候藏在温柔的话语里,有时候躲在深情的凝望...
双节期间宁夏出行服务创新点亮农... 双节期间,宁夏出行服务以精准创新与全龄友好为核心,通过细节升级激活农文旅消费新动能。 记者了解到,宁...
还在纠结预制菜?食在广东早已N... 深圳商报· 读创客户端驻穗记者 张莹 国庆假期前夕,由广东省商务厅、佛山市人民政府联合主办的2025...
眉山:税惠添翼,“低空+文旅”... 今年以来,四川“低空+文旅”热潮持续升温,从“乐山大佛-峨眉山”空中走廊到成都“熊猫飞的”航线,低空...