新版GPT-5刚刚发布,最卷AI 连肝代码7小时,编程工具大洗牌开始了
创始人
2025-09-16 10:04:09
0

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了》


就在Anthropic Claude陷入降智风波时,OpenAI刚刚推出了GPT-5-Codex——这是基于GPT-5优化后的Codex专用版本,专门针对「自主编程」进行了训练。


这次升级确实有些分量。


聚焦于真实的软件工程场景的GPT-5-Codex,不仅能处理日常的编程交互,还能独立完成复杂耗时的工程项目。


它能像真正的程序员一样,连续工作超过7个小时,在复杂项目上不断迭代、修bug、跑测试,最后交付一个完整可用的解决方案。


从四月份推出CLI版本,到五月份上线网页版,再到现在的全面升级,Codex就是要把编程这件事彻底「自动化」。


现在无论你在终端、IDE、网页还是手机上开发,Codex都能提供一致的编程辅助体验,而且已经整合进ChatGPT账号体系,本地和云端可以无缝切换。


根据介绍,GPT-5-Codex最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。


OpenAI内部员工使用数据显示,按模型生成的token数排序,对于最底部10%的简单请求,GPT-5-Codex比GPT-5少用了93.7%的计算资源。



相反,对于最顶部10%的复杂请求,它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快,而复杂的大型重构则会投入更多时间深度处理。


用人话说就是:日常小问题不磨蹭,大项目该花时间就花时间。终于有个编程模型懂得「好钢用在刀刃上」了。


基准测试方面,在GPT-5发布时,OpenAI只在477个SWE-bench Verified任务上报告结果,在被Anthropic指出这一问题后,今天OpenAI算是长记性了。


他们表示这些问题已经修复,现在可以在全部500个任务上报告结果。结果如下:



代码重构评测更是涵盖了Python、Go甚至OCaml等语言,比如一个来自Gitea的pull request案例,修改了232个文件、3541行代码,将ctx变量贯穿到应用逻辑中。


代码审查功能也很实用,它会在代码库中浏览分析,运行测试验证正确性,给出的审查意见准确性不错。在OpenAI内部,Codex现在会审查大部分PR,每天能发现数百个问题,很多时候比人工审查更早发现潜在bug。



前端开发支持同样到位,GPT-5-Codex不仅能创建桌面应用,移动端开发能力也有明显提升。它还能读取截图和设计稿,检查开发进度,把工作成果可视化展示,这对前端开发确实很有帮助。


工具层面的更新也相当丰富。全新改造的Codex CLI现在围绕自主编程流程重构,支持直接附加和分享图片,包括截图、线框图和架构图,用于建立对设计决策的共同理解。


处理复杂任务时,Codex会通过待办清单跟踪进度,内置了网页搜索、MCP等工具连接外部系统。


审批模式简化为三种:只读模式需要显式批准,自动模式对工作区有完整访问权限但工作区外需要批准,完全访问模式可以在任意位置读取文件并运行带网络访问的命令。


全新的IDE插件支持VS Code、Cursor等编辑器,让用户能无缝预览本地修改并与Codex协作编辑代码。插件还支持在云端与本地环境间流畅切换,可以直接在编辑器中创建云端任务、跟踪进行中的工作,以及审查已完成的任务。


云端基础设施也有明显改进,通过容器缓存将新任务和后续任务的中位完成时间缩短了90%。Codex能自动设置运行环境,扫描常见初始化脚本并执行,在配置网络访问权限时还能运行pip install等命令按需安装依赖。


安全方面,OpenAI采用了沙箱运行环境,默认禁用网络访问,确保不会在用户电脑上执行有害操作,同时降低提示注入风险。


开发者可以根据风险承受度自定义安全设置,在云端可以限制网络访问只允许可信域名,在CLI和IDE插件中可以批准命令、允许全权限运行或使用网页搜索、连接MCP服务器。


与GPT-5管理方式一致,GPT-5-Codex在生物与化学领域被归类为高能力模型,已采取相应安全措施。


价格上,Codex已经集成到ChatGPT的各个付费套餐中,不同套餐提供不同的使用额度。


Plus、Edu和Business适合每周几次专注的编程会话;


Pro则能支持跨多个项目的一整周工作量。


Business套餐可以购买额外额度,帮助开发者突破包含的上限;Enterprise套餐则提供共享额度池,只需为团队实际使用部分付费。


对于使用API key的开发者,OpenAI计划很快在API中开放GPT-5-Codex。


值得一提的是,目前GPT-5-Codex的系统提示词已经被网友扒出,只有原始GPT-5的三分之一,感兴趣的开发者可以研究一下。


系统提示词地址:


https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex\_Sep-15-2025.md


知名博主Dan Shipper在体验完GPT-5-Codex之后,给出的评价是:


我们在@every上测试了几天,结果相当震撼:


-它会根据任务动态选择「思考」时间——难题上能长时间工作,简单问题则能即时给出答案。


-在我们的生产代码库测试中,它可以自主运行长达35分钟——相比之下,GPT-5往往过于谨慎,这是一次明显的升级。


-它支持本地与网页开发环境的无缝切换。你可以在VS Code中启动一个任务,然后在去购物时把它交给Codex Web继续完成。


-它配备了代码审查智能体,会真正运行你的代码,因此能发现更多bug。


以下是我们经过大量内部测试后的整体感受:


-这是一次非常出色的升级,让Codex CLI成为了Claude Code的有力替代品。


-不过,它需要合理的提示才能表现出最佳效果。比如@kieranklaassen最多只能让它运行5分钟,而@DannyAziz97找到了诀窍。


-有时候它会「偷懒」——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。


-我整个周末都在用Codex CLI为@CoraComputer提交一个新的PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。


OpenAI Codex产品负责人Alexander Embiricos表示,性能的大幅提升主要归功于GPT-5-Codex动态的「思考能力」。


Embiricos解释说,GPT-5-Codex的工作方式类似,但它内部没有路由器,而是能实时调整在某项任务上投入的时间。


Embiricos指出,这比路由机制更具优势:后者在一开始就必须决定要为某个问题分配多少算力和时间,而GPT-5-Codex则可以在处理任务5分钟后决定「还需要再多花一个小时」。


最近几个月,几乎所有AI大厂的重磅更新都指向同一个方向——编程能力。相比之下,如果你仔细观察就会发现,针对普通用户的「优化」其实是在不断减少。


表面上看,这可能是因为面向普通消费者的AI产品已经陷入瓶颈期。聊天、写文案、做翻译,这些功能已经比较成熟,很难再有突破性进展。


但更深层的原因,还是绕不开商业逻辑。


开发先进的AI模型本就需要天文数字的巨额投入,这些成本总要有人承担。与其指望海量低付费用户慢慢回血,不如直接锁定那些真正愿意掏钱的高价值客户。而程序员是最愿意为AI工具付费、且粘性较高的群体之一。


新模型上线不久后,OpenAI CEO山姆・奥特曼兴奋地透露,GPT-5-Codex已经占据了Codex总流量的近四成,他判断在今天之内,这个比例就会反超,成为平台的主要来源。


从这个角度来说,放弃技术平权的营销叙事,AI的未来可能比我们想象的更加「精英化」。这不一定是坏事,但至少我们应该对此有清醒的认识。


附上OpenAI博客地址:


https://openai.com/index/introducing-upgrades-to-codex/


封面来自:ZDNET


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

韩国青少年涉“数字性犯罪”激增... △资料图 韩国当地时间15日公布的数据显示,近年来,韩国涉及深度伪造、利用智能手机等电子设备偷拍等“...
常上网死亡风险降22%?认知退... 在地铁、公交,甚至是公园的长椅上,总能看到一个个熟悉的身影:低头刷手机的“低头族”。过去,人们总调侃...
破解老年多病诊疗难题!北京老年... 近日,北京老年医院认知障碍诊疗中心的一场疑难病例多学科会诊上,出现了一位特殊“参与者”——“AI小相...
世界急救日|人中穴不是“保命开... 2025 — 世界急救日 — 2025年9月13日是第26个“世界急救日”,今年的主题为“急救与气候...
患了网球肘 矫治有方法 网球肘,医学上称为肱骨外上髁炎,是一种因手肘外侧肌腱发炎或损伤而引起的疾病,会导致疼痛和无力,网球肘...
让你发胖的不是米线,原来这么吃... 米线是云南人最常吃的一种早餐,在中国的其他地区一般被称为“米粉”,例如大名鼎鼎的桂林米粉,在海南儋州...
秋季到,喷嚏来?近期高发,别误... 阿 嚏 阿 嚏 提起花粉过敏的季节,很多人第一反应是春季。事实上, 秋季也是花粉过敏的高发期。 ...
恩施旅游必看攻略!2025恩施... 恩施土家族苗族自治州,位于湖北省西南部,地处武陵山区腹地,是一片被大自然厚爱的秘境。这里拥有举世罕见...
广西桂林旅游5天大概要多少钱?... 桂林,这座闻名遐迩的山水名城,以其“山清、水秀、洞奇、石美”的独特风光,吸引着无数游客前来探寻。这里...
国庆假期四川成都六日游花多少钱... 国庆长假即将来临,对于很多家长来说,这可是个带娃出游增长见识、增进亲子感情的好机会。四川成都,这座充...