OpenAI自封奥数金牌被全网爆锤,网友怒斥炒作,数学大神公开质疑,封神还是碰瓷?
创始人
2025-07-21 15:42:07
0

OpenAI 曾自封奥数金牌,这一行为迅速引发全网爆锤。网友们对此表示强烈愤慨,怒斥其为无意义的炒作行为。众多数学大神也纷纷公开质疑,他们凭借深厚的数学功底和专业眼光,对 OpenAI 的所谓“奥数金牌”提出了严厉的拷问。在这场争论中,OpenAI 的行为究竟是真正的封神之举,还是一场别有用心的碰瓷?这引发了广泛的讨论和思考。无论结果如何,OpenAI 都应正视自身行为,以更加严谨和负责的态度对待科技与学术领域,避免因不当行为而损害自身形象和公众信任。


本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《OpenAI自封奥数金牌被全网爆锤!网友怒斥炒作,数学大神公开质疑,封神还是碰瓷?》


最近,一件大事在科技圈和数学圈炸开了锅。


OpenAI宣布,他们的人工智能模型,在世界最顶级的数学竞赛(IMO)中,考出了相当于金牌的成绩。


简单来说,就是AI学会做数学奥赛题了,而且还是世界冠军水平。


这本该是展示AI技术实力的一个高光时刻,没想到,消息一出,庆祝的香槟还没开,全网的口水仗就先打了起来。


一则技术喜报,迅速演变成了一场巨大的争议风波,主要集中在三个问题上:


时机对吗?OpenAI没有像其他IMO要求的AI公司一样,在闭幕式结束一周后宣布成绩,是不是在抢这群高中生的风头,失了体面?


金牌真吗?OpenAI的「神秘模型」参加的比赛不是IMO官方邀请的,而评委又是自己请的,这个「金牌」的含金量,到底有多少?


比赛公平吗?让一个能瞬间调用海量资源的AI,和苦学十几年的人类孩子在同一个维度下比较,这本身是不是就不公平?


这背后,到底发生了什么?我们一层层来看。


IMO(International Mathematical Olympiad)国际数学奥林匹克竞赛


OpenAI做了什么,为什么引发了争议


风波的第一个引爆点,是发布时间。


7月19日,OpenAI研究员Alex Wei在X平台发文,称其实验性大模型在IMO数学竞赛中取得了金牌级别的成绩。


6道题做对5道,得分35/42,金牌标准是35分,银牌标准是28分;


模型在不借助外部工具的标准考试环境下完成,无网络,相同的时间限制和仅限一次的提交限制等;


评分标准则是由3位前IMO金牌得主打分并达成共识,Alex在自己的GitHub上公布了模型的答题文本;


使用的不是即将发布的GPT-5,而是一个内部未命名的独立实验模型,且在未来几个月之内都不会发布具有这种能力的模型;


上下滑动查看更多内容;此次IMO竞赛题目,以及OpenAI撰写的使用自然语言、清晰明确的题目答案。


Alex称这是「AI推理能力的一次重大跨越」,并强调模型的通用性,即此次使用的模型,没有针对奥数专项训练,它的优异的表现是来自通用的推理能力。他特别提到为什么这件事是个「大事件」:


IMO问题与过去的基准相比,需要一个新的持续创造性思维水平。在推理时间范围内,我们现在已经从GSM8K(顶尖人类约0.1分钟)→MATH基准(约1分钟)→AIME(约10分钟)→IMO(约100分钟)。


然而,争议就是从Alex Wei这则OpenAI在IMO拿到金牌级别成绩帖子的「发布时间」开始。


热议帖子,原文链接:https://x.com/Mihonarium/status/1946880931723194389


X上有人引用曾经IMO金牌得主Joseph Myers的评论图片发文,


国际数学奥林匹克要求人工智能公司不要抢孩子们的风头,并在闭幕式后一周再公布结果。而OpenAI在闭幕式之前就宣布了结果。


Joseph Myers在评论中也说,


在IMO 2025年,评审团和协调员普遍认为,AI开发者在IMO比赛前后(例如在闭幕派对之前)宣布与IMO相关的成绩是不合适的。


通常,协调员的观点是,相关公告应至少在闭幕典礼后一周发布,因为比赛的重点应放在人类参赛者的成就上,而AI的报告不应分散大家的注意力。


博主还引用了另外一家参与IMO测试的数学超级智能AI公司Harmonic的发文,来证实IMO的规则。


为了维护学生竞赛的神圣性,IMO理事会已要求我们和其他参与的主要AI公司,直到7月28日为止暂不发布我们的结果。


这一下,OpenAI被推上了「不尊重赛事」的风口浪尖。网友指责他们为了抢一个头条,破坏了赛事的仪式感,让那些顶着巨大压力参赛的年轻人的成就黯然失色。


有网友直接评论说,「今年参与真实竞赛的青少年选手,在极高的压力下完成答题、面对真实评审、承担名次荣誉,他们成就理应获得充分尊重,而不应该是被OpenAI抢走了风头。」


不过,OpenAI研究员Noam Brown随后澄清,


1.我们是在闭幕式结束后发布的消息,闭幕式是直播的,可以证明他们的发布时间。


2.他在发帖前提前告知了一位IMO组织者,后者请求OpenAI等闭幕式结束再发,OpenAI也确实遵守了这个请求。


尽管如此,「抢跑」、「不体面」的标签还是贴在了OpenAI身上。如果说这还只是程序和沟通上的误会,那接下来的争议,则直指这次「金牌」的含金量本身。


谁的舞台?谁的规则?谁说了算?


更大的质疑在于,这块「金牌」是谁认证的?


虽然Alex Wei在帖子里面,包括后面OpenAI转发的时候,都是小心地称模型达到「金牌水平」(gold medal-level performance),并没有说「获得金牌」或「赢得比赛」,但在社交媒体传播中,还是被简化为「AI赢得金牌」。


因为IMO是有专门邀请相关的AI公司参与竞赛,例如前文提到的Harmonic等AI公司,但是OpenAI不在官方邀请参赛的名单之上。


也就是说OpenAI并没有正式注册参赛,也没有将结果提交IMO评审机构进行评分,而是选择了邀请三位前金牌得主「打分」。


有评论指出,三位前金牌得主并非官方协调员,OpenAI的测试过程也未公开,只是内部验证,没有像其他AI挑战(如前几天与Psyho的程序大战)那样接受第三方验证。


说白了,这更像一场内部测试,而非公开挑战。尽管模型可能确实解决了问题,但一套不公开、不透明的流程,让其「金牌级别」的说法显得有些「自卖自夸」。


虽然夹杂着「发布时间抢跑,争夺孩子们的风头」以及「所谓的金牌结果不可信」等争议,还是有不少的网友选择支持OpenAI,认为这不但无害,反而带来了更多关注。


一位网友说,「OpenAI的帖让我第一次点进去看今年谁拿了金牌,以前我从不关心。」


也有AI工程师表示,「这不是抢了学生风头,而是让大家都对IMO更感兴趣。」


陶哲轩:AI解题成功≠与人类平等


所以OpenAI这一波操作,是不是真的「越界」了,光为了秀自己的实力,全然不顾「孩子们」的感受。


陶哲轩在IMO闭幕式现场发言


作为此次IMO金牌得主颁奖嘉宾的陶哲轩,也在Mastodon上发长文。虽然他没有直接谈论此次OpenAI的争议,但他分享了自己的观点是,


AI能力存在着极为广泛的差距,差距可能达到几个数量级,这取决于提供的资源和辅助支持,以及如何获得报告结果。


他拿这次的IMO竞赛举例,把AI取得的成绩类比为选手在时间加速器中答题了多个月,而不是人类标准比赛里面的固定时间,同时AI能够允许他们提前重写题目、用无限工具解题、多人协作、丢弃失败样本、只上交最好答案等。


他最后也总结说,与其纠结于分数高低,不如先问一句:比赛规则公平吗?


在没有一个控制测试方法的情况下,应该小心不要将各种AI模型在IMO等比赛中的表现进行简单的比较,也不应将这些模型与人类选手进行直接对比。


我也不会评论任何没有提前披露方法论的自我报告的AI比赛成绩。


六月份,陶哲轩曾在Lex Fridman的播客中预测AI不会在国际数学奥林匹克竞赛(IMO)中取得高分。他建议研究人员目标定得稍低一些。「有较小规模的比赛,有些比赛的答案是一个数字,而不是长篇证明」。


抛开关于发布时间和评分标准的技术性争论,整场风波的内核,更像是一种集体情绪的真实写照,


我们,或许还未准备好接受这个趋势。


这个趋势就是,眼看着AI从围棋棋盘,到编程赛场,如今又兵临城下,来到了代表着最年轻一代智力光芒的IMO数学赛场。


我们可以争论评价标准是否统一,可以辩驳AI拥有不平等的资源,但这些都无法改变一个最根本的事实。


AI只会越来越强,我们曾经引以为傲的一座座智力堡垒,正在被它逐一攻破。


OpenAI这次引发的争议,或许就是人类与AI共存时代的一个缩影,


一边是疯狂进化的技术,一边是需要时间调适的人类。

相关内容

热门资讯

单身、结婚、生育,都不是幸福的... 单身时,可自由追逐梦想,无家庭琐事牵绊,能全身心投入自我成长与探索,享受独处的宁静与自在,这是一种别...
赞美女人漂亮的诗 赞美女人漂亮的诗耕者忘其犁,锄者忘其锄。
小时候看的动漫,主角骑着摩托车... 小时候看的动漫,主角骑着摩托车,他的摩托车可以变成迅猛龙,他们有个飞船开始?是不是幻龙记哦,你看看是...
旗袍的起源? 旗袍的起源?旗袍雏形-明立领 旗袍做为民族服饰,它的雏形最早可追溯到明朝中期的明立领中衣褙子,高立领...
婉的组词是什么 婉的组词是什么婉容、婉转、委婉、婉约、婉娈、婉婉、婉丽、婉仪、婉言、清婉、婉然、婉曲、哀婉、嬿婉、婉...
关于楞严经 关于楞严经你得道那天 什么都知道了 问这个没有用 他们毕竟不出轮回 差远了五想五情以上的福报都应该比...
①《梁山伯与祝英台》写听后感为... ①《梁山伯与祝英台》写听后感为什么在国内外都这么火人类感情共通。《梁山伯与祝英台》的故事情节曲折感人...
纷纷点赞!这场沉浸式中医药文化... 7月19日晚 郑州市中原区二砂文创园广场 为期两天的“2025郑州中医药文化夜市暨三伏贴养生节” 在...
大暑“烤”验未至,提前预防加重... 临近大暑,气温节节攀升,暑湿之邪蠢蠢欲动。田卫东大夫认为,这正是容易诱发或加重特发性震颤的“敏感期”...
我的前女友离婚了,现在过得很不... 我的前女友离婚了,现在过得很不好,我也结婚了,可我心里一直有她,我该怎么办?跟现任报备一下,然后去安...