大模型“考生”们高考数学普遍不及格,业内解释为何“偏科”
创始人
2024-12-10 02:21:09
0

日前,由上海人工智能实验室推出的司南评测体系OpenCompass选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。据悉,此次评测采用全国新课标I卷,并让具有高考评卷经验的教师人工阅卷评分。

评测结果显示,Qwen2-72B、GPT-4o及书生浦语2.0文曲星成为本次大模型高考的三甲,得分率均超过70%。不过,一个明显的趋势是,大部分模型“考生”出现了偏科现象,其中语文、英语科目表现良好,但在数学方面全军覆没,连及格分都拿不到。

阅卷教师点评称,大模型“考生”的文言文理解能力差距较大,回答作文题时像在回答问答题,不像人类考生一样能使用举例论证、名人名言、人物素材等手法,不完全理解“潜台词”,也不懂“暗喻”等手法。而在做数学题时候,大模型“考生”的操作过程极具迷惑性,甚至在答题时出现了过程错误、答案正确的情况。

大模型“考生”无法理解潜台词,不会引用名人名言

上海人工智能实验室官方透露,司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型,共计7个模型来参与本次“大模型高考”评测。

据悉,此次针对大模型考生进行评测,采用的是全国新课标I卷,参与评测的所有开源模型开源时间均早于高考,这确保评测了“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

评测结果显示,总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。其中大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。

不过,阅卷老师提出,在语文这一科目上,大模型与人类考生相比,在答题时仍有差距。一是大模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大;二是大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。三是多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

而在英语科目上,各大大模型整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低,同时大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

大模型数学普遍不及格,与数据情况、推理逻辑相关

虽然英语和语文成绩可圈可点,但从单科成绩上看,大模型“考生”数学不太行,普遍出现了偏科、不及格的状况。数据显示,数学科目各大“考生”平均得分率仅为36%(150分满分)。上海人工智能实验室给出的数据显示,数学成绩前三名为Qwen2-72B、GPT-4o、InternLM2-20B-WQX,分别得分为70、73、75,这意味着即使是本次测评的前三名,他们离及格分数线(90分)仍有一定距离。

阅卷老师分析称,此次参与大考的大模型在数学主观题回答上相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。虽然大模型的公式记忆能力较强,但无法在解题过程中灵活引用。

针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包含对各种思维的考察,解题逻辑和正常用大模型时的推理逻辑不一定完全一样。同时该负责人还提到,从更广泛的大模型应用角度来看,AI能不能精准遵循指令是近一段时间内比较重要的事情,真正的商业价值也比较大可能来自于此,而解数学题对目前的AI来说还是一件比较“炫技”的事情。

另有业内人士向南都记者表示,目前来看大模型的数理能力相对较差的情况在中外都是一样的,“打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时间内也不会得到明显的改善”。

该人士进一步提出,这种情况与文理科的语料数据情况、推理逻辑情况相关。“第一,文科的语料数据丰富多样,有利于训练大模型,而理科的语料主要是数字和符号,形式单一,数据资源少,不利于训练大模型。第二,文科与理科逻辑不同。文科推理预测,有一两处错误,不会影响长文本理解,但是理科一旦某个数字或符号推理错误,结果就是南辕北辙。”

采写:南都记者 林文琪

相关内容

热门资讯

LifeX|FDA盯上OTC药... 出品|搜狐健康 作者|洪瑞祺 编辑|袁月 2026年6月,FDA药品评估与研究中心(CDER)向多家...
主汛期极端天气增多 如何科学应... 央视网消息:应急管理部6月23日举行汛期安全知识发布会介绍,今年主汛期,我国极端天气气候事件偏多,其...
原创 医... 58岁的王大叔平时从不抽烟,日常也很少胸闷咳嗽,一直自认肺部十分健康。近半年他总觉得浑身不对劲:后背...
日照男性阳痿就诊相关参考 阳痿在医学上称作勃起功能障碍,指男性在性生活中阴茎无法正常勃起、勃起硬度不足,或是勃起维持时间过短,...
原创 体... 58岁的张先生每年都会按时做年度体检,一直觉得自己身体素质不错,无高血压、糖尿病等基础病,平日里也坚...
原创 心... 我发现很多中老年朋友,嘴上说“没事”“将就着吃”,可眼里其实一直在扛着。 扛房贷的人扛压力,扛孩子的...
伊朗被解冻资产如何使用?美伊各... 据伊朗伊斯兰共和国通讯社23日报道,伊朗外交部发言人巴加埃当天在德黑兰举行的每周例行记者会上表示,伊...
天气这么多“戏” 我们如何应对... 初夏天气多变,暴雨、大雾、大风、高温轮番来袭。强降雨易引发积水、滑坡、泥石流等灾害,倒伏树木、积水浸...
暴雨天气如何安全出行? 暴雨天气如何安全出行? 行人、骑行、驾车分别要注意什么? 下面这组《暴雨天气出行指南》, 请大家认真...
验证科技洗盘!A股6月底如何布... 6月24日,A股缩量至3.31万亿元,指数虽普涨、科创50涨近4%,但投资体感一般,仅有1434只个...