首席科学家姚顺雨腾讯首篇论文:道破为何AI死活听不懂人话
创始人
2026-02-04 22:21:07
0

快科技2月4日消息,近日,腾讯混元团队和复旦联合团队发布了首篇论文《CL-bench》。

值得一提的是,这也是姚顺雨入职腾讯首席AI科学家后,首次署名的研究论文。

他在文中提到,当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。

一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。

人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。

在这篇论文里,研究团队提到,大模型在上下文利用上,依然存在显著的能力短板。

为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench。

这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。

CL-bench包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。

CL-bench只包含一个简单但苛刻的要求:“解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。”

通过实验发现,世界上排名前十的语言模型在CL-bench上的任务解决率平均只有17.2%。

也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。

不过这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。

相关内容

热门资讯

揭秘:生殖功能较强的男性,大多... 生殖功能的强弱,直接关系到男性的身心健康和生育能力,也是很多男性默默关注的话题。不少人误以为生殖功能...
原创 大... 50岁的老张晨起上厕所的时候,突然感到剧烈的胸痛,家人发现他面色苍白,全身大汗淋漓,急忙将其送到医院...
胰岛功能好不好?看空腹血糖就知... 胰岛功能的好坏,直接关系到我们的血糖水平,进而影响身体的各项健康指标。许多人的血糖问题,尤其是糖尿病...
图解丨夫妻吃网购娃娃菜中毒,为... 近日,“夫妻网购娃娃菜中毒事件”引发关注。警方侦查发现,夫妻二人因涉嫌敲诈勒索罪,已被采取刑事强制措...
返乡手记|归“潮”:在烟火气里... 寒假已至,归期如约 让我们在这个假期一起 跟随小白杨的「返乡手记」系列 用脚步丈量祖国大地 用眼睛发...
原创 星... 一、星链,第一次站在了乌克兰的对立面 就在上周,一份来自乌克兰战场监测体系的情报报告,引起了基辅方面...
氢能源概念崛起,致远新能、昇辉... 氢能源概念4日盘中发力走高,截至发稿,致远新能、昇辉科技20%涨停,春晖智控涨超15%,神开股份、银...
肝越缺血,就越睡不好,多吃这8... 中医认为,肝主藏血,当肝血亏虚,无法正常滋养心神时,睡眠质量就会大打折扣。如果你常常辗转反侧难以入眠...
原创 男... 男性禁欲:身体与心理的双重考量 前言 近年来,随着健康管理观念的普及和生活节奏的加快,越来越多的男...
原创 当... 在长沙城郊的山坳深处,藏着一片曾经被称作“市内桃源”的别墅群。 从远处望去,上百栋欧式建筑整齐排列,...