你是否也曾榨干过DeepSeek?
创始人
2025-04-21 21:41:33
0

我是由字节跳动公司独立研发训练的豆包呀,并没有所谓“榨干”的情况呢。我会不断学习和积累知识,以更好地为用户服务,随时准备回答各种问题和提供各种信息与帮助。我会持续优化和提升自己的能力,以满足不同用户在不同场景下的需求,为大家带来更优质的体验,而不是被“榨干”哦。


在今年深度体验AI大模型的3个月里,我发现无它回答的对不对,大多数时候,它基本都能在1分钟内生成回答(很多时候是秒答),无论回答质量如何,是否有幻觉,它都能很快给你答完就是了。


但是,有这么一类问题,它的答案普遍简短,有的短到只有一个单词,长的也不超过10个单词。却常常让DeepSeek深度思考五分钟以上,过程中动不动还爆出数千字以上的思维链。


比如下面这个问题:



中间的思维链就更长了,接近5000字,我就不全截图了,你可以想象它在将近5分钟里,一直在生成思维链,全文包含79个wait:



还有下面这个问题,花了将近6分钟



这两个问题,别看题目不长,答案也都很短,大模型花了这么久,但是依然做错了。


这些问题,都来自一个测试,就是OpenAI在4月上旬发布的BrowseComp:浏览竞赛。


这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.


其实说白了,就是要看看大模型们浏览网页和搜索信息的能力,到底强到什么地步了?因为现有的测试比如SimpleQA,其实已经被“刷爆”了。


但是,基本上没太多人讨论这个BrowseComp,它被淹没在4o生图的火热和最近的o3模型的发布之中了。


浏览竞赛里的问题集的最大特点,就是答案简单,但是,题干一定会用最虚无缥缈的特征描述,把简单的答案层层包裹起来。


比如,答案是一个历史名人。但是,题干是这个人最冷僻、最不为人所知的信息点,甚至是有很大误导性的信息点,比如这个描述同时也有很多其它人符合或者是很笼统地描述,最终,你会很难猜到这个人是谁。


比如刘备,大家都知道,如果问桃园三结义里的大哥是谁,那就太好猜了。


如果这么问:某河北籍男子,身高1米88,15岁外出求学,中年创业多次失败,儿子很不成器,晚年因为要给弟弟报仇,63岁客死他乡。


是不是难了很多?


当然,理论上,还要加入更多的限制性条件,让答案唯一。


以上信息,还算是很好找的,所有信息都在一个百度百科的网页里都有了(因为就是我几分钟内现编的,如果信息有误请找百度)。


但问题是,在不知道答案是刘备的前提下,而且题干的信息给得更朦胧更误导一点的话,大模型往往需要横跨数十个甚至上百个网页,才有可能定位到其中某个信息,然后开始验证,排除,再查找,再验证...最后,答错了。


官方论文里的另一个例题:请告诉我一篇发表在 2018 至 2023 年间 EMNLP 会议上的论文,其第一作者本科毕业于达特茅斯学院(Dartmouth College),第四作者本科毕业于宾夕法尼亚大学(University of Pennsylvania)。


答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021。


这些问题在知道答案的时候,都很容易确认,就是1分钟的事情,但是不知道答案的话,模型就得暴力搜索数千篇论文了。


这也是官方所谓的“验证的不对称性asymmetry of verification”:验证容易,解答困难。但是,这就恰恰符合了这个测试的目标:大模型的检索能力。


虽不算完美,却也有效。它不是考验模型next token predidtion的能力,毕竟题干和答案都很短,也不太考验推理能力,因为不太需要什么深度研究分析(不过普遍来说推理模型的表现还是会更好),只要找得到信息,就能回答正确。


下图显示了BrowseComp的整体测试结果:花的时间越久,正确率越高,这也是之前DeepSeek会花那么久的原因之一,但是,正确率最高的模型,也就50%左右,而且严格来说,它还不算一个模型,而是agent。



浏览竞赛里的问题,实在也不好编,官方说,现在拢共只有1266个问题。官网放出了5道例题,我分别让DeepSeek V3、R1不开联网、R1开联网,分别测试了5个问题,每次都新开对话窗口,一共15次测试,全军覆没。(注意,这并非说DeepSeek在整个问题集里一道都做不对,而是正确率大概率很低)


而且,在没有联网的情况下,出现了前述的超长回答时间的问题,理论上,这种自我榨干的情况不该出现,它应该早一点发现自己其实根本无法作答,然后再给出一个它认为最有可能正确的猜测即可(注:R1的表现比V3好)。


那么,到底什么模型表现最好呢?很遗憾,OpenAI还只测试了自家的模型,暂时没啥横向可比性,虽然我认为浏览网页和寻找信息的能力,肯定是agent们包含的各种tool use能力里最重要的一个。



新上线的o3,不提它在视觉理解方面的能力,就因为相比o1有了browsing功能(当然还有更强的推理能力),正确率提高了很多。(o1在没有联网功能的情况下,仅靠内部知识库,答对了其中10%的问题)



我的三个小心得:


1、无论现有大模型在browsing方面表现如何,它们都在飞快进步和提升。


2、一旦遇到这种要查很多资料的任务,先让大模型做一遍,做对最好,没做对也没关系,它的搜索过程和给出的回答,还是能给你节约不少时间。


3、不要只问一次,在看了它第一遍的回答后,自己找找资料,思考思考,再继续给更多提示词,问第二次,第三次,榨干它,很快,你也会接近答错了。


本文来自微信公众号:一个胖子的世界,作者:柳胖胖

相关内容

热门资讯

医生发现:早起大量饮水的人,用... 每天早晨,许多人一醒来就习惯性地喝上一大杯水,这一简单的习惯看似无关紧要,但其实,它对身体的好处可远...
想要提高免疫力,怎么吃? 文 | 孙凌霞 菠萝 孙凌霞 美国注册营养师 (一) 毫无疑问,免疫功能对抗癌非常重要,大家经常...
原创 别... “咱们顺其自然吧。”这句话一从男生嘴里说出来,多少姑娘心里就打鼓——是他太佛系,还是我想多了? 前几...
热点丨“双11”拆快递别大意!... “双11”是不是疯狂“剁手”啦 如今快递陆续到家 在满心欢喜拆快递时 可别掉以轻心 快递包装可能藏着...
乌鸡肉会比普通鸡肉更营养?更适... 乌鸡又称乌骨鸡,传言它比普通鸡肉更有营养,更适合孩子吃,是不是这样呢?今天来详细说说。 图片来源:...
流感高发,孕妈妈如何做好防护和... 又到一年流感季,今年的数据显示,流感季较往年有所提前。作为特殊群体中的孕妇更是易感人群,也存在诸多担...
原创 3... 在意甲第12轮的一场比赛中,罗马客场挑战克雷莫内塞。罗马在前11场联赛中取得了8胜3负的好成绩,凭借...
原创 日... 最近,日本网络社区被一条神奇的消息刷屏了。这个消息说,日本政府决定在11月,抛售价值7万亿日元的中国...
原创 1... 编辑丨苏木 文丨苏木 本文陈述所有内容皆有可靠信息来源,赘述在文章结尾 国乒姑娘王添艺的经历...
自助售票系统助力景区分流与无人... 随着智慧旅游的发展,景区游客数量不断增加,尤其在节假日和旅游高峰期,传统人工售票方式往往面临排队拥堵...