规模化人工判断:Dropbox 如何借助大语言模型优化 RAG 系统标注
创始人
2026-03-15 15:13:29
0

作者 | Sergio De Simone

译者 | 明知山

正如 Dropbox 首席工程师 Dmitriy Meyerzon 所言,文档检索质量是 RAG 系统的瓶颈——这类系统需要从海量文档库中筛选出相关内容,再将其输入给大语言模型。

企业搜索索引中存在数百万份文档,超大型企业更是多达数十亿份,因此 Dash 只能将检索到的极少部分文档传给大语言模型。这使得搜索排序质量——以及用于训练排序的相关性标注数据——对最终答案的效果至关重要。

这意味着搜索排序模型的质量直接影响最终生成答案的质量。Dash 采用监督学习技术训练排序模型,会根据文档满足查询需求的程度,对查询 - 文档对进行标注。这种方法的主要难点,在于如何生成大量高质量的相关性标注数据。

为解决纯人工标注的局限(成本高、速度慢、一致性差),Dropbox 引入了一种补充方案:利用大语言模型大规模生成相关性判断。这种方法成本更低、一致性更强,且能轻松扩展到大型文档集。但大语言模型并非完美的评估者,因此在使用其判断结果进行训练前,必须先对其效果进行评估。

在实际应用中,利用大语言模型进行相关性评估需要一套自动化与人工监督相结合的标准化流程。

这种被称为“人工校准的大语言模型标注”的方法十分简洁:先由人工标注一小批高质量数据集,用于校准大语言模型评估器;再由大语言模型生成数十万乃至数百万条标注,将人工工作量放大约 100 倍。需要注意的是,大语言模型并不会取代排序系统——若在查询时直接用其进行排序,速度过慢且会受上下文长度限制。

评估步骤包括:将大语言模型生成的相关性评分与人工判断进行对比,测试对象为训练集中未出现的查询 - 文档对子集。评估还重点关注最难修正的错误——即大语言模型判断与用户行为不一致的情况,例如用户点击了模型评分较低的文档或跳过了模型评分较高的文档,这类错误能提供最强的学习信号。

还有一个重要的考量:上下文往往是判断相关性的关键。例如在 Dropbox 内部,“diet sprite”指的是一款内部性能工具,而非饮料。为解决这一问题,研究人员让大语言模型进行额外检索、获取上下文并理解内部术语,这显著提升了标注的准确性。

根据在 Dropbox Dash 上的实践经验,Meyerzon 表示,这种方法能够让大语言模型在大规模场景下持续放大人工判断,成为优化 RAG 系统的有效手段。

相关内容

热门资讯

珠江洗涤工业自动洗衣机为何备受... 面对每日数百公斤布草的洗涤压力,大型宾馆、工厂及医疗机构始终面临三大痛点:洗净率不达标导致客户投诉,...
2026中国经济开年“心气”如... 编者按:观察中国经济到底怎么样,可以从身边人的常识开始调研。2026年春节,中国人民大学重阳金融研究...
对话JVS Claw负责人张献... (文/陈济深 编辑/张广凯) 在全民"养虾"的当下,指挥智能体处理任务并给自己发送一封反馈邮件,似...
免费!常州市区新增一大草坪 蓝天微风、林荫绿草 帐篷烧烤、童趣欢笑 又到了常州最适合“躺营”的好时节! 最新消息来了! 市区又添...
2026年江西金牌导游推荐榜:... 计划一场江西之旅,滕王阁的千古绝唱、庐山的云海仙境、景德镇的瓷韵匠心都令人神往。然而,景点再美,若没...
2026年北京金牌导游推荐榜:... 计划2026年来北京旅游?面对故宫的深宫大院、长城的蜿蜒雄姿、颐和园的湖光山色,你是否担心行程规划不...
原创 郑... 娱乐圈里不乏让人羡慕的模范夫妻,而郑恺和苗苗无疑是其中最被关注的一对。自恋爱至婚姻,他们一直保持着甜...
西藏贡觉县主题推介活动亮相天津... 中新网拉萨3月15日电 (李林)14日,西藏昌都市贡觉县主题推介活动在第35届天津运河桃花文化商贸旅...
超级期待!占地32亩!澄海玩具... 超级期待! 澄海玩具乐园雏形已现! 视频来源:澄海中骏售楼处@王同学 汕头澄海玩具乐园(环翠公园),...