143 亿美元的天价并购,让人们开始聚焦 AI 数据服务这一领域。AI 数据服务如同幕后的魔法师,为人工智能的成长提供着养分。它致力于收集、整理、标注各种数据,这些数据是人工智能学习和决策的基础。从图像识别的数据到语音理解的数据,从文本分类的数据到自然语言处理的数据,AI 数据服务涵盖了众多领域。通过高效的数据处理和精准的标注,让人工智能能够更好地理解世界,从而实现更智能的应用。这 143 亿美元的并购,不仅是对现有数据服务的认可,更是对未来 AI 发展的巨大投入。
“亲爱的特朗普总统,美国必须赢得AI战争。”今年年初,年仅 28 岁的 Alexandr Wang在川普就职典礼第二天,在华盛顿邮报为自己的数据标注服务公司Scale AI打出了整版广告。
Alexandr Wang这个看起来颇为“加戏”的动作,让数据标注第一次走进普罗大众视野。它也凸显一个现实——在AI三要素里,相比模型和算力领域里的硝烟滚滚,大众对数据领域的演进缺乏更多的认知。
不过,两周前,Meta以143亿美金收购Scale AI 49%股权,这让AI数据服务领域真正成为了全球关注焦点,也引发了美国数据标注产业的一场大地震。
无独有偶,除了美国巨头押注AI数据服务价值,国内数据标注产业过去一年多里热度也在不断攀升,顶层设计和市场端都有不小的动作。7大国家级数据标注基地试点城市落地,国家数据局还集中发布了47个数据标注优秀案例集,同时,一批数据标注服务公司则迎来了业绩的快速攀升。
不过,在产业界的频繁动作之外,业界又流行一个说法,数据标注正在加速自动化,技术进步正在许多标注任务逐渐消失。
这让人好奇,中美都在押注的领域,到底是怎样一个产业?当下这一领域处在怎样的发展阶段?自动化会让数据标注走开吗?接下来竞争将如何展开?
一、并购案背后,AI基础数据服务站上C位
“数据是人工智能中最有价值的资产之一”,这句人工智能时代的共识,在Scale AI并购以及随之而来的AI基础数据服务产业震荡中得到了绝佳的验证。
143亿美金的并购金额,在Meta的并购历史里仅次于收购whatsApp。Meta愿意支付这个价码,背后是Meta对在当下大模型竞争里掉队的焦虑。
过去几个月里,这家硅谷巨头面临着不小的压力。今年4月,Meta发布的Llama 4 模型反馈不及预期,更大的模型Behemoth也被延期发布。
被收购一方,Scale AI之所以能叫出天价,既要从这家公司在AI基础数据服务领域的地位说起,又与数据标注和挖掘在当下的模型训练中的重要位置密不可分。
Scale AI成立于2016年,它最初是一个提供众包服务的平台,帮助企业完成一些内容审核、数据提取等需要人工操作的任务。之后随着自动驾驶领域对数据审核与标注的庞大需求。Scale AI开始专注在数据标注领域,帮助客户收集、清理、标注和管理大规模数据,助力自动驾算法研发。
大模型浪潮来临后,Scale AI收入从2022年的2.9亿美元一下子飙升到2023年的7.6亿美金,2024年继续增长到8.7亿美金。有消息称预计2025年这家公司的营收将达到20亿美金水平。
如果你对它的营收没有太多的概念,OpenAI 2024营收为37亿美元。而根据Grand View Research数据显示,2023年全球数据标注和服务市场规模达140.7亿美元。其中,美国的市场规模达42亿美元,全球占比近30%。Scale AI的收入规模,称得上是数据基础服务领域里的卖水人之一。
Scale AI的客户包括谷歌、苹果、xAI、Meta、微软和亚马逊等在内的一众硅谷巨头。去年谷歌在Scale AI的花费约 1.5 亿美元,是它的第一大客户。
科技媒体BI报道,今年4月,Scale AI为Google运行了至少38个活跃项目,占当时Scale AI在该列表上的107个生成式AI项目的三分之一以上。而服务xAI的数据项目里包含了一个名为Xylophone 的项目,主要是帮助训练xAI的聊天机器人,提升其在广泛话题上的对话能力。
广泛的客户网络,其实反映了数据标注和AI基础数据服务在当下模型训练中的重要位置。
人工智能行业有一个提法,“垃圾进,垃圾出”,数据的质量十分影响模型的表现。而数据标注本质上是要把大量机器无法理解的非结构化数据翻译成机器能理解的结构化数据。大模型浪潮下,由于数据参数规模空前,为了提升模型智能水平,围绕着数据标注和处理的预算也在飙升。
据AI 基础数据服务厂商LXT2024年对322家有AI 项目经验的美国企业的调研,整个2023年企业在训练数据上的资金投入占这些企业的AI整体建设投入的15%。此前行业内还流传一个说法,高质量的标注数据是ChatGPT效果区别于其他竞争对手的原因之一。
重重因素之下,Meta做出了大手笔并购Scal AI的决定。也许在当下的Meta看来,通过与数据服务领域领头羊合作,有助于其更好地获得模型训练的专有数据,并且能基于数据来训练更高智能的模型,从而在当下大模型竞争中跟上节奏。
这项大手笔收购也使得数据标注产业和人工智能供应链条发生了一系列连锁反应。
首先是,一大批与Meta的模型存在竞争关系的厂商纷纷开始切断与Scale AI 的合作。比如Scale AI的最大客户谷歌就在交易达成后立即暂停了两个代号为"Genesis"和"Beetle Crown"的项目合作。
其次是,与Scale AI竞争的一批数据标注厂商们则趁机开拓客户,比如Sapien,Appen、Prolific 和 Turing等企业成为不少AI厂商多元化数据标注供应商选择时的候选。Sapien AI的CEO Rowan Stone还表示,在 Meta 交易后 48 小时内,他们平台新增 4 万名数据标注注册者,服务器都崩了。
在人们对Meta收购影响Scale AI标注数据中立性以及对商业机密泄漏的担忧中,Scale AI也发表了平台中立性声明。
但声明发布并未止住行业内的各种争议。一场行业大洗牌已经在进行中。
二、政策市场双驱动,国内市场狂飙猛进
海外数据标注产业大洗牌之际,过去一两年里,中国作为全球人工智能产业增速最快的国家之一,数据需求快速增长,数据标注领域也随之演进。
首先是政策端的加持非常明显,去年开始国内接连出台与数据标注相关的政策法规,从顶层设计上为数据标注产业提供催化剂。
去年6月,国家数据局发布首批7家数据标注基地试点城市名单,七个城市在数据标注产业的生态构建、能力提升和场景应用等方面扮演了先行先试的角色。
IDC告诉数智前线,这一政策初衷是为了推动高质量数据集建设,目标也是为了更好地推动AI发展、为数据要素流通提供标准数据支持,在城市选择上会综合考虑城市需求、人才结构等因素。
去年12月,数据标注领域又迎来了重磅纲领性文件。国家四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出了到2027年产业规模年均复合增长率超过20%的发展目标,为国内的数据标注产业构建起了产业发展的“四梁八柱”。
同时,各地过去一年也不断出台相关的法规和政策,指导产业发展。
图表来源:东北证券研报
同时,行业主管部门还积极树标杆,推动行业标准化建设。今年4月,国家数据局在第八届数字中国建设峰会“高质量数据集和数据标注主题交流活动”上发布了47个数据标注优秀案例集,涉及到医疗、交通、农业、能源等20余个领域。这些标杆案例提供了可复用的实践范本,也为相关领域的标准统一、经验共享打下了基础。
政策加持的同时,随着大模型落地应用浪潮的到来,数据标注市场侧热度和规模也有明显的提升。一批企业如海天瑞声,澳鹏等都迎来了业绩的快速增长。
以澳鹏为例,今年2月澳鹏发布2024年年报显示,去年其中国区业务营收突破4.2亿,年增长达到71% ,其中的大模型/AIGC业务增长了526%。澳鹏披露,许多AI龙头,特别是大模型 AI企业成为了澳鹏的客户,大模型及大模型相关业务已经占据了澳鹏中国营收的40%。
AI数据服务创业公司整数智能CEO林群书则告诉数智前线,去年随着多模态模型的快速演进,他们感受到市场的数据标注需求呈现出指数级增长。
一位行业资深人士认为,数据标注领域市场端的热闹,与过去一年多人工智能领域的结构性变化有关。以DeepSeek为代表的国产开源模型正极大拉平国内与海外的模型方面的差距,同时国产模型进步,对算力的消耗降低,缓解了许多企业的算力焦虑,使得数据层面重要性被提到更高位置。
“数据的质量、规模和精准性将直接决定模型能力的上限,也成为模型落地效果的关键。”该人士告诉数智前线。
产业的想象空间在快速打开。艾瑞咨询的数据显示,2024年中国人工智能基础数据服务市场规模为58亿元,2028 年规模将达到170亿元,年复合增长率为30.84%。
而IDC告诉数智前线,目前模型应用走向垂直领域,数据标注的场景需求主要围绕自动驾驶、教育、医疗、金融、零售、政务等展开。
市场热度增加,数智前线观察到,行业内的参与主体也在变多,竞争正变得激烈,同时,产业链上中下游界限也逐渐模糊起来。
比如模型厂商可能从提供更完整的模型能力配套角度,在数据标注领域有相关的产品服务。典型的有智谱AI,去年它推出的Batch API,利用大模型技术来解决数据标注问题。百度智能云等数据标注服务。
也有应用企业从AI落地的角度,在应用中推出了一些运营工具标注一些数据,降低场景内的幻觉。典型有瓴羊在智能客服Quick Service应用里推出AI运营中心,针对智能客服场景里的幻觉问题,通过训练中心进行标注,将高质量数据来反哺模型,让问答更加准确。
“应用内的标注缓解模型幻觉服务于模型微调的环节,是基模现阶段能力不足的一个补充或临时方案”,一位数据标注行业人士告诉数智前线。
三、技术演进,让数据标注走开?
全球数据标注产业快速发展之际,也有一种声音认为,数据标注领域可能会因为技术进步,面临新的挑战。比如就有人指出,未来AI会自动完成许多标注任务,标注领域的企业可能需要加速转型。
针对这一趋势,数智前线同多位行业人士交流,业界普遍认为大模型时代,数据标注正逐渐走向复杂化、自动化和专业化。自动化浪潮并不意味着不需要标注。
首先是数据标注的复杂化趋势,它与大模型技术演进带来的数据标注需求变化有关。
主流大模型普遍采用了无监督自动学习机制,在预训练环节大量使用无标注数据,而之后的监督微调(SFT)和基于人类反馈的强化学习(RLHF)阶段,仍需要人工标注。
一位数据标注行业人士介绍,基于人类反馈的强化学习(RLHF)环节,企业的数据需求,需要人去对机器给出的答案去做排序和对齐,把人文的倾向、三观、喜好给机器学习。相比此前拉框画圈式的简单标注,在微调和RLHF环节,数据标注的复杂度变得更高,对标注团队的要求也更高。
行业内此前还传说,在RLHF环节,一些团队有博士团来完成标注任务。比如Scale AI就在RLHF环节招聘过几十名博士来提供数据标注服务,而OpenAI内部同样有几十名博士来配合,在Scale AI标注之后做这些标注的质量检测。
而标注的自动化趋势则与大模型技术进步用到数据标注领域有关,数据标注本身利用模型也实现了提质增效。海外的开源数据标注及清洗平台Refuel AI此前就做过测试,AI能显著提升数据标注的质量,也能降低数据标注的成本。
各种NLP任务中模型标注相比人类标注的标签准确度(与真实标签的吻合度)明显更高。每一列中数值最高者以绿色突出显示。
数智前线观察到,目前,国内和海外数据标注厂商都在提升数据标注的自动化水平,将数据标注的任务从人工手动操作的劳动密集型向平台化的自动标注方向去转变。海外的Scale AI、海天瑞声、澳鹏以及整数智能,都有自己的自动化数据标注平台。
除了专业数据服务商,一些企业内部的标注场景也在自动化。以自动驾驶场景为例,特斯拉此前组建了规模庞大的企业内数据标注团队,但从2022年它们开始裁撤辅助驾驶系统开发的数据标注团队规模,通过Dojo超级计算机来对海量视频数据做无人监管标注和训练。
数据智能服务商每日互动总裁刘宇告诉数智前线,在当前激烈市场竞争下,对数据标注服务商而言,将自己的服务能力沉淀为标准化产品,对企业而言能提升竞争的门槛,“同样的劳动力能更高效标注,标注质量以及供应稳定度更高”。
不过,行业内也认为,这种自动化的趋势并不意味着标注任务和专业服务商没有了用武之地。实际上,随着AI朝向垂直场景落地,专业领域里复杂任务对人工标注的需求是在增加的。
“数据标注难度越来越高,当数据自动化程度越高,例如AI可以完成90%自动标注,剩下10%也更加关键。” IDC中国高级分析师李浩然告诉数智前线。
一家AI应用厂商此前也告诉数智前线,单点的拉框打标工作,AI可能也能完成,但许多更专业的领域知识标注,只能通过人工完成。
另外推理模型出现后,也非常需要思维链相关的数据。“它非常需要理解业务的专业人员,通过规则和模型参数的配置,来更好地拆解问题。“
李浩然也提到,当数据可以被自动化标注、合成时,其可以为模型带来的价值也会更低,企业会投入更多资源来人工标注更复杂的问题。“之前的教育题目可能是初高中,现在可能是大学题目,另外之前的图片标注只需要圈出人脸,现在还需要输入文本来理解图片表达的含义,以及其中的结构关系。”
这些趋势下,数据标注领域的演进方向也变得明晰。
一方面,行业的准入门槛从劳动密集性向技术密集型以及更高专业门槛演进。另外,由于玩家竞争的重心向技术能力、场景资源等复合性能力转变,在更多玩家入场的同时,行业内的淘汰赛也已经同步展开,市场的竞争已经变得更加激烈。
上一篇:中国第一机场,要易主了