2025 年,AI 行业最重要的变化,是实际业务终于赶上了过去的“炒作”叙事。
AI 正在成为社会最重要的经济增长动力之一。截止 2025 年 8 月,16 家头部 AI-first 公司的年化总收入达到 185 亿美元,进入百亿美元时代。
从单纯的前沿技术研究,AI 更像是一个真正的生产系统,重塑着社会的方方面面:能源市场的供需、引导资本的流动、影响新的政策框架制定。就像 Sam Altman 所说:“社会与技术必须共同演进,这是一个持续、相互适应的过程。”
GPT-5、Sora 2、MCP 协议、自建 AI 数据中心......如何理解 2025 年这些重大进展背后的影响?
Nathan Benaich 发布的《State of AI Report(2025)》像一份 AI 全景地图,把这一年中散落在研究、行业、政治、安全等领域的成千上万个“点”联系在一起,形成了一张巨大的“网”。
Nathan Benaich 是知名风投机构 Air Street Capital 的合伙人,这是第 8 年发布年度报告。
这份报告的重要价值在于,它帮助我们理解这些单点背后的逻辑,以及 AI 是如何从一项技术研究,演变为一个重塑社会结构和经济基础的生产系统。
哪些赛道在挣钱,谁挣钱了,一目了然。当然,也不止这些。313 页,基本覆盖了 AI 的全方面,Founder Park 选取了其中的要点内容,形成了这份报告精华提炼。
报告结尾,还对未来一年的 AI 发展提出了预测,比如一款 AI 生成的游戏会成为 Twitch 年度热门游戏,中国的某个模型会在排行榜上超过硅谷的这几家模型,感觉不少都会实现。
一、2025,推理之年
报告将 2025 年定义为“推理之年”。OpenAI 的 o1-preview 和 DeepSeek 的 R1-lite-preview 代表了推理模型的进步。
2024 年年末,OpenAI 发布了推理模型 o1-preview,首次展示了利用“思维链”(Chain of Thought)作为内部草稿,通过强化学习来解决复杂问题的能力,在代码和科学等重推理领域表现出色。
在 o1-preview 发布后不到 2 个月,DeepSeek 快速响应,也发布了其推理模型 R1-lite-preview。R1-lite-preview 在 AIME 2024 上以 52.5 vs 44.6 的得分实际击败了 o1-preview。
从 2024 年 9 月到 2025 年 8 月,各大公司密集发布了具备思考、推理能力的模型,如 o1、Gemini 2.0 Flash Thinking、DeepSeek R1、Claude 3.7 extended thinking 等。
榜首轮流占,OpenAI和DeepMind各领风骚
模型发布时机成为一门学问,什么时候发布新模型,可能会影响到这个模型在排行榜的榜首停留的时间。
据统计,主要的两个排行榜,LMArena 和 Artificial Analysis Leaderboard 上,Gemini 占据 LMArena 榜首 249 天,OpenAI 占据 Artificial Analysis Leaderboard 榜首 43 周。
至于开源模型的榜单,DeepSeek 占据绝对优势。
报告中还提出,几家主要厂商的模型发布时间,都会在自家的融资活动之前,几乎已经成了固定的搭配了。平均而言,Anthropic 会在融资前 44 天发布一款新模型,OpenAI 会在融资前 50 天发布新模型。
OpenAI仍是行业标杆,但优势微弱
OpenAI 在前沿研究领域依然是行业标杆,但领先优势正变得愈发微弱。
在各大模型能力测评排行榜上,OpenAI 的 GPT-5 仍然领先,但和其他家的模型差距在逐渐缩小。来自中国的 DeepSeek, Qwen 和美国的 Gemini, Claude 等模型,在关键的推理与编码能力上仅落后 GPT-5 数个百分点。
模型基准测试基本失效,实用性成唯一标准
报告指出,传统基准测试正因“数据污染”和“结果方差”而逐渐失效。
许多基准测试对硬件、随机种子等无关变量高度敏感,且数据集规模过小,导致测试结果波动巨大。同时,还存在严重的数据污染和系统性操纵问题。
例如,Meta 在 LMArena 排行榜上存在“刷分”行为。在正式发布前,Meta 会用多达 27 个内部版本的 Llama-4 进行测试,并只挑选表现最好的版本公布。
报告认为,在基准测试可信度下降的同时,AI 真正价值体现在实用性上。AI Agent、世界模型以及在代码、科学、医学等领域的专用工具正变得“真正有用”,才是衡量 AI 能力进步的更重要标尺。
二、新丝绸之路:中国的开源模型
开源模型正成为中国新的丝绸之路。
在开源领域,报告观察到:中国正取代 Meta,成为全球开放权重生态系统的新领导者。
在 Meta 的 Llama 4 因技术路线选择(押注于更复杂的 MoE 模型)而发展放缓的同时,以阿里巴巴的通义千问(Qwen)为代表的中国模型,在用户偏好、全球下载量和模型采用率上实现了反超。
2024 年初,中国模型在 Hugging Face 上的新微调模型中仅占 10% 到 30%。而现在,仅 Qwen 一个模型就占了每月新衍生模型的 40% 以上,而 Llama 的份额则从 2024 年末的约 50% 下降到仅 15%。曾经被视为“Llama 仿制品”的 Qwen,现在正成为越来越多全球开发者的构建基础。
报告指出,中国开源生态的崛起得益于其完善的工具链(如 verl、OpenRLHF)和宽松的开源许可证(如 Apache-2.0),这些因素都极大地降低了全球开发者的使用和贡献门槛。
报告中还专门提到了 Kimi 发布的 K2 模型:采用改进优化器 MuonClip 进行训练,提供了更高的稳定性,并推动了面向 Agent 工作流的开放权重模型的发展。
三、Agent崛起,结构化、持久的记忆成新目标
2025 年,AI 智能体框架的生态系统并未走向整合,反而进入了一场有组织的“百家争鸣”:数十个相互竞争的框架共存,每个都在研究、行业或轻量级部署中开辟出一个细分市场。
LangChain 框架如今只是众多选择之一,不同的框架在各自的细分领域找到了自己的生态位。例如,AutoGen 和 CAMEL 在多智能体和对话研究中占据主导;MetaGPT 将智能体成功地应用于结构化的软件工程工作流;LlamaIndex 则专注于企业级的 RAG 应用;而 LangGraph 基于图的编排方式,因其可靠性和可观测性,赢得了企业开发者的青睐。
像 OpenAgents、CrewAI 等类似的轻量级框架,也在向为特定任务提供可组合、高度优化的框架方向发展。
此外,关于 AI Agent 的研究论文也在爆炸式增长。
智能体记忆:从上下文窗口到终身记忆系统
智能体记忆正在从过去临时的、被动的上下文管理,转向了结构化的、持久的记忆系统。
前沿研究不再是如何简单地扩大上下文窗口,而是动态的记忆巩固、遗忘和反思机制,智能体可以在长期的交互和任务中,发展出连贯的身份和记忆。
记忆不再是一个被动的缓冲区,正在成为支撑推理、规划和身份认同的主动基底。当前活跃的研究领域包括:
状态追踪与记忆增强型智能体:通过显式的状态管理来增强推理能力。
持久记忆与情景记忆:将长期存储与短期上下文相结合,以实现连续性。
上下文保留:通过自我提示和记忆回放等技术,在长时间的任务和交互中保持信息的关联性。
字节的Computer Use Agents研究大幅领先
Computer Use Agents(CUA)的能力在过去一年取得了飞跃式进步,尤其是字节跳动的原生 GUI Agent“UI-TARS-2”,在 OSWorld、WindowsAgentArena 等多个主流基准测试中创下了最佳纪录,大幅超越了 OpenAI 和 Anthropic 的同类研究。
“UI-TARS-2”系统在网页游戏上的平均得分达到了 59.8 分,大约是人类水平的 60%。但在需要长期记忆和策略规划的任务上,能力非常脆弱,平均游戏技能比人类低了约 40%。
四、AI正在成为“科学家”
此外,报告还提到了一个重要趋势,即 AI 的角色正在从“工具”转变为“科学合作者”。AI 不再仅仅是回答问题的助手,而是能够主动参与生成、测试和验证新科学知识的全过程。
新的“AI 实验室”组织了由首席研究员、评审员、实验员等不同 Agent 角色组成的联盟,它们能够构思、引用、运行代码,并将结果交还给人类团队,从而缩短了从假设到验证的循环。
例如,DeepMind 的 Co-Scientist 系统,该系统基于 Gemini 2.0 的多智能体系统能够自主提出用于治疗血癌的候选药物,并在后续的盲测中提出了新的科学机制,且均得到了实验证实。同样,斯坦福大学的“虚拟实验室”也展示了 AI 在设计全新生物分子方面的能力。
五、MCP已经成了行业默认协议
Anthropic 在 2024 年末提出的模型上下文协议(MCP),迅速成为了 AI 行业连接模型、工具和数据的默认方式。
2025 年,MCP 几乎统一了整个行业:OpenAI 将 MCP 部署到 ChatGPT、其代理 SDK 和 API;谷歌将 MCP 添加到 Gemini;微软将 MCP 集成到 VS Code,并开始将其推广至 Windows 和 Android Studio。
据 Zeta Alpha 的数据,MCP 协议在学术界的引用量是谷歌同类协议的 3 倍。安全研究人员估计,全球已有超过 15000 个 MCP 服务器在运行。
六、大家都是草台班子,捅的篓子都不少
报告还整理了过去一年,几家主要模型厂商的重大事故。
OpenAI:GPT-5 发布因为路由器系统故障遭差评、4o 下架引来用户抗议。
Anthropic:Claude 降智的问题,在⽤户持续数⽉的投诉后,Anthropic 公司终于解释 Claude 系统存在三个相互交织的漏洞,耗费⼀个多⽉才彻底排查修复。
Meta:在 2025 年 Meta Connect ⼤会的现场演示中,Meta 的智能眼镜出现了两次技术故障。扎克伯格将问题归咎于 WiFi 信号:“整件事最具讽刺意味的是,你花数年时间研发技术,结果演示当天的 WiFi 却拖了后腿”。
以及,Llama-4 涉嫌数据污染,通过过度拟合误导基准测试,整体表现平平。
Grok:各种反犹太主义和种族主义言论。今年五月,Grok 曾主动发表过关于南非“自人种族灭绝”的激烈言论。在回答敏感问题时,Grok 似乎会先征求马斯克的意见。xAI 在致歉中将此行为归然于“遗留代码问题”。
七、AI-first 公司“很赚钱”
AI-first 公司“很赚钱”,处于收入高速增长期
报告数据显示,截至 2025 年 8 月,16 家领先的 AI-first 公司年化总收入达到了 185 亿美元。
同时,据 a16z 数据,企业级和消费级 AI 应用的中位数年化经常性收入(ARR)在第一年分别达到了 200 万美元和 400 万美元以上。
报告还引用了一个“精益人工智能排行榜”(年度经常性收入超过 500 万美元、员工少于 50 人,成立不足 5 年),包括 Midjourney、Surge、Cursor、Mercor、Lovable 等公司。上榜的 44 家小型 AI 公司,总收入已超过 40 亿美元,平均每位员工年创收超过 250 万美元。
比起SaaS同行,AI 公司的早期收入增长速度更快
报告对 Stripe 上收入增长最快的 100 家 AI 公司进行分析后发现,顶尖 AI 公司从创立到达到 500 万美元 ARR 的速度比传统 SaaS 公司快 1.5 倍。2022 年之后成立的新一代 AI 公司,增长速度达到了惊人的 4.5 倍。
Standard Metrics 的数据指出,AI 公司的增长势头不仅限于初创阶段,在增长阶段同样也表现出色。无论是年收入处于 100 万至 2000 万美元区间的成长型 AI 公司,还是年收入超过 2000 万美元的成熟型 AI 公司,其增长表现自 2023 年第三季度以来均持续优于所有行业的平均水平。
在上个季度,年收入在 100 万至 2000 万美元的 AI 公司季度收入增长率为 60%,而年收入超过 2000 万美元的 AI 公司增长率为 30%,两者的增长率均为行业平均水平的 1.5 倍。
付费购买AI的企业越来越多了
报告指出,企业端的强劲需求是推动收入增长的核心。据金融科技公司 Ramp 的数据表明,美国企业的付费 AI 采用率已从 2023 年初的 5%升至 2025 年 9 月的 43.8%。同时,客户黏性显著增强,12 个月留存率达到 80%,平均合同价值在两年内从 3.9 万美元涨至 53 万美元。Ramp 预测,在 2026 年,平均合同价值将达到约 100 万美元。
此外,据 Ramp 对超过 4.5 万家美国企业的支付数据,在付费 AI 应用方面,科技行业领先(占比 73%),金融行业紧随其后(占比 58%)。在供应商选择方面,Ramp 客户对 OpenAI 模型表现出强烈的偏好,占据 35.6%的份额,Anthropic 以 12.2%位居第二。Google、DeepSeek 和 xAl 的使用率非常低。
八、这些风口,谁真的赚到钱了?
Vibe Coding 大获成功,但不知道到底谁盈利了
AI 编程赛道独角兽涌现,可以说是今年比较成功的 AI 赛道。
Lovable 成立 8 个月后估值 18 亿美元、一人公司的 Base44 以 8000 万美元的估值被 Wix 收购。a16z Garry Tan 表示,在他们增长最快的这批公司里,有 25% 的公司 95% 的代码是由 AI 编写的。
尽管估值很高,但 AI Coding 公司仍面临成本效益问题,新模型价格高,不涨价就会亏损,而用户并不接受旧模型。
部分⾼级⽤户单席位使⽤ Claude Code 的⽉成本已超过 5 万美元。Cursor 和 Claude 已实施更严格的使⽤。
Cursor 的定价能⼒受限,因其核⼼销售成本来⾃ Anthropic/OpenAI 的 API 价格。当这些上游供应商调整价格、速率限制或者默认模型时,毛利率就会受到影响。
毛利率主要受底层模型 API 和推理成本的影响,而高 token 消耗和流量获取则会挤压利润空间。令人惊讶的是,多家头部 AI 公司在报告毛利率时并未计入免费用户的运维成本。即便营收增长迅猛,代码服务仍面临盈利压力。提升利润率的核心手段包括:摆脱第三方 API 转向自研或微调模型、实施激进的缓存与检索优化策略,以及探索广告或基于效果的定价模式。
音频、虚拟形象和图像生成赛道的收入急剧加速
在具体应用赛道方面,音频与视频生成领域的头部公司实现规模化营收。报告提到,ElevenLabs、Synthesia、Black Forest Labs 等市场领导者的年收入均已达到数亿美元级别。其中,ElevenLabs 的收入在短短 9 个月内翻倍,达到 2 亿美元。
AI搜索正在成为高意向获客渠道
根据 Similar Web 的数据,目前由 ChatGPT 引荐的零售访问转化率已超过所有主要营销渠道的测量值。转化率同比上升约 5 个百分点,从约 6%(2024 年 6 月)增长至约 11%(2025 年 6 月)。虽然 AI 引荐流量占比仍较小,但这些用户决策更明确、更接近购买阶段。零售商需通过展示结构化产品数据、价格与配送选项,以及针对 A 驱动意图优化的落地页来应对变化。
在最近的 Dev Day 上,ChatGPT 已与 Etsy 和 Shopify 实现即时结算功能,并开源了与 Stripe 合作开发的“自主代理商业协议”,便于开发者实施智能结算系统。
浏览器成为新的AI战场
在主打 AI 功能的浏览器 Dia、Comet 之外,Google、OpenAI、Anthropic 也都纷纷推出基于浏览器的 AI 助手,浏览器正成为新的 AI 战场。
九、芯片领域,英伟达仍是老大
报告提到,NVIDIA 在 AI 芯片市场依旧占据主导地位。NVIDIA 的市值突破 4 万亿美元大关,同时其定制芯片和新型云服务也在发展中。
报告特别提到,在明确引用计算硬件的开源 AI 论文中,约 90%都提到了 NVIDIA 的产品,占据绝对的压倒性优势。
同时,报告对 2025 年 1 月至 6 月的 6356 篇论文进行了分析后发现:
大型语言模型(LLM):偏爱数据中心级 GPU,如 AMD 的 MI300 和 NVIDIA 的 H100/H200。
机器人与边缘计算:NVIDIA 的 Jetson 系列是绝对主导。
特定模态:苹果的 M4 芯片在多模态和语音领域表现突出,而 NVIDIA 的 RTX 4090 则主导了 3D 模型生成。
十、人形机器人很火,但实际部署的不多
人形机器人很火,但实际部署的不多
⽬前尚无地区实现真正规模化部署。
中国企业以更低成本出货更多设备,但买家主要是研究机构、试点项目或政府中心。美国团队在操控性和自主性方面表现更强,但硬件成本高昂。中国的制造优势固然重要,却无法确保在设计、分销或运营环节取得成功。事实上,中国最终可能沦为西方品牌的机器人代工厂。
AI推理能力正在走向物理世界
报告观察到,AI 的推理能力正从纯粹的语言层面,延伸至与物理世界的交互。The “Chain-of-Action” 模式,即在执行底层控制前制定明确的中间计划,正在成为具身推理的标准。
该方法由 AI2 的 Molmo-Act 在 2025 年首次展示,并被 Gemini Robotics 1.5 迅速采用。机器人在执行具体动作前,会先生成一系列明确、可解释的中间步骤或规划。这种“先规划后行动”的架构,极大地提升了机器人在执行长序列、复杂任务时的可靠性和可解释性。
例如:
AI2 的 Molmo-Act:在接收到高级指令后,会先生成深度图、运动轨迹草图等中间“伪像”,再由解码器转化为具体的电机指令。
谷歌的 Gemini Robotics 1.5:同样采用该架构,由一个高级规划器生成结构化的行动计划,再由底层的视觉-电机策略负责执行。
十一、AI的工业化时代已经开始
报告指出,随着“星际之门”(Stargate)这类吉瓦级数据中心的出现,人工智能正式进入工业化时代。
由 OpenAI、软银、甲骨文等联合推动的 Stargate 项目,计划在 4 年内投资 5000 亿美元,建造一个总容量达 10 吉瓦、包含超过 400 万个 GPU 的庞大计算集群。
同时,电力供应已经取代芯片本身,成为新的制约因素。Anthropic预测,到 2028 年,训练顶尖模型将需要 5 吉瓦的数据中心;北美电力可靠性公司(NERC)报告称,未来 1-3 年内可能出现电力短缺;SemiAnalysis 预测,如果预测的 AI 数据中心需求完全实现,到 2028 年美国将出现 68GW 的隐含电力缺口。
十二、除了向其他国家输出主权AI, OpenAI还在搭建完整的AI技术栈
能源富足的国家正通过与 OpenAI 商谈政府合作⽅案,抢占通往超级智能的⻔票:这包括正式合作建设国内 AI 数据 中⼼能⼒,向公⺠提供定制版 ChatGPT,筹集资金启动本土 AI 产品等。
在 2020 年搁置机器人项目专注于语言模型后,OpenAl 已转变方向,如今正推动从定制芯片、数据中心到模型设备及具身 AI 的全产业链垂直整合。
十三、相比免费用户,付费用户更能感受到生产力的提升
AI不再是“实验”,而是新的基础设施
同时,报告还发布了其首届人工智能从业者调查结果。研究者对 1200 多名受访者进行调查发现,95% 的专业人士在工作或家庭中使用 AI ,76% 的专业人士自行付费使用 AI 工具。AI 已从实验性技术转变为具有明确价值、用户愿意付费的核心生产力工具,正成为新的基础设施。
付费用户更能感受到生产力的提升
有趣的是,调研发现,认为 AI 没有带来帮助或导致生产力下降的用户中,有 60%是免费用户。相比之下,在感受到生产力提升的用户群体中,免费用户的比例仅为 15%。
AI正在改变用户的信息获取习惯
报告指出,AI 不再仅仅是一个新工具,已经开始改变用户核心,尤其是在信息获取方面。
在使用场景上,“提升生产力和效率”、“编码与技术辅助”以及“研究与知识学习”是用户使用 AI 最主要的三大动机。
同时,报告在对使用生成式 AI 工具取代现有互联网服务的受访者调查中发现,对传统搜索引擎(主要是谷歌)的影响极大。数据显示,虽然很少有用户完全抛弃传统搜索,但绝大多数受访者已将生成式 AI 作为处理复杂查询的“第一站”,用户信息检索的入口正在发生结构性转变。
十四、AI 实验室一天的花费比 AI 安全科学组织一年还多
在安全领域,报告指出,负责监督和研究 AI 安全的外部独立组织的资源严重不足。AI 领域内最顶尖的人才仍密集地集中在各大实验室的内部安全团队中。
报告数据显示,11 家最著名的美国 AI 安全研究机构在 2025 年的预计总支出约为 1.33 亿美元。AI 前沿实验室同年的总支出估算约为 920 亿美元。顶尖 AI 实验室平均一天的开销,几乎是所有主要外部安全组织一年预算总和的两倍。
十五、未来12个月的十大预测
最后,报告也提出了对于未来 12 个月的十大趋势预测。
一家大型零售商报告称,超过 5%的在线销售额来自 AI Agent 结账,同时 AI Agent 广告支出达到 50 亿美元。
一家主要的人工智能实验室将重新开始开源其前沿模型,以赢得现任美国政府的支持。
开放式 AI Agent 将独立完成一项有意义的科学发现的全过程(包括提出假设、进行实验、迭代和撰写论文)。
一次由深度伪造(deepfake)或 AI Agent 驱动的网络攻击,将引发北约(NATO)或联合国(UN)首次关于人工智能安全的紧急辩论。
一款实时生成的视频游戏将成为 Twitch 上年度观看次数最多的游戏。
“人工智能中立”将成为一种新的外交政策原则,因为一些国家无法或未能成功发展自己的主权 AI。
一部大量使用人工智能制作的电影或短片将赢得广大观众的赞誉,但同时也会引发强烈的反对和争议。
一个中国的 AI 实验室将在某个主要排行榜(如 LMArena/Artificial Analysis)上超越长期由美国实验室主导的前沿地位。
数据中心“邻避主义”(NIMBYism - Not In My Back Yard)将在美国掀起风暴,并影响 2026 年某些中期选举或州长选举的结果。
特朗普将发布一项行政命令,试图禁止被最高法院(SCOTUS)裁定为违宪的州级人工智能立法。
本文来自微信公众号:Founder Park,编译:Founder Park