Grok 4 强在多方面。它拥有更强大的数据处理能力,能够快速且精准地对海量数据进行分析和提取,比以往版本效率大幅提升。在模式匹配上更为精准细致,能更好地适应各种复杂的数据结构和格式,无论是文本、日志还是其他类型数据,都能准确识别关键信息。其扩展性也显著增强,方便与其他系统和工具集成,为用户提供更全面的数据处理解决方案。而且,Grok 4 的用户体验得到了极大优化,界面更友好,操作更简便,让数据处理工作变得轻松高效,为企业和开发者在数据领域的探索与应用提供了强有力的支持。
就在几天前,马斯克的xAI正式发布Grok 4大模型,号称世界最强AI。
我们团队这几天仔细研究了Grok 4相关的研究资料,有一些新发现,对未来AI产业趋势及算力展望具有一定价值,遂整理成此文,用一篇文章的篇幅给大家介绍清楚Grok 4的发展脉络。
核心要点:
Grok 4的核心创新是在训练阶段引入多智能协作,即“多智能体内生化”;
OpenAI o1实现了“思维链内生化”;Gemini实现了“多模态内生化”;Grok 4则是率先走出了“多智能体内生化”的一步,将进一步推高基座模型的性能上限,Agent走向2.0时代;
预训练、后训练、测试时均存在Scaling Law。过去两年以预训练为主,今年开始后训练、测试时推理需求快速增长,新一代大模型军备竞赛已启动,算力需求持续指数级增长;
Grok 4在各大Benchmark表现出众,但Benchmark测试污染严重,结果仅供参考,经实测发现Grok 4现阶段编程能力较弱,未来将单独推出Coding版本模型。
下面我们正式开始。
一、大力出奇迹,性能登顶各大Benchmark
Grok 4是在xAI自研的Colossus超算上训练而成的,其训练规模远超前代模型,计算资源投入为 Grok-2 的100倍、Grok-3 的 10 倍,实现了推理性能、多模态能力和上下文处理能力的跃升。
Grok 4拥有两个版本:Grok 4(月费30美金)、Grok 4 Heavy(月费300美金,是的你没看错,300美金!)。其中Grok 4是单Agent版本,而Heavy是多Agent协作版本,能够同时启动多个Agent并行工作,并最后整合结果。
图:Grok 4 vs Heavy,AlphaEngine
经过实测,Grok 4在多个Benchmark上均取得了优秀的成绩。在GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25等多项测评中,Grok 4都超越了o3、Gemini 2.5 Pro、Claude 4 Opus等模型。
相比这些Benchmark而言,更值得关注的是在被称为AI界“最后审判”的HLE(人类最后考试)中,Grok 4 Heavy获得了44.4%的成绩,此前的冠军Gemini 2.5 Pro只有26.9%,成功率显著提升。
HLE为什么这么重要,它到底是什么来头呢?
二、HLE:人类最后的考试
随着大模型能力的提升,许多最新模型能够在现有Benchmark表现出极高的准确率,导致这些基准失去了分辨模型智能水平的能力。
因此,Center for AI Safety和Scale AI在25年初提出了HLE,即“人类最后的考试”,旨在成为最后一个广泛覆盖学术能力的封闭式基准测试,专注于评估模型在人类知识前沿的表现。
HLE包含2500个极具挑战性的问题,覆盖数学、人文学科、自然科学等超过100个学科,设计为无法通过简单的互联网检索快速回答的问题。
在Grok 4推出之前,市面上最强大的模型在HLE上的表现普遍非常不理想,比如GPR-4o的准确率仅为2.7%。
有趣的是,大模型在给出错误回答的时候,往往表现出极高的置信度,这说明了大模型在处理复杂问题上的短板。
这么说大家可能还感觉不够直观,我截取了HLE测试集中的几个样例问题,大家可以试着解答一下,看看自己能否超越Grok 4 Heavy。
图:HLE问题,考察图文理解,古代文字破译
图:HLE问题,考察数学能力
图:HLE问题,考察计算机,图论
图:HLE问题,考察生物化学
三、Grok 4的核心创新:多智能体内生化
Grok 4 Heavy 的核心创新在于训练阶段即引入多智能体协作,我们将其称为“多智能体内生化”。
何谓“内生化”?我们来回顾一下过去3年大模型的发展历史,你一定会一目了然。
还记得在2022年风靡一时的CoT思维链吗?当时人们为了让大模型达到更好的回答效果,需要引入一些提示词来诱发大模型进行深度思考,比如“Let's think step by step”。
当时,CoT能力属于Prompt工程,是独立于大模型能力之外的一种提示词技巧。
图:2022年的大模型分享,CoT
然后在2024年9月,OpenAI推出的o1模型首次明确将深度思考能力“内化”到大模型中,确立了从Scaling Training到Scaling Inference的训练新范式。
图:2023年的大模型分享,Q*及慢思考
图:2024年的大模型分享,OpenAI o1的“深度思考内生化”
随后2025年2月的DeepSeek进一步验证了将“CoT能力内化”确实能够大幅提升大模型的推理性能。
图:2025年的大模型分享,DeepSeek R1技术原理
回顾历史后,我们能清晰地发现大模型发展的一条主线:大模型逐渐把Prompt工程、深度思考等能力纳入到训练过程中,实现能力内生化。
好比两个学生,其中一个拿着参考书进行开卷考试,另一个真正学习并掌握了知识(内生化)。相比之下,后者往往能考出高分并且发挥更稳定。
融会贯通一定是优于刻板记忆和机械调用的。
Grok 4这次的最大突破,在于将Agent能力也进行了内生化,融入到训练过程中。
Grok 4在训练中融合了Agent调用及实时搜索等能力,将多个Agent之间的debate和self-check变成了大模型的内生能力。
今年5月的一篇论文详细阐述了从AI Agent到Agentic AI的发展趋势,强调从单一任务的执行迈向多代理协作的新范式。
Grok 4这次显然更往前走了一步,率先将Agentic AI所特有的多代理协作、动态任务分配、持久记忆等能力训练进入大模型中,让AI内生化地支持Agentic AI,从而更有效地解决复杂任务。
四、深度思考内生化、Agent内生化、多模态内生化
在OpenAI o1出现之前,人们为了激发大模型的深度思考能力,往往需要学习大量提示词工程技巧,但现在这些技巧已经不再重要。
在Grok 4 Heavy出现之前,人们会通过Manus等Agent工具让大模型处理复杂任务。当Agent能力内生化的方向得到确立,越来越多的AI大厂将加入其中,竞争会愈发激烈。
未来通用型Agent产品需要有新的定位,把重心聚焦于工具链的完备设计、业务知识的注入、记忆层的辅助等,基于更加聪明的内核,解决更多复杂的任务。
其实除了“Agent能力内生化”之外,大模型发展还有一条主线,即:多模态内生化。
通俗点来讲,就是未来大模型应该能够输入任何模态的数据,也能够输出任何模态的数据。
大模型的I/O不应该只能是文本或图片,也应该包含视频和音频。
这在业界被称为Omni Model,算是大家公认的目标。
值得注意的是,这里的“内生化”和大家平时体验到的接收语音输入的大模型有着本质区别。多模态内生化指的是大模型能够原生地理解图片、音频、视频,而非先转码成文字之后再进行理解。
截至目前,OpenAI的所有模型尚不支持视频模态输入,而Google Gemini目前已经能够支持视频模态的输入和输出,毕竟Google旗下的Youtube拥有世界上最大的视频资源库,大家能够从最近推出的Veo 3的惊艳效果上具象化地感受到这个巨大的竞争优势。
图:Veo 3生成的AI视频
既然AI能力内生化是行业发展的大势所趋,那么我们应该清醒地意识到,大模型应用类公司的核心壁垒只有2点:其一是私域数据的持续积累;其二是对应用场景的深度洞察。
五、AI Coding能力的认知分歧,以及Base44带来的启发
Grok 4上线后,经历了全球网友的检阅,实测反馈分歧较大,和xAI官方公布的跑分结果有着一定出入。
其实这点是容易理解的,现在主流Benchmark测评污染太严重。只要一个测评的问题集流传到互联网上,就有可能被加入到大模型的训练集中,导致测评误差。
以前研究员可以通过控制大模型训练集的数据范围来解决测试集污染的问题,但这次Grok 4把实时搜索和Agent能力都内化到大模型中去了,数据污染的边界无法得到有效的人为控制,没有人能够保证Benchmark的关键语料是否漏进训练数据中。
所以Benchmark看看就好,实际还是得看海量用户的实测体验。
根据大家的反馈,Grok 4在代码生成能力上目前还有所不足。Grok 4生成的代码往往存在依赖库丢失、界面UI粗糙等问题。
在使用Grok 4编写游戏时,经常把最重要的pygame库都给丢失了,这也是大家诟病Grok 4的核心原因之一。
马斯克显然也意识到了目前模型的短板,因此放出预期,在未来几个月内将会发布coding模型,值得期待。
大家对大模型Coding能力的理解其实存在一种误区。
人们心目中一个强大的coding model往往是那种能够刷榜LeetCode,精通各种算法的奥赛型选手。
但其实落地到商业场景,人们真正需要的coding model是一个能够整合各种Github repo资源,构建项目级应用的实战派选手。
这其实也是最近炙手可热的Base44获得成功的主要原因之一。
Base44是一家专注于Vibe Coding(氛围编程)的AI初创企业,由以色列程序员Shlomo于2024年12月创立,仅运营6个月即以8000万美元(约5.7亿元人民币)被以色列软件巨头Wix收购,成为该领域首笔并购案例。
相比其他AI Coding产品而言,Base44更加专注于通过自然语言交互生成完整软件系统,覆盖数据库搭建、身份验证、数据分析等功能。
图:Base44核心数据,AlphaEngine
Base44的目标用户主要是无编程经验的普通开发者,他们能够使用Base44一站式创建完整的项目,这是广大用户最朴素的需求。
随着Grok 4将更多实用的Agent能力内生化到模型中,相信未来AI能够真正实现这个效果,媲美全栈高级程序员。
六、Grok 4之后的全球算力需求展望
今年年初以来,海外大模型发展提速,你方唱罢我登场。
图:AI四人转
海外AI基础模型持续提速的根源,在于算力资源的持续投入。据称xAI每个月要消耗10亿美元的资金,预估2025年全年总支出将高达130亿美金,这一数字远超行业平均水平。
Grok4是在xAI自建的Colossus超算中心上训练而成的,依托20万张GPU集群,其计算资源投入是Grok2的100倍、Grok3的10倍,上下文窗口扩展到了25.6万tokens,远超Claude 3 Opus。
Grok4将Colossus超算的80%算力投入推理训练中,这也是直接推动其在HLE基准测试中达到44.4%的核心原因。
Colossus超算中心位于美国田纳西州孟菲斯市,目前已部署35万块H100,总浮点运算能力达到100 EFLOPS,预计下半年将扩展到超过50万张卡。
图:AI巨头算力布局
预训练、后训练、测试时均存在Scaling Law。过去两年以预训练为主,今年开始后训练、测试时推理需求快速增长。
多Agent内生化开了算力需求增长的新维度,在可见的未来将会给全球算力需求带来几何级增长。
图:黄仁勋提出的Scaling Law三重奏得到验证
七、结语:Agent内生化趋势明确,新一代AI训练军备竞赛已启动
随着Grok 4打响了Agent能力内生化的第一枪,各个AI大厂大概率会跟进,训练端仍然有较大的Scaling空间,新一代大模型训练的军备竞赛已然开始。
让我们一起拭目以待!
本文来自微信公众号:Alpha Engineer,作者:费斌杰(北京市青联委员、熵简科技CEO)
下一篇:西宁机场摆渡车的空调