开源模型三城记
创始人
2025-07-30 10:03:08
0

在人工智能的领域,开源模型宛如三城鼎立。纽约代表着创新的活力,众多顶尖科研团队在此汇聚,不断探索新的算法和架构,犹如那繁华都市中永不落幕的科技盛宴。伦敦则蕴含着深厚的学术底蕴,古老的学府与现代的研究相互交融,为开源模型提供了坚实的理论基础,宛如一座知识的宝库。东京则展现出独特的工业实力,将开源模型与实际应用紧密结合,推动其在各个领域的广泛落地,恰似那充满活力的工业之都。这三座城市,共同书写着开源模型的精彩篇章,引领着人工智能的未来发展。


赶在上海世界人工智能大会WAIC结束后,抢在OpenAI发布GPT-5前,北京的智谱开源了新一代大模型GLM-4.5。仅在今年7月更新的开源模型,至少还包括了K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3,霸占了榜单的整个头部。这是中国与美国在AI领域的前沿竞争,也是北京、上海与杭州自己的三城演义。


美国发布AI行动计划之后,紧接着中国举办了一届规模空前的WAIC,展示中国将加快向全世界部署开源AI。而美国越来越忌惮中国的开源技术栈,无论是白宫的开源AI策略、OpenAI推迟发布的开源模型,还是Meta斥巨资打造超级AI梦之队后给Llama带来的悬念,在开源领域,美国遭遇的可能是又一个电动车的故事,至少榜单已经开始雷同了。


DeepSeek启动了中国开源模型的飞轮效应,也引发了一波又一波的价格战。开源模型就像是另一个在产业政策推动下处于“飞轮与内卷”中的行业。它们在全球争夺各种性能测试榜单最后那些百分点,展示各自的城市的雄心。


开源之都,继续开源


杭州最先举起了开源的大旗,从互联网之城向AI开源之城转型。前阵子黄仁勋在他年内第三次来中国时,将它称为“中国的硅谷”,下次一定要去看看。


自年中开源Qwen3以来,阿里巴巴已经陆续更新了统一多模态理解与生成模型Qwen VLo、编码模型Qwen3-Coder,以及升级版的基础模型Qwen3-2507系列,最近又发布了全球首个开源MoE视频生成模型。此外,阿里巴巴还悄悄分享了中文方言的合成模型Qwen-TTS与支持92种语言的互译模型Qwen-MT。不少都集中在最近一周泄洪式更新。


其中,Qwen3-Coder的旗舰模型,性能足以对标Claude Sonnet-4。它的总参数高达4800亿,每次激活350亿参数,最大的创新之一,在于具备智能体功能,一条命令接管整个代码仓库,实现“在世界中自主编程”。但它的平均价格只是Claude 4的1/3。如果还嫌贵,可以自己部署。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”,HuggingFace首席执行官Clement Delangue更是在X上刷屏推荐。


Wan2.2则首次将MOE架构引入了视频生成。以往,视频生成消耗远高于文本与图像的token,采用MOE架构,可以使模型在推理成本几乎不变的前提下,提升总参数规模。它其实是一个双专家设计。Wan2.2先是将任务交给多个高噪专家构建主体结构,然后再由低噪专家补充细节。阿里团队还在训练中引入了电影工业标准的美学数据,包括光影、镜头与色彩。


开源不仅意味着技术创新,也意味着产品策略更切近社区。与不少模型厂商将“快思考”与“慢思考”整合到一起不同,这次阿里在更新基础模型Qwen3-2507时,仍然区分了非思考版的Instruct与推理版的Thinking。这是基于“与社区沟通和深思熟虑”后的决策。


目前,尽管外面吵得火热,DeepSeek仍然保持平静,只是在儿童节前悄悄丢了一个更新版的R1-0528,让人期待它的下一代大模型会更具“雄心”与“真诚”。DeepSeek领先的MOE、GRPO等技术,已经被对手超越;这个世界上唯一在前沿竞争却又不在乎商业化的AI实验室,也许有足够的定力,在GPT-5发布之后再度出手。


上海与北京紧跟


上海与北京加入开源的三城演义,是被DeepSeek逼出来的。从AI分析机构Artificial Analysis的前沿模型智能趋势就能发现,无论是上海的MiniMax,还是北京的月之暗面或智谱,首个纳入统计的模型都出现在2025年后。尤其是北京的两家,更是首次亮相。好在,它们正在迅速追齐。



上海的MiniMax与北京的月之暗面,一直都是市场“拱火”对象。去年,媒体攒局让两家的投资者坐在一起,尽诉分歧。结果,自去年底DeepSeek激活了开源模型的竞争后,两家初创企业至少在开源路线上达成了一致,迅速卷了起来。年初,MiniMax开源了MiniMax-01,月之暗面发布了K1.5;最近,MiniMax持续一周更新模型,拿出了长上下文推理大模型M1,月之暗面则拿出了同样可以震惊一下硅谷的K2。


竞争太过激烈,月之暗面先开源了K2,上周才发布它的技术报告。除了之前已经披露过的更少的注意力头,更多专家的MOE架构创新,以及与之配合的自研MuonClip优化器与QK-Clip技术,报告还揭示了更多训练细节。为了解决高质量数据不足的问题,提升每token有效学习信号,K2在训练中采用了重述法(rephrasing),把原始文本改写成不同的表达方式,让大模型多学几遍,同时又不至于过拟合,效果高出同一内容重复相同遍数约5个百分点。重述是自动化流水线(pipeline)的。


K2还引入了自我批评奖励机制,增强了对复杂、难以直接验证任务的处理能力,相当于扩展了强化学习阶段的可验证范围,这也是扩展AGI能力边界的关键。


在WAIC前夜,上海的阶跃星辰则拿出了旗舰基础模型Step 3。这个3210亿总参数规模,每次激活380亿参数的模型,在多项基准测试中表现突出,阶跃星辰称之为“最强开源多模态推理模型”。作为推理模型,它具备视觉能力。多模态也正是阶跃星辰最擅长的,CEO姜大昕称,多模态领域也开始向强化学习过渡。这款模型将在7月31日正式开源,接受开发者在真实应用场景中的试用与评价。


为开发Step 3,该团队采用了AFD技术,也就是让注意力(Attention)模块与前馈神经网络(FFN)解耦为专门的子系统,更好地适应不同的硬件配置和性能需求,优化解码效率。在知乎上,该团队员工Yibo Zhu进一步解释称,DeepSeek之前提出的DeepEP(适用专家并行的数据库)方案,本质上就是AFD的特例;对于国产芯片设计来说,AFD技术也降低对单个芯片的高性能的过度依赖。


在WAIC结束后,智谱也加入了进来,开源了旗舰混合推理模型GLM-4.5与GLM-4.5-Air,以及这两个模型的基础模型(Base)与向量化版本(FP8),均采用MIT开源许可证发布,可用于商业用途和二次开发。GLM-4.5拥有3550亿总参数量,其中320亿活跃参数;GLM-4.5-Air更轻巧些,拥有1060亿总参数量,其中120亿活跃参数。可以说是用更小的参数规模实现了相当水平的智能水平。除了比主流大模型更便宜,它的生成速度最快可至100tokens/s,超越了其他模型。此外,与Qwen3-Coder或K2类似,GLM-4.5也是一款智能体友好的模型,这是一大趋势。



三城演义与地缘竞争


阿里巴巴选择开源,无论是在技术路径上还是商业模式上,都与它云巨头的身份相契合。阿里云创始人王坚认为,与其他大多数生意都是“从商业出发”,用技术来支持商业不同,云计算必须是“先有技术”,而且也不是所有技术都能成为生意。AI何尝不是如此,电力、算力最终转化成token,模型要先有智能才能被应用所调用。


在面对黄仁勋时,王坚承认“开源模型正在改变我们的业务”。开源的生态,最终服务于阿里云,与通义大模型适配到一起,也对齐了阿里“让天下没有难做的生意”的使命。在互联网时代,免费就是平台经济的一种放大规模效应的竞争策略,在AI时代这一套同样有效,Qwen系列模型的累计下载量已超4亿次,衍生模型超14万,位居全球排名第一。


而对于DeepSeek这个独特的本土团队而言,开源不仅仅是商业策略,更是一种文化,吸引顶尖人才,逐步成为全球硬核创新贡献者。DeepSeek证明了通往AGI的路将是由本土华人与硅谷华人趟出来的。


不过,北京仍然具备显著的人才优势。黄仁勋说全世界一半的AI人才是华人,中国一半的顶尖AI人才应该在北京。Meta狂挖硅谷华人,几乎都是中国本科毕业的,再细节探究它新近曝光的超级智能实验室全名单,就可以发现清华贡献了最多的AI研究人才,北大同样贡献巨大。事实上,年初,DeepSeek横空出世的时候,胡佛研究所(Hoover Institution)的一份报告,就发现它的人才也离不开这两所高校。


这些顶尖人才也可以通过北京的开源模型厂商证明自己的价值。在发布K2后,月之暗面员工自述称,开源意味着更高的技术标准,会倒逼自己做出更好的模型,与AGI的目标更一致;唯一的遗憾就是,这条路不是自己率先走通的。相比投放流量,“硬实力就是最好的推广”。这一点,对于开源模型,对于AI人才而言,都同样有效。


上海正在奋起直追。从史上最大规模WAIC上,“东道主”的阶跃星辰与MiniMax动静就可以见一斑。MiniMax创始人闫俊杰在WAIC上的主旨演讲,被主办方恰好排在了辛顿的开幕式演讲之后。后者也是这届WAIC最大亮点之一。此前,Minimax五连发,终于让一心想做“模都”的上海,终于出了个能打上国际榜单的大模型。今年3月,上海将规划中的智算规模,从去年底“算力浦江”规划到2025年底的30EFLOPS,提升到2027年底的200EFLOPS,短短两年,足足增长6倍。


在开源路线上,深圳也重视起来了。最近,腾讯在WAIC上开源了混元3D世界模型1.0,并披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。


在中国,开源也在拥抱产业政策。在这一届WAIC上,《人工智能全球治理行动计划》提议打造跨国开源社区和安全、可靠开源平台,算是中国对美国《AI行动计划》的官方回应。智能将是出海的“新新三样”。新加坡数码发展及新闻部(MDDI)部长杨莉明就欢迎DeepSeek之类高性价比开源模型,帮忙覆盖东南亚数百种语言的市场需求。此外,中国的行动计划还提出要“公共部门率先部署应用”。这些城市的公共部门,一定会更加带头卷起来的。


创投机构Benchmark的Bill Gurley看到了这一点。他认为中国开放AI模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更容易。这种既开放又竞争的生态,创新力特别强劲,将轻松超越任何一家专有模型。底下,一位AI创业者评论称,任何“和它在一起”的国家,都会认识到这是软实力的新杠杆。这也是美国担心的。与特朗普关系越来越密切的奥特曼,就在6月底一份关于中国AI的研究中点名了智谱。


有创新的卷,要好过没有创新的。在卷的过程中暴露的问题,最终也将在应用落地时得以淘汰、迭代与进化。王坚非常喜欢“群体心智”(collective mind)这个概念。在他看来,AI是一场马拉松,今天的领先更像是进入下一阶段的一个“过程”而已。但是,“集体”推动可以实现非常快速的迭代,这也是中国AI“人才红利”的意义所在。


这轮你跑得快,下一轮可能换另一个人跑得快;节奏可能会慢下来,但只要你够好,你就还能追上来……这不是残酷,这是健康。因为你和最有竞争力的人在一起工作,这正是新技术诞生的方式。


事实上也是如此。这一个月来,全球最强开源模型的称号,已经迅速在R1-0528、K2、Qwen3-2507与GLM-4.5不断流转。现在的悬念是,在OpenAI发布GPT-5后,它会专注于拿出一个开源模型,从中国企业头上抢走桂冠吗?


但也许更重要的,是中国在开源的基础上建立起技术栈,在token经济上足以与美国的闭源前沿模型竞争。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

相关内容

热门资讯

又一起因钾过低死亡!医生发现:... 声明:本文根据权威资料结合个人观点撰写,为原创内容,文末已标注文献等相关信源,在今日头条全网首发72...
英媒:塞斯科转会费预计接近70... 直播吧7月30日讯 英媒talksport消息,塞斯科转会费预计7000万欧元,今夏多次引援告吹的纽...
朔州:消防宣传进景区!为文物古... 暑期旅游旺季 景区迎来人员高峰 为加强人员密集场所的消防安全工作 提高工作人员和游客的消防安全意识 ...
广州华康中医医院:警惕类风湿的... 不少类风湿性关节炎患者,在发病初期常误以为自己“感冒了”。广州华康中医医院指出,这种以“全身乏力、低...
为什么孩子会出现心理障碍?父母... “刘老师,我得了强迫障碍,并且有强烈的抑郁倾向。我很痛苦,不知自己该怎么办?” “我觉得自己有问题...
3家“川字号”新国企在成都揭牌... 7月28日,四川景区发展集团、四川省城市更新集团、四川蜀道轨道交通集团揭牌仪式在成都举行。活动上,3...
黑龙江林区公安:畅行鸳鸯峰 护... 民主与法制讯(记者王立三□孙大连 通讯员王宇)“爬鸳鸯峰时把包落在了休息区,正急得团团转呢,巡逻民警...
中康晟兴深化科学减重模式,应对... 7月25日,由中国健康促进与教育协会主办的中国健康知识传播激励计划2025年健康体重科普传播大会在北...