开源模型三城记_家居风水

开源模型三城记

创始人

2025-07-30 10:03:08

0次

在人工智能的领域，开源模型宛如三城鼎立。纽约代表着创新的活力，众多顶尖科研团队在此汇聚，不断探索新的算法和架构，犹如那繁华都市中永不落幕的科技盛宴。伦敦则蕴含着深厚的学术底蕴，古老的学府与现代的研究相互交融，为开源模型提供了坚实的理论基础，宛如一座知识的宝库。东京则展现出独特的工业实力，将开源模型与实际应用紧密结合，推动其在各个领域的广泛落地，恰似那充满活力的工业之都。这三座城市，共同书写着开源模型的精彩篇章，引领着人工智能的未来发展。

赶在上海世界人工智能大会WAIC结束后，抢在OpenAI发布GPT-5前，北京的智谱开源了新一代大模型GLM-4.5。仅在今年7月更新的开源模型，至少还包括了K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3，霸占了榜单的整个头部。这是中国与美国在AI领域的前沿竞争，也是北京、上海与杭州自己的三城演义。

美国发布AI行动计划之后，紧接着中国举办了一届规模空前的WAIC，展示中国将加快向全世界部署开源AI。而美国越来越忌惮中国的开源技术栈，无论是白宫的开源AI策略、OpenAI推迟发布的开源模型，还是Meta斥巨资打造超级AI梦之队后给Llama带来的悬念，在开源领域，美国遭遇的可能是又一个电动车的故事，至少榜单已经开始雷同了。

DeepSeek启动了中国开源模型的飞轮效应，也引发了一波又一波的价格战。开源模型就像是另一个在产业政策推动下处于“飞轮与内卷”中的行业。它们在全球争夺各种性能测试榜单最后那些百分点，展示各自的城市的雄心。

开源之都，继续开源

杭州最先举起了开源的大旗，从互联网之城向AI开源之城转型。前阵子黄仁勋在他年内第三次来中国时，将它称为“中国的硅谷”，下次一定要去看看。

自年中开源Qwen3以来，阿里巴巴已经陆续更新了统一多模态理解与生成模型Qwen VLo、编码模型Qwen3-Coder，以及升级版的基础模型Qwen3-2507系列，最近又发布了全球首个开源MoE视频生成模型。此外，阿里巴巴还悄悄分享了中文方言的合成模型Qwen-TTS与支持92种语言的互译模型Qwen-MT。不少都集中在最近一周泄洪式更新。

其中，Qwen3-Coder的旗舰模型，性能足以对标Claude Sonnet-4。它的总参数高达4800亿，每次激活350亿参数，最大的创新之一，在于具备智能体功能，一条命令接管整个代码仓库，实现“在世界中自主编程”。但它的平均价格只是Claude 4的1/3。如果还嫌贵，可以自己部署。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”，HuggingFace首席执行官Clement Delangue更是在X上刷屏推荐。

Wan2.2则首次将MOE架构引入了视频生成。以往，视频生成消耗远高于文本与图像的token，采用MOE架构，可以使模型在推理成本几乎不变的前提下，提升总参数规模。它其实是一个双专家设计。Wan2.2先是将任务交给多个高噪专家构建主体结构，然后再由低噪专家补充细节。阿里团队还在训练中引入了电影工业标准的美学数据，包括光影、镜头与色彩。

开源不仅意味着技术创新，也意味着产品策略更切近社区。与不少模型厂商将“快思考”与“慢思考”整合到一起不同，这次阿里在更新基础模型Qwen3-2507时，仍然区分了非思考版的Instruct与推理版的Thinking。这是基于“与社区沟通和深思熟虑”后的决策。

目前，尽管外面吵得火热，DeepSeek仍然保持平静，只是在儿童节前悄悄丢了一个更新版的R1-0528，让人期待它的下一代大模型会更具“雄心”与“真诚”。DeepSeek领先的MOE、GRPO等技术，已经被对手超越；这个世界上唯一在前沿竞争却又不在乎商业化的AI实验室，也许有足够的定力，在GPT-5发布之后再度出手。

上海与北京紧跟

上海与北京加入开源的三城演义，是被DeepSeek逼出来的。从AI分析机构Artificial Analysis的前沿模型智能趋势就能发现，无论是上海的MiniMax，还是北京的月之暗面或智谱，首个纳入统计的模型都出现在2025年后。尤其是北京的两家，更是首次亮相。好在，它们正在迅速追齐。

上海的MiniMax与北京的月之暗面，一直都是市场“拱火”对象。去年，媒体攒局让两家的投资者坐在一起，尽诉分歧。结果，自去年底DeepSeek激活了开源模型的竞争后，两家初创企业至少在开源路线上达成了一致，迅速卷了起来。年初，MiniMax开源了MiniMax-01，月之暗面发布了K1.5；最近，MiniMax持续一周更新模型，拿出了长上下文推理大模型M1，月之暗面则拿出了同样可以震惊一下硅谷的K2。

竞争太过激烈，月之暗面先开源了K2，上周才发布它的技术报告。除了之前已经披露过的更少的注意力头，更多专家的MOE架构创新，以及与之配合的自研MuonClip优化器与QK-Clip技术，报告还揭示了更多训练细节。为了解决高质量数据不足的问题，提升每token有效学习信号，K2在训练中采用了重述法（rephrasing），把原始文本改写成不同的表达方式，让大模型多学几遍，同时又不至于过拟合，效果高出同一内容重复相同遍数约5个百分点。重述是自动化流水线（pipeline）的。

K2还引入了自我批评奖励机制，增强了对复杂、难以直接验证任务的处理能力，相当于扩展了强化学习阶段的可验证范围，这也是扩展AGI能力边界的关键。

在WAIC前夜，上海的阶跃星辰则拿出了旗舰基础模型Step 3。这个3210亿总参数规模，每次激活380亿参数的模型，在多项基准测试中表现突出，阶跃星辰称之为“最强开源多模态推理模型”。作为推理模型，它具备视觉能力。多模态也正是阶跃星辰最擅长的，CEO姜大昕称，多模态领域也开始向强化学习过渡。这款模型将在7月31日正式开源，接受开发者在真实应用场景中的试用与评价。

为开发Step 3，该团队采用了AFD技术，也就是让注意力（Attention）模块与前馈神经网络（FFN）解耦为专门的子系统，更好地适应不同的硬件配置和性能需求，优化解码效率。在知乎上，该团队员工Yibo Zhu进一步解释称，DeepSeek之前提出的DeepEP（适用专家并行的数据库）方案，本质上就是AFD的特例；对于国产芯片设计来说，AFD技术也降低对单个芯片的高性能的过度依赖。

在WAIC结束后，智谱也加入了进来，开源了旗舰混合推理模型GLM-4.5与GLM-4.5-Air，以及这两个模型的基础模型（Base）与向量化版本（FP8），均采用MIT开源许可证发布，可用于商业用途和二次开发。GLM-4.5拥有3550亿总参数量，其中320亿活跃参数；GLM-4.5-Air更轻巧些，拥有1060亿总参数量，其中120亿活跃参数。可以说是用更小的参数规模实现了相当水平的智能水平。除了比主流大模型更便宜，它的生成速度最快可至100tokens/s，超越了其他模型。此外，与Qwen3-Coder或K2类似，GLM-4.5也是一款智能体友好的模型，这是一大趋势。

三城演义与地缘竞争

阿里巴巴选择开源，无论是在技术路径上还是商业模式上，都与它云巨头的身份相契合。阿里云创始人王坚认为，与其他大多数生意都是“从商业出发”，用技术来支持商业不同，云计算必须是“先有技术”，而且也不是所有技术都能成为生意。AI何尝不是如此，电力、算力最终转化成token，模型要先有智能才能被应用所调用。

在面对黄仁勋时，王坚承认“开源模型正在改变我们的业务”。开源的生态，最终服务于阿里云，与通义大模型适配到一起，也对齐了阿里“让天下没有难做的生意”的使命。在互联网时代，免费就是平台经济的一种放大规模效应的竞争策略，在AI时代这一套同样有效，Qwen系列模型的累计下载量已超4亿次，衍生模型超14万，位居全球排名第一。

而对于DeepSeek这个独特的本土团队而言，开源不仅仅是商业策略，更是一种文化，吸引顶尖人才，逐步成为全球硬核创新贡献者。DeepSeek证明了通往AGI的路将是由本土华人与硅谷华人趟出来的。

不过，北京仍然具备显著的人才优势。黄仁勋说全世界一半的AI人才是华人，中国一半的顶尖AI人才应该在北京。Meta狂挖硅谷华人，几乎都是中国本科毕业的，再细节探究它新近曝光的超级智能实验室全名单，就可以发现清华贡献了最多的AI研究人才，北大同样贡献巨大。事实上，年初，DeepSeek横空出世的时候，胡佛研究所（Hoover Institution）的一份报告，就发现它的人才也离不开这两所高校。

这些顶尖人才也可以通过北京的开源模型厂商证明自己的价值。在发布K2后，月之暗面员工自述称，开源意味着更高的技术标准，会倒逼自己做出更好的模型，与AGI的目标更一致；唯一的遗憾就是，这条路不是自己率先走通的。相比投放流量，“硬实力就是最好的推广”。这一点，对于开源模型，对于AI人才而言，都同样有效。

上海正在奋起直追。从史上最大规模WAIC上，“东道主”的阶跃星辰与MiniMax动静就可以见一斑。MiniMax创始人闫俊杰在WAIC上的主旨演讲，被主办方恰好排在了辛顿的开幕式演讲之后。后者也是这届WAIC最大亮点之一。此前，Minimax五连发，终于让一心想做“模都”的上海，终于出了个能打上国际榜单的大模型。今年3月，上海将规划中的智算规模，从去年底“算力浦江”规划到2025年底的30EFLOPS，提升到2027年底的200EFLOPS，短短两年，足足增长6倍。

在开源路线上，深圳也重视起来了。最近，腾讯在WAIC上开源了混元3D世界模型1.0，并披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。

在中国，开源也在拥抱产业政策。在这一届WAIC上，《人工智能全球治理行动计划》提议打造跨国开源社区和安全、可靠开源平台，算是中国对美国《AI行动计划》的官方回应。智能将是出海的“新新三样”。新加坡数码发展及新闻部（MDDI）部长杨莉明就欢迎DeepSeek之类高性价比开源模型，帮忙覆盖东南亚数百种语言的市场需求。此外，中国的行动计划还提出要“公共部门率先部署应用”。这些城市的公共部门，一定会更加带头卷起来的。

创投机构Benchmark的Bill Gurley看到了这一点。他认为中国开放AI模型所产生的组合效应非常强大，模型之间都可以互相改进，新模型的推出也更容易。这种既开放又竞争的生态，创新力特别强劲，将轻松超越任何一家专有模型。底下，一位AI创业者评论称，任何“和它在一起”的国家，都会认识到这是软实力的新杠杆。这也是美国担心的。与特朗普关系越来越密切的奥特曼，就在6月底一份关于中国AI的研究中点名了智谱。

有创新的卷，要好过没有创新的。在卷的过程中暴露的问题，最终也将在应用落地时得以淘汰、迭代与进化。王坚非常喜欢“群体心智”（collective mind）这个概念。在他看来，AI是一场马拉松，今天的领先更像是进入下一阶段的一个“过程”而已。但是，“集体”推动可以实现非常快速的迭代，这也是中国AI“人才红利”的意义所在。

这轮你跑得快，下一轮可能换另一个人跑得快；节奏可能会慢下来，但只要你够好，你就还能追上来……这不是残酷，这是健康。因为你和最有竞争力的人在一起工作，这正是新技术诞生的方式。

事实上也是如此。这一个月来，全球最强开源模型的称号，已经迅速在R1-0528、K2、Qwen3-2507与GLM-4.5不断流转。现在的悬念是，在OpenAI发布GPT-5后，它会专注于拿出一个开源模型，从中国企业头上抢走桂冠吗？

但也许更重要的，是中国在开源的基础上建立起技术栈，在token经济上足以与美国的闭源前沿模型竞争。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

上一篇：和父母去重庆4天3晚跟团行程，4天3晚游玩费用明细？大致预算

下一篇：原创东北人口负增长，吉林四平为何十几年减了一半？

开源模型三城记

相关内容

热门资讯