让一群Agent联手coding，比“模型即Agent” 更接近AGI？_家居风水

让一群Agent联手coding，比“模型即Agent” 更接近AGI？

创始人

2025-10-09 10:45:14

0次

本文来自微信公众号：硅星人Pro （ID：gh_c0bb185caa8d），作者：董道力，原文标题：《实测 MGX｜让一群Agent联手coding，比“模型即Agent” 更接近AGI？》

人类和动物的差别在什么地方？这是一个很难回答的问题，但有三个特征是人类能成为“万物之灵”必不可少的。

首先，是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时，他们就开启了与其他物种截然不同的道路。其次，是分工协作。没有人是万能的，于是让猎人去狩猎，让工匠去制造工具，这条社会分工的链路，最终让人类建立起文明。而与此并行的，还有第三个能力：反思。动物在死亡中不断修改基因去适应环境，而人类可以通过思考与自我纠正，提前规避风险，迭代更优解。

回到如今的大模型时代，我们似乎又一次站在人类进化的镜像前。GPT-5并没有兑现人们对AGI的所有期待，人们从完美幻想中冷静下来，开始重新思考：现有的大模型究竟该如何挖掘极限？

单一的模型，更像一个才华横溢但略显笨拙的学徒，可以写文章、生成代码，却无法像人类社会一样高效协作与自我修正。于是，新的范式开始出现。

MGX正是在这个背景下登场。它并不是一个大模型，而是一个由多个Agent组成的虚拟团队：有人负责理解需求，有人绘制架构，有人编写代码，还有人专门进行研究。更重要的是，他们会像人类一样，主动调用工具、分工协作、反思并修正错误。

如果GPT是智力的复制，那么MGX就是一次模拟社会的实验。

与市面上不少突然冒出来的AI编程产品不同，MGX背后的团队DeepWisdom某种程度并不是“又一个新的AI coding公司”，在此之前它已经有多个研究型的代表作，比如团队曾以五名程序员三小时闪电式开发出Manus的平替版OpenManus，在业内引发热议。MetaGPT这个备受关注的热门开源项目也出自这个团队之手。

其创始人兼CEO吴承霖也是技术背景出身，拥有在腾讯等公司主导十亿级用户、千亿级数据规模的复杂AI项目落地经验。他自己也是开源多智能体框架MetaGPT的作者。

1、实测MGX的Agent团队

MGX，全称MetaGPT X，是DeepWisdom推出的多智能体平台，定位是“24/7的AI开发团队”。它的特别之处在于，你只需要输入需求，系统就会自动生成一支虚拟团队。

这一特点在MGX的首页就能直观体现出来。在图A的区域，可以看到MGX默认配置的一支虚拟团队：黄坨坨是领队Mike，蓝坨坨是工程师Alex，紫坨坨是产品经理Emma，绿坨坨是数据分析师David，白坨坨是架构师Bob。还有个坨坨叫Iris担任深度研究员，还未出现在首页。

每个Agent都有自己的职责分工，就像一家小型公司。

图中B区域饭输入框中用户可以灵活地“召唤”不同的Agent来完成任务。如图，就邀请了Mike、Emma和Alex一起协作。图C的位置，则提供了一个开关，用户可以关闭Agent团队的功能。如果关闭后，MGX的体验就会回到传统AI编程工具的模式，只剩下单模型助手。

1、测试一：建立基于数据的旅游网站

prompts：做一个国庆旅游攻略网站，用户输入想去的地点，自动生成多种类型的旅游路线，如人文路线、自然路线、吃货路线等。

在第一次测试里，我让MGX建立一个国庆旅游攻略网站。需求是用户输入目的地，系统能自动生成不同类型的路线，比如人文、自然或美食。领队Mike先做了总结，工程师Alex很快生成了一个demo，功能完整，但数据只有北京和上海。

接下来我调用了数据分析师David，让他做一个关于项目的数据报告。他调动jupyter notebook做数据报告，过程包含指标建立、可视化和相关性分析等，可以说数据分析味很足了。

promtps：@David对全网国内热门城市的旅游景点进行数据分析，形成一份报告，并且辅助网站开发。

随后Emma根据报告撰写了完整的需求文档，覆盖用户故事、竞品分析、推荐算法和商业化思路，并提出了一个清晰的个性化推荐框架。

promtps：@Emma根据数据分析报告，对需求进行修改。

我们挑选精品分析和推荐算法设计来仔细看一下，可以发现Emma非常有自信，在内容质量超过小红书，在个性化上又领先穷游、携程等应用。在推荐算法设计上，获得了GPT的高度评价：这段“按城市类型→拼装候选→个性化重排”的思路清晰、可扩展点明确（generate*Route、calculatePersonalizedScore可替换），适合作为MVP的骨架。

总之，非常有产品经理的气势。

最后我们让工程师Alex重新开发网站。可以看到，新版本国庆旅游攻略在内容上更加充实，而且加入了评分系统。

和其它AI编程网址一样，MGX也提供一件部署等功能，项目网址：https://mgx-w6xvo6ydqlh.mgx.world。

此外，MGX提供可视化的元素选择模式，避免了随机性的“抽卡式”改动。以修改网址名称为例：进入元素选择，点击想改的区域，在左侧面板中完成编辑。面板支持文本内容、边距、字体样式以及颜色等细节。

1、测试二：深度研究+slide

任务一展现了不同Agent之间的合作，并且从网站成果来看，合作的确提高了能力。我们再来看一下MGX新出的深度研究功能。

prompts：小米17系列和iPhone17系列进行对比

和建立网站一样，MGX的深度研究呈现左右两栏，Agent在分析需求后会做一个todo计划交给用户，如果用户觉得没问题，就可以让MGX继续执行。

MGX的这份报告感兴趣的读者可以直接下载看看，研究报告链接：https://pan.baidu.com/s/1hzHceoQRv-DlMujKqN87eA?pwd=5byv

这份报告对小米17和iPhone 17在定位、性能、影像、屏幕、续航等方面做了全面对比，并总结了各自的优势与适合人群。

我们这边重点来看结论，论调基本上与各家的新闻稿相同，在关键参数上也没有明显错误，尤其是人群推荐上，基本上写全了，算是一份中规中矩的研究报告。

定位层面：小米17系列以“全面对标iPhone”为战略，凭借高性价比和影像、续航、充电等“纸面参数”上的优势，试图在高端市场突围；而iPhone 17系列则延续“均衡稳定”的路线，主打全球市场和长期使用体验。

性能层面：iPhone 17的A19 Pro芯片在单核性能上更强，而小米17搭载的骁龙8至尊版在多核和综合跑分（安兔兔突破400万分）上明显领先。

影像层面：小米17系列借助徕卡合作与大底传感器，在夜景、逆光和色彩表现上更突出，自拍还有背屏创新；iPhone 17系列则在视频录制上提供ProRes RAW、Apple Log 2等专业功能，更适合创作者。

屏幕层面：两者均为旗舰级水准。小米17在发光材料、亮度（3500尼特）、护眼技术和“妙享背屏”交互上创新更多；iPhone 17系列则强调LTPO自适应刷新率、抗反射玻璃以及Face ID组件的小型化。

续航与充电：小米17系列电池容量显著更大（最高7500mAh），支持100W有线秒充与50W无线快充；iPhone 17 Pro Max电池仅4823mAh，充电功率最高40W，但依靠芯片与系统优化维持较长续航，并支持MagSafe/Qi2无线充电及有线反向充电。

人群推荐：

小米17系列：适合追求硬件参数极致表现（影像、续航、快充）的用户，以及希望以更低价格体验旗舰性能、考虑从iPhone转向安卓的群体。

iPhone 17系列：适合注重长期稳定体验、在意系统无广告与流畅度、以及深度绑定苹果生态的用户，尤其是有专业视频创作需求的人群。

其次在信源方面，MGX引用了36个，而同样的提示词下，GPT5的研究模式引用了18个信源，在信源来源方面，MGX偏向国内，GPT5偏向国外。

随后我们将研究报告做成slide展示。

MGX做的slide整体上不如专门制作PPT的AI软件，页面中会有一些文字重叠等错误，可以理解毕竟MGX还没有上线设计师Agent。

但值得注意的是，相较于做网站和深度报告，做slide的时候，MGX有明确的自我反思动作，比如工程师Alex表示在UI渲染部分做的比较差，没有展示详细的对比内容和交互式图表。

在用户选择处理这个问题后，可以明确看到新版的slide拥有了交互功能。

slide展示：https://mgx-yi53lrvz5ac.mgx.world

1、测试三：做一款坦克大战游戏，人多真的力量大？

其实测试一、测试二已经把MGX的功能展现的差不多了，想要做更加复杂的项目就需要更加优质的promtps以及多伦对话。

在测试三种，就回答大家比较关注的问题：多Agent真的有那么美好吗？

第三个测试是开发“坦克大战”小游戏。我做了两个实验：一次点名所有Agent参与，另一次只让MGX自己选择参与的Agent。

prompts：做一款坦克大战游戏@Mike@Emma@Bob@Alex@David

prompts：做一款坦克大战游戏

按理想状况来说，领队Mike负责统领全局分配任务，产品经理Emma设计游戏的各类功能，Bob负责游戏的架构，David在数据上给出支持，工程师Alex负责游戏最后的落地。

然而，结果很出乎意料。多人协作版因为分工混乱，甚至让数据分析师去写代码，最终游戏没有跑通。而Alex独立完成的版本反倒能够运行。

一群Agent做的游戏：https://mgx-2z8q7fvfvbr.mgx.world

Alex单独做的游戏：https://mgx-sk39olbo6s.mgx.world

这次失败很具有代表性，首先多Agent执行的时候没有明确的分工边界，MGX的各个Agent有自己的职责，但在用户强行调用的干扰下，发生了“串岗”。其次，领队Mike在项目发生混乱时候站出来，放在现实场景中就是一个项目没有可以拍板的项目经理。

正如MGX的官网动画所示，不同的任务需要调用不同的Agent。

整体来看，MGX已经展示出多Agent协作的潜力：在旅游网站和研究报告的测试中，它把单一模型的点状能力组织成了更完整的成果；在小游戏等高协同任务里，也暴露出分工混乱、机制不够稳定的短板，也许成熟的领队Mike无论用户@了多少Agent也只会挑选合适的人去做合适的事。

DeepWisdom团队曾谈论过“下一代Agent”的发展方向，多Agent的真正价值不在“堆人”，而在于能否实现动态分工与合理路由，形成合适的SOP，并逐步补齐自我评估、记忆管理和跨环境操作等关键能力。

从MGX的实践中，我们可以清晰地看到一条区别于今天讲的很多的“模型即产品”的演进路径。模型即产品像是把通用的“超级大脑”直接交付给用户。这种模式下，模型的能力边界就是产品的天花板，而用户则被迫成为“提示词工程师”，需要自己完成任务拆解、流程编排和结果整合的复杂工作。这极大地限制了AI在真实、复杂场景中的落地能力，因为现实世界的问题往往不是单一技能可以解决的。

多Agent思路是对上述模式的补充与解构。它转向构建一个高效协作的“专才团队”，这也会带来人机交互的转变，降低复杂任务的创造门槛，用户和AI的关系，变为用户向一个AI“团队”委托一个项目。这就离AI独立交付更进一步。AI也从模仿“个体智慧”，进入到模拟“组织智慧”的阶段。这无疑会对今天诸多的AI产品和模型接下来的演进，带来新的启发。

点个“爱心”，再走吧

上一篇：《甄嬛传》最佳打卡地，年轻人一去DNA就动了

下一篇：发达国家的女领袖，为何多是保守派？

让一群Agent联手coding，比“模型即Agent” 更接近AGI？

相关内容

热门资讯