本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:董道力,原文标题:《实测 MGX|让一群Agent联手coding,比“模型即Agent” 更接近AGI?》
人类和动物的差别在什么地方?这是一个很难回答的问题,但有三个特征是人类能成为“万物之灵”必不可少的。
首先,是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时,他们就开启了与其他物种截然不同的道路。其次,是分工协作。没有人是万能的,于是让猎人去狩猎,让工匠去制造工具,这条社会分工的链路,最终让人类建立起文明。而与此并行的,还有第三个能力:反思。动物在死亡中不断修改基因去适应环境,而人类可以通过思考与自我纠正,提前规避风险,迭代更优解。
回到如今的大模型时代,我们似乎又一次站在人类进化的镜像前。GPT-5并没有兑现人们对AGI的所有期待,人们从完美幻想中冷静下来,开始重新思考:现有的大模型究竟该如何挖掘极限?
单一的模型,更像一个才华横溢但略显笨拙的学徒,可以写文章、生成代码,却无法像人类社会一样高效协作与自我修正。于是,新的范式开始出现。
MGX正是在这个背景下登场。它并不是一个大模型,而是一个由多个Agent组成的虚拟团队:有人负责理解需求,有人绘制架构,有人编写代码,还有人专门进行研究。更重要的是,他们会像人类一样,主动调用工具、分工协作、反思并修正错误。
如果GPT是智力的复制,那么MGX就是一次模拟社会的实验。
与市面上不少突然冒出来的AI编程产品不同,MGX背后的团队DeepWisdom某种程度并不是“又一个新的AI coding公司”,在此之前它已经有多个研究型的代表作,比如团队曾以五名程序员三小时闪电式开发出Manus的平替版OpenManus,在业内引发热议。MetaGPT这个备受关注的热门开源项目也出自这个团队之手。
其创始人兼CEO吴承霖也是技术背景出身,拥有在腾讯等公司主导十亿级用户、千亿级数据规模的复杂AI项目落地经验。他自己也是开源多智能体框架MetaGPT的作者。
1、实测MGX的Agent团队
MGX,全称MetaGPT X,是DeepWisdom推出的多智能体平台,定位是“24/7的AI开发团队”。它的特别之处在于,你只需要输入需求,系统就会自动生成一支虚拟团队。
这一特点在MGX的首页就能直观体现出来。在图A的区域,可以看到MGX默认配置的一支虚拟团队:黄坨坨是领队Mike,蓝坨坨是工程师Alex,紫坨坨是产品经理Emma,绿坨坨是数据分析师David,白坨坨是架构师Bob。还有个坨坨叫Iris担任深度研究员,还未出现在首页。
每个Agent都有自己的职责分工,就像一家小型公司。
图中B区域饭输入框中用户可以灵活地“召唤”不同的Agent来完成任务。如图,就邀请了Mike、Emma和Alex一起协作。图C的位置,则提供了一个开关,用户可以关闭Agent团队的功能。如果关闭后,MGX的体验就会回到传统AI编程工具的模式,只剩下单模型助手。
1、测试一:建立基于数据的旅游网站
prompts:做一个国庆旅游攻略网站,用户输入想去的地点,自动生成多种类型的旅游路线,如人文路线、自然路线、吃货路线等。
在第一次测试里,我让MGX建立一个国庆旅游攻略网站。需求是用户输入目的地,系统能自动生成不同类型的路线,比如人文、自然或美食。领队Mike先做了总结,工程师Alex很快生成了一个demo,功能完整,但数据只有北京和上海。
接下来我调用了数据分析师David,让他做一个关于项目的数据报告。他调动jupyter notebook做数据报告,过程包含指标建立、可视化和相关性分析等,可以说数据分析味很足了。
promtps:@David对全网国内热门城市的旅游景点进行数据分析,形成一份报告,并且辅助网站开发。
随后Emma根据报告撰写了完整的需求文档,覆盖用户故事、竞品分析、推荐算法和商业化思路,并提出了一个清晰的个性化推荐框架。
promtps:@Emma根据数据分析报告,对需求进行修改。
我们挑选精品分析和推荐算法设计来仔细看一下,可以发现Emma非常有自信,在内容质量超过小红书,在个性化上又领先穷游、携程等应用。在推荐算法设计上,获得了GPT的高度评价:这段“按城市类型→拼装候选→个性化重排”的思路清晰、可扩展点明确(generate*Route、calculatePersonalizedScore可替换),适合作为MVP的骨架。
总之,非常有产品经理的气势。
最后我们让工程师Alex重新开发网站。可以看到,新版本国庆旅游攻略在内容上更加充实,而且加入了评分系统。
和其它AI编程网址一样,MGX也提供一件部署等功能,项目网址:https://mgx-w6xvo6ydqlh.mgx.world。
此外,MGX提供可视化的元素选择模式,避免了随机性的“抽卡式”改动。以修改网址名称为例:进入元素选择,点击想改的区域,在左侧面板中完成编辑。面板支持文本内容、边距、字体样式以及颜色等细节。
1、测试二:深度研究+slide
任务一展现了不同Agent之间的合作,并且从网站成果来看,合作的确提高了能力。我们再来看一下MGX新出的深度研究功能。
prompts:小米17系列和iPhone17系列进行对比
和建立网站一样,MGX的深度研究呈现左右两栏,Agent在分析需求后会做一个todo计划交给用户,如果用户觉得没问题,就可以让MGX继续执行。
MGX的这份报告感兴趣的读者可以直接下载看看,研究报告链接:https://pan.baidu.com/s/1hzHceoQRv-DlMujKqN87eA?pwd=5byv
这份报告对小米17和iPhone 17在定位、性能、影像、屏幕、续航等方面做了全面对比,并总结了各自的优势与适合人群。
我们这边重点来看结论,论调基本上与各家的新闻稿相同,在关键参数上也没有明显错误,尤其是人群推荐上,基本上写全了,算是一份中规中矩的研究报告。
定位层面:小米17系列以“全面对标iPhone”为战略,凭借高性价比和影像、续航、充电等“纸面参数”上的优势,试图在高端市场突围;而iPhone 17系列则延续“均衡稳定”的路线,主打全球市场和长期使用体验。
性能层面:iPhone 17的A19 Pro芯片在单核性能上更强,而小米17搭载的骁龙8至尊版在多核和综合跑分(安兔兔突破400万分)上明显领先。
影像层面:小米17系列借助徕卡合作与大底传感器,在夜景、逆光和色彩表现上更突出,自拍还有背屏创新;iPhone 17系列则在视频录制上提供ProRes RAW、Apple Log 2等专业功能,更适合创作者。
屏幕层面:两者均为旗舰级水准。小米17在发光材料、亮度(3500尼特)、护眼技术和“妙享背屏”交互上创新更多;iPhone 17系列则强调LTPO自适应刷新率、抗反射玻璃以及Face ID组件的小型化。
续航与充电:小米17系列电池容量显著更大(最高7500mAh),支持100W有线秒充与50W无线快充;iPhone 17 Pro Max电池仅4823mAh,充电功率最高40W,但依靠芯片与系统优化维持较长续航,并支持MagSafe/Qi2无线充电及有线反向充电。
人群推荐:
小米17系列:适合追求硬件参数极致表现(影像、续航、快充)的用户,以及希望以更低价格体验旗舰性能、考虑从iPhone转向安卓的群体。
iPhone 17系列:适合注重长期稳定体验、在意系统无广告与流畅度、以及深度绑定苹果生态的用户,尤其是有专业视频创作需求的人群。
其次在信源方面,MGX引用了36个,而同样的提示词下,GPT5的研究模式引用了18个信源,在信源来源方面,MGX偏向国内,GPT5偏向国外。
随后我们将研究报告做成slide展示。
MGX做的slide整体上不如专门制作PPT的AI软件,页面中会有一些文字重叠等错误,可以理解毕竟MGX还没有上线设计师Agent。
但值得注意的是,相较于做网站和深度报告,做slide的时候,MGX有明确的自我反思动作,比如工程师Alex表示在UI渲染部分做的比较差,没有展示详细的对比内容和交互式图表。
在用户选择处理这个问题后,可以明确看到新版的slide拥有了交互功能。
slide展示:https://mgx-yi53lrvz5ac.mgx.world
1、测试三:做一款坦克大战游戏,人多真的力量大?
其实测试一、测试二已经把MGX的功能展现的差不多了,想要做更加复杂的项目就需要更加优质的promtps以及多伦对话。
在测试三种,就回答大家比较关注的问题:多Agent真的有那么美好吗?
第三个测试是开发“坦克大战”小游戏。我做了两个实验:一次点名所有Agent参与,另一次只让MGX自己选择参与的Agent。
prompts:做一款坦克大战游戏@Mike@Emma@Bob@Alex@David
prompts:做一款坦克大战游戏
按理想状况来说,领队Mike负责统领全局分配任务,产品经理Emma设计游戏的各类功能,Bob负责游戏的架构,David在数据上给出支持,工程师Alex负责游戏最后的落地。
然而,结果很出乎意料。多人协作版因为分工混乱,甚至让数据分析师去写代码,最终游戏没有跑通。而Alex独立完成的版本反倒能够运行。
一群Agent做的游戏:https://mgx-2z8q7fvfvbr.mgx.world
Alex单独做的游戏:https://mgx-sk39olbo6s.mgx.world
这次失败很具有代表性,首先多Agent执行的时候没有明确的分工边界,MGX的各个Agent有自己的职责,但在用户强行调用的干扰下,发生了“串岗”。其次,领队Mike在项目发生混乱时候站出来,放在现实场景中就是一个项目没有可以拍板的项目经理。
正如MGX的官网动画所示,不同的任务需要调用不同的Agent。
整体来看,MGX已经展示出多Agent协作的潜力:在旅游网站和研究报告的测试中,它把单一模型的点状能力组织成了更完整的成果;在小游戏等高协同任务里,也暴露出分工混乱、机制不够稳定的短板,也许成熟的领队Mike无论用户@了多少Agent也只会挑选合适的人去做合适的事。
DeepWisdom团队曾谈论过“下一代Agent”的发展方向,多Agent的真正价值不在“堆人”,而在于能否实现动态分工与合理路由,形成合适的SOP,并逐步补齐自我评估、记忆管理和跨环境操作等关键能力。
从MGX的实践中,我们可以清晰地看到一条区别于今天讲的很多的“模型即产品”的演进路径。模型即产品像是把通用的“超级大脑”直接交付给用户。这种模式下,模型的能力边界就是产品的天花板,而用户则被迫成为“提示词工程师”,需要自己完成任务拆解、流程编排和结果整合的复杂工作。这极大地限制了AI在真实、复杂场景中的落地能力,因为现实世界的问题往往不是单一技能可以解决的。
多Agent思路是对上述模式的补充与解构。它转向构建一个高效协作的“专才团队”,这也会带来人机交互的转变,降低复杂任务的创造门槛,用户和AI的关系,变为用户向一个AI“团队”委托一个项目。这就离AI独立交付更进一步。AI也从模仿“个体智慧”,进入到模拟“组织智慧”的阶段。这无疑会对今天诸多的AI产品和模型接下来的演进,带来新的启发。
点个“爱心”,再走吧