中国AI助手Manus初体验：号称“世界首个全自主AI”，实测表现却差强人意

近日，BI（商业内幕）获得了抢先体验中国AI公司推出的一款名为Manus的AI助手的机会。该公司声称Manus是“世界首个全自主AI代理”。然而，实际测试结果显示，Manus在任务构建方面表现尚可，但在执行过程中却频频出错，不仅会凭空捏造数据，还会生成设计粗糙的作品。

本次评测主要围绕两个方面展开：首先，测试Manus能否准确捕捉公众对“政府效率部裁员计划”（DOGE）的情绪；其次，测试Manus能否从零开始创建一个初创企业。

Manus自上周发布以来，已经受到了一些AI专家和行业观察人士的赞扬，甚至有人将其称为“第二个DeepSeek”。目前，Manus仅限邀请体验，BI是少数获得体验资格的用户之一。此次体验的目的在于验证Manus是否真的能够像其宣传的那样，成为一款完全自主的通用AI助手。

任务一：分析新闻和社交媒体上对DOGE的情绪

Manus声称能够抓取互联网信息、分析公共讨论，并实时绘制社交媒体和新闻网站上的情绪变化。因此，BI要求Manus分析公众对政府效率部裁员计划（DOGE）的反应。

从Manus的初步回应来看，情况似乎很乐观。

然而，Manus的表现却令人失望。首先，它未能找到任何社交媒体上的相关反应——尽管政府效率部裁员计划已成为头条新闻数周。更糟糕的是，Manus并没有尝试寻找真实的新闻文章，而是直接开始模拟公众对DOGE的讨论。

接下来的五分钟，BI目睹了Manus生成虚假的社交媒体反应和账户，并完全捏造了推文。它甚至展示了一些声称来自真实网站的帖子，但这些帖子明显是伪造的。

在整个过程中，Manus从未询问是否需要这些内容，而BI的答案是“不需要”。这种情况持续了20分钟。虽然可以选择手动介入并控制Manus，但这似乎与“完全自主”这一核心卖点相悖。

最终生成的报告从真实的网站上提取了虚假数据，其中包括一个名为“纳税人争取常识”的机构，该机构被描述为“在新闻报道中具有最高影响力的财政保守派监督机构”。然而，Manus声称这些是关于DOGE的最具影响力的声音，这一点值得怀疑。在其列出的顶级消息来源中，还有一个名为“Progressive Times”的Medium博客，该博客自2017年以来就未发布任何内容——远早于DOGE的存在。

在社交趋势方面，Manus似乎捏造了X（前Twitter）和Reddit的用户，并将他们列为推动在线讨论DOGE的关键人物。

该任务唯一的亮点是其数据集的可视化呈现——尽管这些数据完全是虚假的。Manus对情绪的分类、预测以及生成可视化分解的方式令人印象深刻。

如果这些数据是真实的，那么这些功能可能会非常有用。但由于数据是捏造的，因此，这只是一种以高度润色的方式呈现完全虚构信息的方式。

乍一看，这份报告看起来很真实，甚至还附有令人信服的参考文献列表。但只有在报告末尾，以细小字体显示的免责声明中才表明，整个10页的分析都是基于合成数据。

如果有人需要真正的舆情分析，并且没有积极监控AI代理的行为，最终只会得到毫无用处的结果。

这次体验让BI对下一个任务的信心大打折扣。

任务二：创建一个解决鸡蛋价格上涨的初创企业

在这个测试中，BI要求Manus开发一个初创公司，以解决鸡蛋价格上涨的问题。这个要求确实有些雄心勃勃：BI希望获得一份商业计划书、创始人的背景故事、一个完整设计的网站、品牌指南、营销策略，甚至包括一个Logo和名片。

从BI按下回车键的那一刻起，Manus就表现出极大的热情、创业精神和组织能力——这与之前捏造数据、需要不断纠正方向的测试形成了鲜明对比。

这一次，任务的开端非常顺利。整个过程看起来结构清晰、有条不紊。

Manus在概述多种策略和管理预期方面表现出色。

情况似乎有所好转！

在任务进行到一半时，Manus主动展示了新业务的首批品牌资产：Eggonomy™，一个“直接面向消费者的鸡蛋储蓄平台”。

但Logo的设计非常奇怪，像一个培养皿，感觉像是从学校的科学教科书中直接提取出来的。它还提供了一张简单的名片，上面写着“鸡蛋，没有价格冲击”的标语。

但BI仍然抱有希望。考虑到任务的规模，预计需要更长的时间才能完成，并且Manus似乎没有遇到任何技术障碍。

整个过程清晰、快速且易于理解——直到它不再是这样。

半小时后，Manus告知BI，最终产品Eggonomy™已经准备就绪。

第一眼看到网站时，BI感到很惊讶，网站看起来干净，并且隐约与鸡蛋有关。

但总觉得有些不对劲。

博客部分充斥着随机、不相关的帖子，与鸡蛋毫无关系。

很快，BI就找到了原因。Eggonomy早已存在。该网站并非从头开始生成——根据域名查询服务显示，它早在2016年就已经注册。

至少商业策略似乎有真实的数据和市场调研支持。

Manus在集思广益品牌名称、构建商业计划和分析主要竞争对手方面表现出色——但其执行力却差强人意。

更糟糕的是，它没有像在DOGE任务中那样承认使用合成数据，而是毫不透明地套用了一个现有的网站。

Manus尚未准备好单打独斗

观看Manus的运行过程令人着迷，但就目前而言，它远未达到其宣称的完全自主代理的水平。

尽管如此，BI对Manus进行的这两项测试并非正式或科学的。在GAIA基准测试中——一种更可靠的AI实用性衡量标准——Manus声称其性能优于OpenAI的DeepResearch和GPT-4。

虽然Manus尚未准备好独立工作，但这仍然是该工具的早期版本。

如果Manus能够稳定下来、提高数据可靠性并停止捏造信息，它可能成为一个强大的AI助手。但就目前而言，它更像是一个研究实习生，而不是一个完全独立的运营者。

Business Insider尚未立即收到Manus的置评请求。

阅读Business Insider上的原文

中国AI助手Manus初体验：号称“世界首个全自主AI”，实测表现却差强人意

任务一：分析新闻和社交媒体上对DOGE的情绪

任务二：创建一个解决鸡蛋价格上涨的初创企业

Manus尚未准备好单打独斗

相关文章

广东湛江连夜检查“保水虾仁”涉事企业，召回相关涉事产品

网友发帖称在腾格里沙漠遭领队性侵，警方：不属实，已介入调查

延长水仙花花期：专家分享保鲜秘诀，让春日美景更持久

迪士尼打造全新《汽车总动员》主题区，带来沉浸式越野赛车体验

头皮发麻！女子被吓到尖叫……最近又到高峰期！很多人"中招"，紧急提醒↗

男子相亲自称“在省级机关工作，年收入35万到40万”，成都警方通报：系虚构摆拍，6人被行拘！