近日,BI(商业内幕)获得了抢先体验中国AI公司推出的一款名为Manus的AI助手的机会。该公司声称Manus是“世界首个全自主AI代理”。然而,实际测试结果显示,Manus在任务构建方面表现尚可,但在执行过程中却频频出错,不仅会凭空捏造数据,还会生成设计粗糙的作品。
本次评测主要围绕两个方面展开:首先,测试Manus能否准确捕捉公众对“政府效率部裁员计划”(DOGE)的情绪;其次,测试Manus能否从零开始创建一个初创企业。
Manus自上周发布以来,已经受到了一些AI专家和行业观察人士的赞扬,甚至有人将其称为“第二个DeepSeek”。目前,Manus仅限邀请体验,BI是少数获得体验资格的用户之一。此次体验的目的在于验证Manus是否真的能够像其宣传的那样,成为一款完全自主的通用AI助手。
任务一:分析新闻和社交媒体上对DOGE的情绪
Manus声称能够抓取互联网信息、分析公共讨论,并实时绘制社交媒体和新闻网站上的情绪变化。因此,BI要求Manus分析公众对政府效率部裁员计划(DOGE)的反应。
从Manus的初步回应来看,情况似乎很乐观。
然而,Manus的表现却令人失望。首先,它未能找到任何社交媒体上的相关反应——尽管政府效率部裁员计划已成为头条新闻数周。更糟糕的是,Manus并没有尝试寻找真实的新闻文章,而是直接开始模拟公众对DOGE的讨论。
接下来的五分钟,BI目睹了Manus生成虚假的社交媒体反应和账户,并完全捏造了推文。它甚至展示了一些声称来自真实网站的帖子,但这些帖子明显是伪造的。
在整个过程中,Manus从未询问是否需要这些内容,而BI的答案是“不需要”。这种情况持续了20分钟。虽然可以选择手动介入并控制Manus,但这似乎与“完全自主”这一核心卖点相悖。
最终生成的报告从真实的网站上提取了虚假数据,其中包括一个名为“纳税人争取常识”的机构,该机构被描述为“在新闻报道中具有最高影响力的财政保守派监督机构”。然而,Manus声称这些是关于DOGE的最具影响力的声音,这一点值得怀疑。在其列出的顶级消息来源中,还有一个名为“Progressive Times”的Medium博客,该博客自2017年以来就未发布任何内容——远早于DOGE的存在。
在社交趋势方面,Manus似乎捏造了X(前Twitter)和Reddit的用户,并将他们列为推动在线讨论DOGE的关键人物。
该任务唯一的亮点是其数据集的可视化呈现——尽管这些数据完全是虚假的。Manus对情绪的分类、预测以及生成可视化分解的方式令人印象深刻。
如果这些数据是真实的,那么这些功能可能会非常有用。但由于数据是捏造的,因此,这只是一种以高度润色的方式呈现完全虚构信息的方式。
乍一看,这份报告看起来很真实,甚至还附有令人信服的参考文献列表。但只有在报告末尾,以细小字体显示的免责声明中才表明,整个10页的分析都是基于合成数据。
如果有人需要真正的舆情分析,并且没有积极监控AI代理的行为,最终只会得到毫无用处的结果。
这次体验让BI对下一个任务的信心大打折扣。
任务二:创建一个解决鸡蛋价格上涨的初创企业
在这个测试中,BI要求Manus开发一个初创公司,以解决鸡蛋价格上涨的问题。这个要求确实有些雄心勃勃:BI希望获得一份商业计划书、创始人的背景故事、一个完整设计的网站、品牌指南、营销策略,甚至包括一个Logo和名片。
从BI按下回车键的那一刻起,Manus就表现出极大的热情、创业精神和组织能力——这与之前捏造数据、需要不断纠正方向的测试形成了鲜明对比。
这一次,任务的开端非常顺利。整个过程看起来结构清晰、有条不紊。
Manus在概述多种策略和管理预期方面表现出色。
情况似乎有所好转!
在任务进行到一半时,Manus主动展示了新业务的首批品牌资产:Eggonomy™,一个“直接面向消费者的鸡蛋储蓄平台”。
但Logo的设计非常奇怪,像一个培养皿,感觉像是从学校的科学教科书中直接提取出来的。它还提供了一张简单的名片,上面写着“鸡蛋,没有价格冲击”的标语。
但BI仍然抱有希望。考虑到任务的规模,预计需要更长的时间才能完成,并且Manus似乎没有遇到任何技术障碍。
整个过程清晰、快速且易于理解——直到它不再是这样。
半小时后,Manus告知BI,最终产品Eggonomy™已经准备就绪。
第一眼看到网站时,BI感到很惊讶,网站看起来干净,并且隐约与鸡蛋有关。
但总觉得有些不对劲。
博客部分充斥着随机、不相关的帖子,与鸡蛋毫无关系。
很快,BI就找到了原因。Eggonomy早已存在。该网站并非从头开始生成——根据域名查询服务显示,它早在2016年就已经注册。
至少商业策略似乎有真实的数据和市场调研支持。
Manus在集思广益品牌名称、构建商业计划和分析主要竞争对手方面表现出色——但其执行力却差强人意。
更糟糕的是,它没有像在DOGE任务中那样承认使用合成数据,而是毫不透明地套用了一个现有的网站。
Manus尚未准备好单打独斗
观看Manus的运行过程令人着迷,但就目前而言,它远未达到其宣称的完全自主代理的水平。
尽管如此,BI对Manus进行的这两项测试并非正式或科学的。在GAIA基准测试中——一种更可靠的AI实用性衡量标准——Manus声称其性能优于OpenAI的DeepResearch和GPT-4。
虽然Manus尚未准备好独立工作,但这仍然是该工具的早期版本。
如果Manus能够稳定下来、提高数据可靠性并停止捏造信息,它可能成为一个强大的AI助手。但就目前而言,它更像是一个研究实习生,而不是一个完全独立的运营者。
Business Insider尚未立即收到Manus的置评请求。
阅读Business Insider上的原文