中国AI助手Manus初体验:号称“世界首个全自主AI”,实测表现却差强人意

中国AI助手Manus初体验:号称“世界首个全自主AI”,实测表现却差强人意

近日,BI(商业内幕)获得了抢先体验中国AI公司推出的一款名为Manus的AI助手的机会。该公司声称Manus是“世界首个全自主AI代理”。然而,实际测试结果显示,Manus在任务构建方面表现尚可,但在执行过程中却频频出错,不仅会凭空捏造数据,还会生成设计粗糙的作品。

本次评测主要围绕两个方面展开:首先,测试Manus能否准确捕捉公众对“政府效率部裁员计划”(DOGE)的情绪;其次,测试Manus能否从零开始创建一个初创企业。

Manus自上周发布以来,已经受到了一些AI专家和行业观察人士的赞扬,甚至有人将其称为“第二个DeepSeek”。目前,Manus仅限邀请体验,BI是少数获得体验资格的用户之一。此次体验的目的在于验证Manus是否真的能够像其宣传的那样,成为一款完全自主的通用AI助手。

任务一:分析新闻和社交媒体上对DOGE的情绪

Manus声称能够抓取互联网信息、分析公共讨论,并实时绘制社交媒体和新闻网站上的情绪变化。因此,BI要求Manus分析公众对政府效率部裁员计划(DOGE)的反应。

从Manus的初步回应来看,情况似乎很乐观。

然而,Manus的表现却令人失望。首先,它未能找到任何社交媒体上的相关反应——尽管政府效率部裁员计划已成为头条新闻数周。更糟糕的是,Manus并没有尝试寻找真实的新闻文章,而是直接开始模拟公众对DOGE的讨论。

接下来的五分钟,BI目睹了Manus生成虚假的社交媒体反应和账户,并完全捏造了推文。它甚至展示了一些声称来自真实网站的帖子,但这些帖子明显是伪造的。

在整个过程中,Manus从未询问是否需要这些内容,而BI的答案是“不需要”。这种情况持续了20分钟。虽然可以选择手动介入并控制Manus,但这似乎与“完全自主”这一核心卖点相悖。

最终生成的报告从真实的网站上提取了虚假数据,其中包括一个名为“纳税人争取常识”的机构,该机构被描述为“在新闻报道中具有最高影响力的财政保守派监督机构”。然而,Manus声称这些是关于DOGE的最具影响力的声音,这一点值得怀疑。在其列出的顶级消息来源中,还有一个名为“Progressive Times”的Medium博客,该博客自2017年以来就未发布任何内容——远早于DOGE的存在。

在社交趋势方面,Manus似乎捏造了X(前Twitter)和Reddit的用户,并将他们列为推动在线讨论DOGE的关键人物。

该任务唯一的亮点是其数据集的可视化呈现——尽管这些数据完全是虚假的。Manus对情绪的分类、预测以及生成可视化分解的方式令人印象深刻。

如果这些数据是真实的,那么这些功能可能会非常有用。但由于数据是捏造的,因此,这只是一种以高度润色的方式呈现完全虚构信息的方式。

乍一看,这份报告看起来很真实,甚至还附有令人信服的参考文献列表。但只有在报告末尾,以细小字体显示的免责声明中才表明,整个10页的分析都是基于合成数据。

如果有人需要真正的舆情分析,并且没有积极监控AI代理的行为,最终只会得到毫无用处的结果。

这次体验让BI对下一个任务的信心大打折扣。

任务二:创建一个解决鸡蛋价格上涨的初创企业

在这个测试中,BI要求Manus开发一个初创公司,以解决鸡蛋价格上涨的问题。这个要求确实有些雄心勃勃:BI希望获得一份商业计划书、创始人的背景故事、一个完整设计的网站、品牌指南、营销策略,甚至包括一个Logo和名片。

从BI按下回车键的那一刻起,Manus就表现出极大的热情、创业精神和组织能力——这与之前捏造数据、需要不断纠正方向的测试形成了鲜明对比。

这一次,任务的开端非常顺利。整个过程看起来结构清晰、有条不紊。

Manus在概述多种策略和管理预期方面表现出色。

情况似乎有所好转!

在任务进行到一半时,Manus主动展示了新业务的首批品牌资产:Eggonomy™,一个“直接面向消费者的鸡蛋储蓄平台”。

但Logo的设计非常奇怪,像一个培养皿,感觉像是从学校的科学教科书中直接提取出来的。它还提供了一张简单的名片,上面写着“鸡蛋,没有价格冲击”的标语。

但BI仍然抱有希望。考虑到任务的规模,预计需要更长的时间才能完成,并且Manus似乎没有遇到任何技术障碍。

整个过程清晰、快速且易于理解——直到它不再是这样。

半小时后,Manus告知BI,最终产品Eggonomy™已经准备就绪。

第一眼看到网站时,BI感到很惊讶,网站看起来干净,并且隐约与鸡蛋有关。

但总觉得有些不对劲。

博客部分充斥着随机、不相关的帖子,与鸡蛋毫无关系。

很快,BI就找到了原因。Eggonomy早已存在。该网站并非从头开始生成——根据域名查询服务显示,它早在2016年就已经注册。

至少商业策略似乎有真实的数据和市场调研支持。

Manus在集思广益品牌名称、构建商业计划和分析主要竞争对手方面表现出色——但其执行力却差强人意。

更糟糕的是,它没有像在DOGE任务中那样承认使用合成数据,而是毫不透明地套用了一个现有的网站。

Manus尚未准备好单打独斗

观看Manus的运行过程令人着迷,但就目前而言,它远未达到其宣称的完全自主代理的水平。

尽管如此,BI对Manus进行的这两项测试并非正式或科学的。在GAIA基准测试中——一种更可靠的AI实用性衡量标准——Manus声称其性能优于OpenAI的DeepResearch和GPT-4。

虽然Manus尚未准备好独立工作,但这仍然是该工具的早期版本。

如果Manus能够稳定下来、提高数据可靠性并停止捏造信息,它可能成为一个强大的AI助手。但就目前而言,它更像是一个研究实习生,而不是一个完全独立的运营者。

Business Insider尚未立即收到Manus的置评请求。

阅读Business Insider上的原文

(0)
wd123_cnwd123_cn
上一篇 2025年3月14日 下午6:55
下一篇 2025年3月14日 下午6:57

相关文章

  • 广东湛江连夜检查“保水虾仁”涉事企业,召回相关涉事产品

    来源 | 央视新闻 总台3·15晚会曝光“保水虾仁”问题后,广东省湛江市市场监管局联合湛江市公安局组成工作专班,会同属地市场监管、公安部门,联合组织执法人员赶赴涉事企业开展检查。 现场查封原材料、半成品、成品一批,责令企业立即停止销售涉事产品,对相关产品进行抽检,并督促企业召回相关涉事产品。广东省市场监管局工作组已赶赴现场指导调查处置工作。 下一步…

    2025年3月17日
  • 网友发帖称在腾格里沙漠遭领队性侵,警方:不属实,已介入调查

    来源 | 极目新闻 3月18日,有网友发帖称,其在内蒙古阿拉善腾格里沙漠体验五湖穿越时遭领队性侵。 19日上午,极目新闻记者检索发现,该网友发布的帖子在多平台被删除。发帖者回应记者私信称,自己目前已报警立案,暂不接受采访,具体情况需等官方通报。 阿拉善左旗网信办工作人员回应记者称,当事人报警后自行将帖子删除,公安机关正在侦查。阿拉善左旗额鲁特路派出所工作人员…

    新闻资讯 2025年3月20日
  • 延长水仙花花期:专家分享保鲜秘诀,让春日美景更持久

    水仙花,又名“那喀索斯”,其学名与希腊神话中迷恋自己影子的美少年同名,足见其魅力。作为春季备受欢迎的花卉,水仙花吸引着世界各地游客涌向植物园,也频繁出现在我们喜爱的季节性花束中。无论你钟情于经典的金黄色水仙,还是偏爱白色、奶油色、橙色或粉色的混色,都希望尽可能延长其观赏期。以下是专家分享的保鲜秘诀,助你留住水仙花的娇艳。 本文将介绍如何延长水仙花花束的保鲜期…

    2025年3月29日
  • 迪士尼打造全新《汽车总动员》主题区,带来沉浸式越野赛车体验

    迪士尼正在全力打造全新的《汽车总动员》主题区,力求还原电影中的场景,甚至为此建造了一条越野赛道,供园区开放后使用。这一新区域首次在去年夏天的迪士尼D23峰会上亮相,当时还宣布了一部由道恩·强森主演的真人版《怪兽卡车》电影。 沉浸式赛车体验 在德克萨斯州奥斯汀举行的SXSW大会上,迪士尼在“迪士尼世界建筑未来”讨论中透露了其最新的赛道和游乐设施计划。这一新区域…

    2025年3月10日
  • 头皮发麻!女子被吓到尖叫……最近又到高峰期!很多人"中招",紧急提醒↗

    来源 | 新闻坊、健康杭州、@美丽浙江、萧山日报、杭州交通918、此前报道 这两天 进入“升温”模式 气温回升后 虽然体感十分舒服 但烦心事也随之而来 ↓↓↓ 各种虫子开始活跃 最近 有网友发帖称 收进屋子的衣服 抖下了很多小黑虫🐛 吓死了…… 还有网友在收晾晒的衣服时 就被吓到尖叫 她发现衣服上 沾有数十粒绿色虫卵 瞬间头皮发麻 小坊在社交媒体上查询发现 …

    2025年3月23日
  • 男子相亲自称“在省级机关工作,年收入35万到40万”,成都警方通报:系虚构摆拍,6人被行拘!

    来源 | 潇湘晨报综合新京报、成都武侯公安 3月13日,成都警方通报“机关年入35万相亲假视频”,全文如下: 此前报道: 近日,一男子自称“在太原省级机关工作、年收入大概35到40万”的相亲视频遭质疑。记者注意到,发布者“太原青柚街坊”视频下方评论均质疑该男子身份的真实性。而该男子在四川“成都优圈恋爱”发布的相亲视频中称,自己工作定居在成都。上述两…

    2025年3月13日