稚晖君搞了个“好东西”,网上的视频也能拿来训练机器人了。

640-62

上周五,稚晖君不是在微博浅浅预告了一波 “ 好东西 ” 嘛。

640-147

这不刚周一,智元机器人马上就把热乎的抬上来了。

机器人给你端茶倒水、煮咖啡。

640-39

把面包放进面包机、给烤好的面包涂抹果酱,再把面包端到你面前,整套动作一气呵成。

640-37

还能在公司当前台,充当一把迎宾。

640-38

就是吧,见多了各种人形机器人的视频之后,世超对这种程度的展示,已经见怪不怪了。

640-227所以单单这些演示,还不足以能称之为好东西。智元机器人这次发布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出来唠一唠的好东西。

这么说吧,这个基座大模型,让困扰了人形机器人许久的数据匮乏、泛化能力差的问题,又有了更高效的解法。

大伙儿可能也知道,现阶段的人形机器人之所以看起来很拉胯,很重要的原因之一,就是缺乏高质量的数据。

而获得这些数据的成本,同样也非常高。

为了解决这个行业难题,去年底,智元机器人就已经开源了百万真机数据集 AgiBot World 。

640-228

AgiBot World 的数据都来自于智元的数据采集工厂,里面搭了不少模拟真实场景,数据采集师每天的任务,就是教机器人怎么执行某项任务。

根据官方的说法, AgiBot World 涵盖了超过 100 万条轨迹、 217 个任务和 106 个场景。但即便是这个量级的数据,对于机器人来说仍然是杯水车薪,而且,也没办法解决机器人泛化能力差的问题。

640-229所以,智元机器人才在 AgiBot World 的基础上,又提出了新的 ViLLA ( Vision-Language-Latent-Action )架构。这个架构,就是 GO-1 大模型的核心。

世超去翻了翻智元机器人发布的论文,简单用大白话给大伙儿介绍一下,这 ViLLA 到底牛在哪。

640-230

首先在数据上, ViLLA 架构就没那么挑。

根据官方的介绍, ViLLA 架构是由 VLM  ( 多模态大模型 ) 和 MoE  ( 混合专家 ) 组成。

传统的 VLA 架构,结合了 VLM 和端到端的特点,所以这种架构需要大量标注过的真机数据来训练,又费钱又费力,而且数据量还少。

640-181ViLLA 虽说本质上还是 VLA 架构,但它强就强在,互联网上的那些人类视频数据它也能用。。。

也就是说,基于 GO-1 大模型的机器人,理论上只要 “ 看过 ” 视频,就能学会相对应的动作。

640-231

至于其中的原因,世超觉着很大概率要归功于 “ 潜在动作 ” ( Latent Actions )。

咱还是拿 VLA 作为对比, VLA ( Vision Language Action )架构,在执行任务的时候是这么个流程:输入图像和语言指令,机器人再根据这些信息,生成并执行指定动作。

640-232看似简单粗暴,但稍微遇到点复杂的任务,机器人就会变成看得懂也听得懂,但是做不好甚至于做不到。

举个例子,咱们让机器人( VLA 架构 )做一杯咖啡,机器人能看到咖啡机在哪,也能听得懂我要它做咖啡。

但是, VLA 架构下的机器人要直接从 “看到了咖啡机 ” “ 听懂了要做咖啡 ” ,一下子想清楚所有步骤,然后马上动手,中间没有思考的过程。

DeepMind 的 VLA 模型 RT-2

640-233

问题就在于,泡咖啡其实中间有很多小步骤,比如找到咖啡豆,打开咖啡机,按下开关,就算是人来了,都得想一下要先干嘛再干嘛。

640-234更何况是 “ 一根筋 ” 的 VLA 架构,让它处理中间这些复杂的步骤,多少有点为难它了。

但 ViLLA 架构,引入了两位 “ 专家 ” :隐式规划器( Latent Planner )和动作专家( Action Expert )。

这两位专家不仅能让机器人想得更多,而且能做的事情也变多了。

640-182

专有名词看不懂没关系,咱继续举例子。

假设现在输入一段视频,是一个人拿起杯子喝水。

VLM 多模态大模型会先把视频处理了,接着潜在动作模型( Latent Action Model ),会把那些复杂的视频动作,拆解成几个关键步骤,比如 “ 抓取 ” 、 “ 移动 ” 和 “ 喝水 ” 。

但光到这一步还不够,隐式规划器( Latent Planner )要继续把关键步骤进行加工,生成更详细的步骤: “ 抓取(杯子),移动(杯子到嘴边),饮用 ” 。

640-235最后,动作专家( Action Expert )出场,把这些步骤全都转换成机器人能理解的信号,让机器人执行动作。

所以 ViLLA 架构在执行复杂任务时的表现,要比 VLA 更出色,也更能适应当下人形机器人的训练需求。

640-236

而且世超还注意到, ViLLA 架构并不依赖具体的硬件。

换句话说, VLA 架构是根据特定的机器人本体、特定场景,来生成动作信号,而 ViLLA 架构生成的是 “ 抓取 ” “ 移动 ” 这种通用动作标记,任务泛化能力更好,也更容易迁移到其他机器人平台。

给大伙儿一句话总结就是,GO-1 让机器人能从互联网的人类视频数据中学习,并且多了拆解任务的能力,提高复杂任务成功率的同时,泛化能力也变强了。

640-237如果 GO-1 的效果真的像官方描述的那样,那么这对于整个人形机器人行业来说,或许都是一个好消息。

数据不愁,还不挑平台,这机器人训练起来可就顺手多了。就是不知道这个 GO-1 ,智元会不会选择继续开源。

听说,智元机器人明天还要放出个惊喜,咱们等一手好吧。

撰文:西西

编辑:江江&面线

美编:萱萱

图片、资料来源:

智元机器人(B站、微博)

智元机器人, VLA 进化到 ViLLA ,智元发布首个通用具身基座大模型 GO-1 

AgiBot World Colosseo : Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems 

640-238

640-184

640-183

640-184

(0)
wd123_cnwd123_cn
上一篇 2025年3月12日 上午9:34
下一篇 2025年3月12日 上午9:36

相关文章

  • 演员林峯老婆张馨月又陷争议!保姆离职前被要求两次检查行李箱,网友:太不尊重人

    来源 | 江南都市报 近日,多网友发布林峯老婆张馨月直播画面,直播中,家里带宝宝的保姆表示顺风车到楼下要走了(离职),张馨月两次提出让其妈妈再次检查下保姆带走的行李箱,张馨月表示都是这样的流程。 此外,保姆主动问及工资结算,张馨月表示下播就发,还让保姆收拾下刚洗完澡的卫生间。 此事很快引发网友热议,有网友表示:“太不尊重人,阿姨都要走了,还让人家打…

    2025年3月20日
  • Coca-Cola 2024年北美市场创新之星:Sprite Chill Cherry Lime

    在2024年,Coca-Cola公司推出了一款名为Sprite Chill Cherry Lime的新品,这款碳酸饮料迅速成为北美市场的销售冠军。Sprite Chill Cherry Lime以其独特的樱桃青柠口味和凉爽感赢得了广大消费者的青睐,不仅吸引了原有的Sprite粉丝,还成功转化了部分对碳酸饮料持保留态度的消费者。 产品特点 Sprite Chi…

    2025年3月11日
  • 玛莎·斯图尔特坦言曾因未被园艺俱乐部邀请而受伤,揭秘背后原因及园艺趣事

    著名生活方式专家玛莎·斯图尔特近日公开坦言,她曾因未被家乡当地颇受欢迎的园艺俱乐部邀请而感到受伤。这位拥有无数粉丝和成功事业的女强人,竟也渴望融入邻里社群,这番坦诚的表白引发了广泛关注。 被“忽视”的园艺女王 斯图尔特透露,她并不知道自己为何一直没有收到园艺俱乐部的邀请,直到俱乐部主动邀请她参观她的花园,她才放下心中的芥蒂。“他们邀请我参观花园,我说,‘你知…

    2025年3月29日
  • 杰克罗素梗犬受困三天奇迹生还:揭秘狗狗挖掘天性与安全隐患

    爱犬失踪,无疑是主人最煎熬的噩梦。近日,一只名叫Ruby的杰克罗素梗犬就经历了这样一场惊魂事件,而结局却充满奇迹:它在被埋于乱石堆下三天后,竟然奇迹般地获救! 根据Instagram用户simonrayner发布的信息,Ruby被困于洞穴中长达三天之久。幸运的是,一位朋友偶然听到了从洞穴深处传来的微弱声音,这才引发了搜寻行动。 经过一番挖掘,救援人员终于将可…

    2025年3月18日
  • 纽约上空的“燃烧人”之家:设计师Peti Lau打造曼哈顿奢华公寓,致敬自由奔放的艺术精神

    纽约的繁华都市和内华达州黑石城的荒凉沙漠,看似毫无共同之处。然而,每年一度的“燃烧人节”(Burning Man)却能将这片沙地变成一个同样充满活力的艺术自我表达之都。而一位设计师Peti Lau,将“燃烧人节”的精神融入设计理念,为一位同样热爱“燃烧人节”的客户,在曼哈顿打造了一个色彩斑斓、充满想象力的奢华公寓。 设计灵感:燃烧人节的自由与冒险 Peti …

    2025年3月21日
  • 英伟达Blackwell平台发布:AI算力迎来新纪元

    引领AI算力革新:英伟达发布Blackwell平台 在AI技术飞速发展的当下,算力需求呈指数级增长。为了满足这一需求,英伟达近日正式发布了其最新的Blackwell平台,标志着AI计算能力迈入了一个全新的时代。该平台基于全新的Blackwell GPU架构,旨在为加速计算、AI训练和推理提供前所未有的性能和效率。 Blackwell平台的发布,是英伟达在AI…

    2025年4月10日