稚晖君搞了个“好东西”，网上的视频也能拿来训练机器人了。

wd123_cn • 2025年3月12日上午9:35 • 新闻资讯 • 阅读 5

上周五，稚晖君不是在微博浅浅预告了一波 “ 好东西 ” 嘛。

这不刚周一，智元机器人马上就把热乎的抬上来了。

机器人给你端茶倒水、煮咖啡。

把面包放进面包机、给烤好的面包涂抹果酱，再把面包端到你面前，整套动作一气呵成。

还能在公司当前台，充当一把迎宾。

就是吧，见多了各种人形机器人的视频之后，世超对这种程度的展示，已经见怪不怪了。

所以单单这些演示，还不足以能称之为好东西。智元机器人这次发布的基座大模型 GO-1 （ Genie Operator-1 ），才是真正值得拿出来唠一唠的好东西。

这么说吧，这个基座大模型，让困扰了人形机器人许久的数据匮乏、泛化能力差的问题，又有了更高效的解法。

大伙儿可能也知道，现阶段的人形机器人之所以看起来很拉胯，很重要的原因之一，就是缺乏高质量的数据。

而获得这些数据的成本，同样也非常高。

为了解决这个行业难题，去年底，智元机器人就已经开源了百万真机数据集 AgiBot World 。

AgiBot World 的数据都来自于智元的数据采集工厂，里面搭了不少模拟真实场景，数据采集师每天的任务，就是教机器人怎么执行某项任务。

根据官方的说法， AgiBot World 涵盖了超过 100 万条轨迹、 217 个任务和 106 个场景。但即便是这个量级的数据，对于机器人来说仍然是杯水车薪，而且，也没办法解决机器人泛化能力差的问题。

所以，智元机器人才在 AgiBot World 的基础上，又提出了新的 ViLLA （ Vision-Language-Latent-Action ）架构。这个架构，就是 GO-1 大模型的核心。

世超去翻了翻智元机器人发布的论文，简单用大白话给大伙儿介绍一下，这 ViLLA 到底牛在哪。

首先在数据上， ViLLA 架构就没那么挑。

根据官方的介绍， ViLLA 架构是由 VLM ( 多模态大模型 ) 和 MoE ( 混合专家 ) 组成。

传统的 VLA 架构，结合了 VLM 和端到端的特点，所以这种架构需要大量标注过的真机数据来训练，又费钱又费力，而且数据量还少。

ViLLA 虽说本质上还是 VLA 架构，但它强就强在，互联网上的那些人类视频数据它也能用。。。

也就是说，基于 GO-1 大模型的机器人，理论上只要 “ 看过 ” 视频，就能学会相对应的动作。

至于其中的原因，世超觉着很大概率要归功于 “ 潜在动作 ” （ Latent Actions ）。

咱还是拿 VLA 作为对比， VLA （ Vision Language Action ）架构，在执行任务的时候是这么个流程：输入图像和语言指令，机器人再根据这些信息，生成并执行指定动作。

看似简单粗暴，但稍微遇到点复杂的任务，机器人就会变成看得懂也听得懂，但是做不好甚至于做不到。

举个例子，咱们让机器人（ VLA 架构）做一杯咖啡，机器人能看到咖啡机在哪，也能听得懂我要它做咖啡。

但是， VLA 架构下的机器人要直接从 “看到了咖啡机 ” “ 听懂了要做咖啡 ” ，一下子想清楚所有步骤，然后马上动手，中间没有思考的过程。

DeepMind 的 VLA 模型 RT-2

问题就在于，泡咖啡其实中间有很多小步骤，比如找到咖啡豆，打开咖啡机，按下开关，就算是人来了，都得想一下要先干嘛再干嘛。

更何况是 “ 一根筋 ” 的 VLA 架构，让它处理中间这些复杂的步骤，多少有点为难它了。

但 ViLLA 架构，引入了两位 “ 专家 ” ：隐式规划器（ Latent Planner ）和动作专家（ Action Expert ）。

这两位专家不仅能让机器人想得更多，而且能做的事情也变多了。

专有名词看不懂没关系，咱继续举例子。

假设现在输入一段视频，是一个人拿起杯子喝水。

VLM 多模态大模型会先把视频处理了，接着潜在动作模型（ Latent Action Model ），会把那些复杂的视频动作，拆解成几个关键步骤，比如 “ 抓取 ” 、 “ 移动 ” 和 “ 喝水 ” 。

但光到这一步还不够，隐式规划器（ Latent Planner ）要继续把关键步骤进行加工，生成更详细的步骤： “ 抓取（杯子），移动（杯子到嘴边），饮用 ” 。

最后，动作专家（ Action Expert ）出场，把这些步骤全都转换成机器人能理解的信号，让机器人执行动作。

所以 ViLLA 架构在执行复杂任务时的表现，要比 VLA 更出色，也更能适应当下人形机器人的训练需求。

而且世超还注意到， ViLLA 架构并不依赖具体的硬件。

换句话说， VLA 架构是根据特定的机器人本体、特定场景，来生成动作信号，而 ViLLA 架构生成的是 “ 抓取 ” “ 移动 ” 这种通用动作标记，任务泛化能力更好，也更容易迁移到其他机器人平台。

给大伙儿一句话总结就是，GO-1 让机器人能从互联网的人类视频数据中学习，并且多了拆解任务的能力，提高复杂任务成功率的同时，泛化能力也变强了。

如果 GO-1 的效果真的像官方描述的那样，那么这对于整个人形机器人行业来说，或许都是一个好消息。

数据不愁，还不挑平台，这机器人训练起来可就顺手多了。就是不知道这个 GO-1 ，智元会不会选择继续开源。

听说，智元机器人明天还要放出个惊喜，咱们等一手好吧。

撰文：西西

编辑：江江&面线

美编：萱萱

图片、资料来源：

智元机器人（B站、微博）

智元机器人， VLA 进化到 ViLLA ，智元发布首个通用具身基座大模型 GO-1

AgiBot World Colosseo : Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

赞 (0)

等等党又赢了，今年可能会是智驾最卷的一年。。。

上一篇 2025年3月12日上午9:34

今日最佳：爷爷不自在了。

下一篇 2025年3月12日上午9:36

新闻资讯

演员林峯老婆张馨月又陷争议！保姆离职前被要求两次检查行李箱，网友：太不尊重人

来源 | 江南都市报近日，多网友发布林峯老婆张馨月直播画面，直播中，家里带宝宝的保姆表示顺风车到楼下要走了（离职），张馨月两次提出让其妈妈再次检查下保姆带走的行李箱，张馨月表示都是这样的流程。此外，保姆主动问及工资结算，张馨月表示下播就发，还让保姆收拾下刚洗完澡的卫生间。此事很快引发网友热议，有网友表示：“太不尊重人，阿姨都要走了，还让人家打…

2025年3月20日
新闻资讯

Coca-Cola 2024年北美市场创新之星：Sprite Chill Cherry Lime

在2024年，Coca-Cola公司推出了一款名为Sprite Chill Cherry Lime的新品，这款碳酸饮料迅速成为北美市场的销售冠军。Sprite Chill Cherry Lime以其独特的樱桃青柠口味和凉爽感赢得了广大消费者的青睐，不仅吸引了原有的Sprite粉丝，还成功转化了部分对碳酸饮料持保留态度的消费者。产品特点 Sprite Chi…

2025年3月11日
新闻资讯

玛莎·斯图尔特坦言曾因未被园艺俱乐部邀请而受伤，揭秘背后原因及园艺趣事

著名生活方式专家玛莎·斯图尔特近日公开坦言，她曾因未被家乡当地颇受欢迎的园艺俱乐部邀请而感到受伤。这位拥有无数粉丝和成功事业的女强人，竟也渴望融入邻里社群，这番坦诚的表白引发了广泛关注。被“忽视”的园艺女王斯图尔特透露，她并不知道自己为何一直没有收到园艺俱乐部的邀请，直到俱乐部主动邀请她参观她的花园，她才放下心中的芥蒂。“他们邀请我参观花园，我说，‘你知…

2025年3月29日
新闻资讯

杰克罗素梗犬受困三天奇迹生还：揭秘狗狗挖掘天性与安全隐患

爱犬失踪，无疑是主人最煎熬的噩梦。近日，一只名叫Ruby的杰克罗素梗犬就经历了这样一场惊魂事件，而结局却充满奇迹：它在被埋于乱石堆下三天后，竟然奇迹般地获救！根据Instagram用户simonrayner发布的信息，Ruby被困于洞穴中长达三天之久。幸运的是，一位朋友偶然听到了从洞穴深处传来的微弱声音，这才引发了搜寻行动。经过一番挖掘，救援人员终于将可…

2025年3月18日
新闻资讯

纽约上空的“燃烧人”之家：设计师Peti Lau打造曼哈顿奢华公寓，致敬自由奔放的艺术精神

纽约的繁华都市和内华达州黑石城的荒凉沙漠，看似毫无共同之处。然而，每年一度的“燃烧人节”（Burning Man）却能将这片沙地变成一个同样充满活力的艺术自我表达之都。而一位设计师Peti Lau，将“燃烧人节”的精神融入设计理念，为一位同样热爱“燃烧人节”的客户，在曼哈顿打造了一个色彩斑斓、充满想象力的奢华公寓。设计灵感：燃烧人节的自由与冒险 Peti …

2025年3月21日
新闻资讯

英伟达Blackwell平台发布：AI算力迎来新纪元

引领AI算力革新：英伟达发布Blackwell平台在AI技术飞速发展的当下，算力需求呈指数级增长。为了满足这一需求，英伟达近日正式发布了其最新的Blackwell平台，标志着AI计算能力迈入了一个全新的时代。该平台基于全新的Blackwell GPU架构，旨在为加速计算、AI训练和推理提供前所未有的性能和效率。 Blackwell平台的发布，是英伟达在AI…

2025年4月10日