智元推出首个通用具身基座模型：不做大模型，机器人没有未来

APP下载

扫一扫

下载观察者APP

智元推出首个通用具身基座模型：不做大模型，机器人没有未来

分享到：

2025-03-10 17:23:31 字号：A- A A+ 来源：观察者网

3月10日，智元机器人正式发布首个通用具身基座大模型：智元启元大模型（Genie Operator-1）。

“对机器人公司，你如果不做大模型，那是属于没有未来的机器人，没有智能化，没有作业能力只是一个硬件。他能做的事情非常有限，所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在线上媒体沟通会上如是说。

据介绍，智元提出Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，持续进化，将具身智能推上一个新台阶。

GO-1：具身智能的全面创新

GO-1大模型借助人类和多种机器人数据，让机器人获得了革命性的学习能力，可泛化应用到各类的环境和物品中，快速适应新任务、学习新技能。同时，它还支持部署到不同的机器人本体，高效地完成落地，并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面：

•人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。

•小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，使得后训练成本非常低。

•一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。

•持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

GO-1：VLA进化到ViLLA

GO-1大模型，基于具身领域的数字金字塔所构建，吸纳了人类世界多种维度和类型的数据，让机器人在一开始就拥有了通用的场景感知和语言能力，通用的动作理解能力，以及精细的动作执行力。

数字金字塔的底层是互联网的大规模纯文本与图文数据，可以帮助机器人理解通用知识和场景。在这之上是大规模人类操作/跨本体视频，可以帮助机器人学习人类或者其他本体的动作操作模式。更上一层则是仿真数据，用于增强泛化性，让机器人适应不同场景、物体等。金字塔的顶层，则是高质量的真机示教数据，用于训练精准动作执行。

现有的VLA（Vision-Language-Action）架构，未有利用到数字金字塔中大规模人类/跨本体操作视频数据，缺少了一个重要的数据来源，导致迭代的成本更高，进化的速度更慢。

那么，怎样的架构才能充分利用好这些数据？

智元提出了全新的Vision-Language-Latent-Action (ViLLA) 架构。与VLA架构相比，ViLLA通过预测Latent Action Tokens（隐式动作标记），弥合了图像-文本输入与机器人执行动作之间的鸿沟，能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力。基于该架构，智元打造了通用具身基座大模型——GO-1。它由VLM(语言视觉模型)和MoE(专家混合模型)组成，输入为多相机的视觉信号、力觉信号、语言指令等多模态信息，直接输出机器人的动作执行序列。

这样，GO-1大模型可以帮机器人完成全面的“基础教育”和“职业教育”，机器人天然能适应新的场景，可以轻松面对多种多样的环境和物体，快速学习新的操作。

用户给出指令告诉机器人要做的事情，比如“挂衣服”，模型就可以根据看到的画面，理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据，设想这个过程应该包括哪些操作步骤，最后执行这一连串的步骤，完成整个任务的操作。

在更深层的技术面，因为GO-1大模型在构建和训练阶段，学习了互联网的大规模纯文本和图文数据，所以能理解“挂衣服”在此情此景下的含义和要求；学习过人类操作视频和其他机器人的各种操作视频，所以能知道挂衣服这件事通常包括哪些环节；学习过仿真的不同衣服、不同衣柜、不同房间，模拟过挂衣服的操作，所以能理解环节中对应的物体和环境并打通整个任务过程；最后，因为学习过真机的示教数据，所以机器人能精准完成整个任务的操作。

具体来说，VLM作为通用具身基座大模型的主干网络，继承开源多模态大模型InternVL2.5-2B的权重，利用互联网大规模纯文本和图文数据，让GO-1大模型具备了通用的场景感知和理解能力。

隐动作专家模型作为第一个专家模型，是GO-1大模型中隐式的规划器，它利用到了大规模人类操作和跨本体操作视频，让模型具备动作的理解能力。

GO-1大模型的最后是作为动作预测器的动作专家模型，它利用高质量的仿真数据、真机数据，让模型具备了动作的精细执行能力。

智元通用具身基座大模型GO-1的推出，标志着具身智能向通用化、开放化、智能化方向快速迈进：

•从单一任务到多种任务：机器人能够在不同场景中执行多种任务，而不需要针对每个新任务重新训练。

•从封闭环境到开放世界：机器人不再局限于实验室，而是可以适应多变的真实世界环境。

•从预设程序到指令泛化：机器人能够理解自然语言指令，并根据语义进行组合推理，而不再局限于预设程序。

智元表示，GO-1大模型将加速具身智能的普及，机器人将从依赖特定任务的工具，向着具备通用智能的自主体发展，在商业、工业、家庭等多领域发挥更大的作用，通向更加通用全能的智能未来。

#稚晖君或再掀机器人行业风暴##智元机器人发布首个通用具身基座模型#

本文系观察者网独家稿件，未经授权，不得转载。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签智元机器人大模型
- 责任编辑: 汤普济
- 网易回应“将关闭公有云”
  
  2025-03-10 16:10 观网财经-科创
- 苹果折叠屏被曝将搭载硅碳负极电池，宁德新能源独供
  
  2025-03-10 15:46 观网财经-科创
- 登顶热搜，美的被曝强制18点20下班？官方回应，网友吵翻
  
  2025-03-10 14:24 大公司
- 国家机器人创新中心与华为开展具身智能领域合作交流
  
  2025-03-10 10:45 观网财经-科创
- 华为组建医疗卫生军团，已成立超20个军团
  
  2025-03-09 14:48 观网财经-科创
- ASML：会继续在中国市场提供维修服务
  
  2025-03-09 12:47 观网财经-科创
- 代工还是AI？解读中国冰箱出口冠军加入TCL第五年成绩单
  
  2025-03-09 10:47 观网财经-消费
- 新一轮大浪淘沙，中国白酒还能留下几家？
  
  2025-03-08 09:36 观网财经-消费
- 仅用3小时，这个中国团队就复刻出开源版Manus
  
  2025-03-07 23:06
- 茶咖日报｜奈雪的茶2024年预亏超8.8亿元；瑞幸、蜜雪背后纸杯供应商开启申购
  
  2025-03-07 21:20 观网财经-消费
- AI热情高涨，全球最大半导体展会将在上海举办
  
  2025-03-07 19:53 观网财经-科创
- 四季度收入破亿，叮咚买菜准备好再次扩张了吗？
  
  2025-03-07 16:14 观网财经-消费
- 争议旋涡中，Manus社交平台账号被封
  
  2025-03-07 16:10
- 台积电：今年在台湾再开11条生产线
  
  2025-03-07 15:42 观网财经-科创
- 6年换了4位CEO的汉堡王中国，颓势之下背水一战
  
  2025-03-07 11:52 观网财经-消费
- 上市公司澄清“被华为900亿收购”后，大跌超6%
  
  2025-03-07 11:26 观网财经-科创
- 告别“吃储存”，微信新功能上线，可清理原图、原视频
  
  2025-03-07 11:10 观网财经-互联网
- 分析师爆料：苹果首款折叠手机明年量产，售价超1.4万
  
  2025-03-07 09:06 观网财经-科创
- 美股盘前涨超6%，京东2024年四季度收入实现双位数增长
  
  2025-03-07 08:44 观网财经-互联网
- 霸王茶姬赴美IPO获证监会备案，冲击“新茶饮第五股”
  
  2025-03-07 08:36 观网财经-消费
搜索

   观察者头条查看全部

“荒谬言论”，默茨：我会跟特朗普谈谈评论 2

中方同意接触，美媒紧盯：事关重大、令人鼓舞评论 68

印度指控巴与恐袭有关，称空袭是行使自卫权评论 300

直播：跟着军工组探访俄罗斯兵器博物馆评论 127

巴军：击落6架印军机，含3架新锐“阵风” 评论 1302

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

智元推出首个通用具身基座模型：不做大模型，机器人没有未来

网易回应“将关闭公有云”

苹果折叠屏被曝将搭载硅碳负极电池，宁德新能源独供

登顶热搜，美的被曝强制18点20下班？官方回应，网友吵翻

国家机器人创新中心与华为开展具身智能领域合作交流

华为组建医疗卫生军团，已成立超20个军团

ASML：会继续在中国市场提供维修服务

代工还是AI？解读中国冰箱出口冠军加入TCL第五年成绩单

新一轮大浪淘沙，中国白酒还能留下几家？

仅用3小时，这个中国团队就复刻出开源版Manus

茶咖日报｜奈雪的茶2024年预亏超8.8亿元；瑞幸、蜜雪背后纸杯供应商开启申购

AI热情高涨，全球最大半导体展会将在上海举办

四季度收入破亿，叮咚买菜准备好再次扩张了吗？

争议旋涡中，Manus社交平台账号被封

台积电：今年在台湾再开11条生产线

6年换了4位CEO的汉堡王中国，颓势之下背水一战

上市公司澄清“被华为900亿收购”后，大跌超6%

告别“吃储存”，微信新功能上线，可清理原图、原视频

分析师爆料：苹果首款折叠手机明年量产，售价超1.4万

美股盘前涨超6%，京东2024年四季度收入实现双位数增长

霸王茶姬赴美IPO获证监会备案，冲击“新茶饮第五股”

“荒谬言论”，默茨：我会跟特朗普谈谈

担心美国施压，在华德企：希望新一届德国政府确立平衡立场

“以方计划会越过另一条红线”，欧洲6国外长发布联合声明

印空军：今起在与巴基斯坦接壤地区进行演习

中方同意接触，美媒紧盯：事关重大、令人鼓舞

拜登卸任后首次受访：特朗普太掉价了，美国不代表掠夺

哥伦比亚准备加入“一带一路”？中方回应

印度指控巴与恐袭有关，称空袭是行使自卫权

首批145％关税中国货船抵洛杉矶港，美业界预警…

立陶宛和拉脱维亚又使坏，俄方怒斥

俄方宣布：8月底，普京将访华

特朗普又要给波斯湾改名了

英国快和美国谈成了？条件是…

改道、停飞，各大航司又遭罪了

巴军方公布回击细节：两国战机均未侵入对方领空

巴军：击落6架印军机，含3架新锐“阵风”