-
全球首个端到端抓取大模型发布,国产机器人攻克大瓶颈?
-
连政gczhewanxgun
最后更新: 2025-01-10 14:13:45在刚刚结束的 NVIDIA CES 2025 发布会上,全场唯一的轮式人形机器人托举起了英伟达新一代显卡产品 RTX5090 引发关注。而该机器人正是来自北京银河通用机器人有限公司的Galbot。
与此同时,在英伟达位于美国拉斯维加斯 Fountainebleu 展台上,Galbot 机器人还首次进行了真机演示。观众在现场24小时无人值守的便利店场景中,通过iPad模拟下单,即可体验机器人在便利店中取货、送货的便捷服务。
Galbot 凭借高效、流畅的工作展示,也让其背后的银河通用具身大模型技术和创新成果走向台前。1月9日,银河通用对外正式发布GraspVLA,号称全球首个端到端具身抓取基础大模型(Foundation Model)。
据银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分,其中预训练完全基于合成大数据。即无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程,和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力,解决了世界范围内具身通用机器人当前发展的两大瓶颈—— 数据瓶颈和泛化瓶颈。
此外,针对特别需求,GraspVLA 的后训练则仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时,还能形成符合产品需求的专业技能。
仅通过合成大数据的预训练
就可以实现充分泛化
具体而言,银河通用提出了 VLA(视觉-语言-动作模型) 达到基础模型,所需满足的七大泛化情况,并以GraspVLA进行展示。
光照泛化。咖啡厅、便利店、生产车间、KTV 等不同光照条件下,光线的冷暖、强弱变化,包括渐变和骤变,以及在极端黑暗环境下移动目标物体时,模型都应该具备准确找到并正常抓取物体的能力。
文内图片展示包括2倍、3倍或5倍速。“银河通用”公众号
背景泛化。实际环境中,机器人工作场景不尽相同,模型需要面对不同材质、不同纹理的桌面和操作台,甚至动态变化的背景画面。
平面位置泛化。模型还需要面对将物体在桌面上随意平移、旋转的情况。
空间高度泛化。即使面对物体摆放高低错落的工作台,模型也应该可以从容抓取。
动作策略泛化。模型应实时进行推理决策,不仅会移动跟随目标,对于物体竖放、倒放等不同摆放方式,还可根据物体和夹爪的位姿自动调整策略,选择最安全合理的抓取方式,处理复杂情况。
动态干扰泛化。真实工作场景复杂多变,机器人在执行任务时常常会受到干扰。在工作过程中,即使往工作空间中随意添加干扰物体,甚至发生撞击并使目标物体随机移位,模型也需要可以稳定地完成任务。
物体类别泛化。银河通用称,在上述测试中,所有物体、场景、摆放方式均未进行任何训练,GraspVLA 仅通过仿真合成数据学习到的语义和动作能力,就实现了在真实世界中零样本泛化测试。
此外,通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练,对于没有学习过动作数据的物体类别,GraspVLA 也能把已掌握的动作能力泛化迁移:
通过少量真实数据的后训练
即可满足特定场景特殊需求
另一方面,经过合成大数据的预训练,GraspVLA 已经天然满足大多数应用需求,但是在产品和特定场景中常常有一些特殊需求,因此模型需要拥有对新需求的快速适应及迁移能力。
银河通用介绍,以商超场景为例,用户希望模型按照顺序取出同类商品。为满足用户需求,针对一箱怡宝矿泉水,仅需采集少量(少于一个人遥操一天)的真实数据,就能让 GraspVLA 理解并满足按序抓取的需求。
GraspVLA在经过怡宝一人/天采集数据的后训练,就可以举一反三,将这种少样本习得的行为自动迁移到其他品牌的饮品(农夫山泉、东方树叶),按摆放顺序分别抓取了瓶身颜色不同,瓶盖大小不一的同类商品。这展现了天量合成大数据预训练达成的基础模型。
工业场景中,往往有大量行业专用的特殊零件。虽然模型仅需预训练就可以抓起任意零件,但难以直接根据语言指令抓起对应物体,比如指定“抓取车窗控制器”,但模型抓起了接线座。
为了提升模型识别罕见零件的能力,仅需采集少量轨迹进行快速后训练。GraspVLA 就可以迅速掌握诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中精准找出对应零件。
在家庭场景中,人们对机器人的行为会有特定的偏好,例如抓取杯子时不要碰到杯子内壁。同样通过采集少量带偏好的抓取轨迹,GraspVLA 即可学会按照自然语义抓取。
对此,银河通用表示,这种预训练全合成大数据方案在人力和资金投入上成本更低,时间效率更高,可持续发展性更好,也是 VLA 模型商业化应用中必备的能力。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 连政 
-
鸿蒙原生版微信正式上架,腾讯公布开发历程
2025-01-09 21:35 观网财经-科创 -
云巨头警告:美国AI禁令,可能将GPU市场拱手让给中国
2025-01-09 17:49 观网财经-科创 -
北斗短信、无人机基站等,现身地震抢险救援和通信保障
2025-01-09 17:14 观网财经-科创 -
全球三分之二iPad、超亿台手机都是“川渝造”
2025-01-09 17:02 观网财经-科创 -
中国航司正迅速填补西方空缺
2025-01-09 16:57 航空航天 -
债务是中性的,既不是魔鬼也不是灵丹妙药
2025-01-09 15:50 问诊2025中国经济 -
小米、联想、华为小折叠挤进全球前五,苹果也快入局了?
2025-01-09 15:14 观网财经-科创 -
中原地产:内地买家2024年在香港购屋的数量和金额创纪录
2025-01-09 15:14 观网财经-房产 -
外媒:外卖平台主动反超时,可降低内卷程度,提升骑手工资
2025-01-09 14:16 观网财经-互联网 -
手机也加入国补了!天猫买手机、数码产品立享单品最高500元补贴
2025-01-09 13:45 观网财经-互联网 -
微信被美国移出“恶名市场名单”,多家中国企业仍在列
2025-01-09 11:10 -
去年全球手机面板出货突破22亿片,创历史新高
2025-01-09 10:58 观网财经-科创 -
离岸人民币汇率连跌3个月,央行出手:600亿!
2025-01-09 10:27 香港 -
全球首款卷轴屏电脑亮相,起售价2.6万
2025-01-08 20:13 观网财经-科创 -
重大突破!中国企业首创RGB三维控色液晶显示技术
2025-01-08 19:36 观网财经-科创 -
淘宝也上线了“送礼物”功能,三大平台角逐社交电商
2025-01-08 17:08 电子商务 -
国家发改委:京东即将接入支付宝
2025-01-08 16:05 观网财经-互联网 -
很快将演示核聚变突破?奥尔特曼又画大饼
2025-01-08 16:03 大公司 -
传上汽和华为明天官宣合作,双方尚未回应
2025-01-08 15:11 观网财经-科创 -
全球六大手机品牌均未在美国CES发新品
2025-01-08 15:04 观网财经-科创
相关推荐 -
-
“美国‘记吃不记打’,再蠢下去中国就要赢了” 评论 138“中国令美国望尘莫及,NASA至少落后四年!” 评论 152“洛杉矶完蛋了”,特朗普怒批:都是他的错! 评论 326离任前,他转脸来了句:这些美企比中国风险大 评论 78债务是中性的,既不是魔鬼也不是灵丹妙药 评论 124最新闻 Hot
-
“中国令美国望尘莫及,NASA至少落后四年!”
-
“让我们吞并美国三个州如何?”
-
“美国‘记吃不记打’,再蠢下去中国就要赢了”
-
“就像原子弹砸在美国”
-
“稀土矿远低于中企出价卖给美企”,原来是美国丹麦捣鬼?
-
特朗普立的flag,要倒了
-
雷蒙多放话:下周敲定,不能等到200万中国车在美国路上了…
-
最高法院5:4,驳回
-
欧尔班挑战者挑衅:押注中国,错了
-
“洛杉矶市长面无表情拒绝回答”
-
意大利总理:这是特朗普对中国的“警告”
-
印方心机:从蒙古买,绕远走俄罗斯,也不走中国
-
中国AI论文紧咬美国,国内4所高校冲进10强
-
“中美像两只大猩猩,我们可以当两者间的小型动物”
-
又一起,“与韩国失事客机同机型”
-
离任前,他转脸来了句:这些美企比中国风险大
-