谷歌DeepMind推出RT-2,开启机器人理解力的新篇章
导语
长久以来,人们对未来世界的畅想中总少不了机器人的身影,它们被寄予了勤劳、友善甚至富有魅力的期待。然而,现实中的机器人技术发展却远不如预期,始终停留在科幻小说的想象之中。谷歌DeepMind发布的RT-2,为机器人走入现实带来了新的希望。
RT-2:机器人理解力的突破
RT-2,全称Robotics Transformer 2,是一种全新的视觉-语言-动作 (VLA) 模型。它基于Transformer模型架构,并利用来自网络的海量文本和图像数据进行训练,最终能够直接输出机器人动作指令。RT-2 将网络数据中的知识迁移到机器人行为中,使机器人能够“说”机器人语言。
机器人学习的挑战与RT-2的革新
创造真正“有用”的机器人都面临着巨大的挑战。因为机器人需要在高度变化的现实环境中处理复杂抽象的任务,甚至需要应对从未见过的新情况。
与聊天机器人不同,机器人需要在现实世界中“扎根”,将知识转化为实际行动。例如,机器人不仅需要学习关于苹果的一切知识,还需在实际场景中识别苹果,将其与其他物体区分开来,并最终学会如何操控它。
传统的机器人训练方式极其耗时且成本高昂。RT-2的出现,彻底革新了机器人学习的方式。通过融合视觉、语言和动作,RT-2 使机器人能够像人类一样理解世界并执行任务。
从网络数据到机器人行动
之前的机器人系统依赖于复杂的系统堆栈,高级推理和低级操控系统之间需要进行繁琐的“沟通”,才能最终驱动机器人行动。
RT-2 则消除了这种复杂性,它将复杂的推理能力和动作输出能力整合到一个单一模型中。只需少量机器人训练数据,RT-2 就能将其从网络数据中学习到的概念应用到全新的机器人行动中,即使是从未训练过的任务也能胜任。
例如,如果要让以前的机器人系统学会扔垃圾,需要明确训练它们识别垃圾、拾取垃圾并将其扔进垃圾桶。而RT-2 由于能够利用网络数据进行学习,它已经具备了对垃圾的认知,无需专门训练就能识别垃圾,甚至知道如何扔垃圾。
机器人技术的未来展望
RT-2 将信息转化为行动的能力,让机器人能够更快地适应新环境和新情况。研究团队发现 RT-2 在全新“未知”场景中的表现提升了一倍。
这意味着,借助 RT-2,机器人能够像人类一样学习,将已有的知识应用到新的情境中。
RT-2 不仅展示了人工智能领域的最新进展如何迅速应用到机器人技术中,也预示着通用型机器人时代的到来。RT-2 的出现让我们看到了机器人技术光明未来。