导语
长久以来,机器人始终是人类对未来科技的终极想象。它们被寄予厚望,成为高效可靠、乐于助人的伙伴。然而,机器人技术的发展却始终停滞不前,仿佛困在科幻小说的虚构世界中。
如今,谷歌DeepMind推出了一项突破性的机器人技术成果,将我们带向拥有乐于助人机器人的未来。全新视觉-语言-动作模型(VLA)——RT-2,将彻底改变机器人与现实世界的交互方式。
突破性的RT-2模型
RT-2是首个基于Transformer架构的VLA模型,通过学习网络上海量的文本和图像数据,它能够将人类的指令转化为机器人可执行的动作。正如语言模型通过学习文本理解世间万物,RT-2也通过学习网络数据指导机器人的行为。
换句话说,RT-2赋予了机器人理解人类语言的能力。
机器人学习的挑战
打造乐于助人的机器人一直是一项艰巨的挑战。机器人需要具备在复杂多变的环境中执行抽象任务的能力,尤其是在面对从未见过的场景时。
与聊天机器人不同,机器人需要在现实世界中“脚踏实地”。它们的学习过程不仅仅是了解关于某个物体的知识,例如苹果的生长方式、物理特性,或者它与牛顿的故事。机器人需要能够在特定环境中识别苹果,将其与其他物体区分开来,理解它的外观,最重要的是,知道如何拿起它。
传统方法需要对机器人进行海量数据的训练,涵盖物理世界中的每一个物体、环境、任务和情况,这不仅耗时耗力,也限制了机器人技术的普及。
RT-2带来的变革
近年来,研究人员在提升机器人推理能力方面取得了显著进展,例如思维链提示技术,以及PaLM-E等视觉模型的应用,帮助机器人更好地理解周围环境。RT-1则证明了Transformer架构在机器人学习中的潜力,它能够帮助不同类型的机器人相互学习。
然而,直到RT-2的出现,机器人仍然依赖于复杂的系统堆栈,高级推理和低级操作之间缺乏高效的沟通。想象一下,当你想要做某件事时,需要将每个动作指令逐一发送给身体的各个部位。RT-2消除了这种复杂性,它不仅能够像基础模型一样进行复杂的推理,还可以直接输出机器人动作指令。更重要的是,它只需少量机器人训练数据,就能够将学习到的概念应用到新的场景中,即使是从未接受过训练的任务。
例如,以前的机器人需要经过专门训练才能扔掉垃圾,而RT-2能够从海量网络数据中学习,无需专门训练就能识别垃圾,甚至知道如何处理它。
机器人技术的未来
RT-2将信息转化为行动的能力,为机器人快速适应新环境和情况带来了希望。在超过6000次机器人试验中,RT-2在已知任务中的表现与RT-1相当,而在未知场景中的表现则提升了一倍,达到62%。
RT-2让机器人能够像人类一样学习,将学到的概念应用到新的情境中。
RT-2不仅展示了人工智能的快速发展如何推动机器人技术的进步,也为通用机器人的未来带来了无限可能。虽然在打造真正融入人类社会的乐于助人机器人方面还有很长的路要走,但RT-2让我们看到了触手可及的机器人技术的美好未来。