机器人导游上岗:波士顿动力探索基础模型赋能机器人应用
导语
近年来,人工智能浪潮席卷全球,其中生成式 AI 技术更是发展迅猛,催生了一系列令人惊叹的应用。从妙笔生花的聊天机器人,到以假乱真的图像生成算法,再到栩栩如生的语音生成器,AI 正逐渐走进大众视野,并展现出改变世界的潜力。
波士顿动力公司敏锐地捕捉到这一趋势,并积极探索 AI 技术与机器人技术的融合。他们将目光投向大型基础模型(FM),这些经过海量数据训练的 AI 系统拥有强大的学习和推理能力,为机器人应用开辟了全新的可能性。
Spot 机器人化身导游,开启智能交互新体验
为了验证基础模型在机器人领域的应用潜力,波士顿动力公司设计了一款别出心裁的机器人导游。这款导游由 Spot 机器人与 ChatGPT 等 AI 模型协同驱动,能够与观众进行自然流畅的互动,并根据周围环境做出智能决策。
Spot 机器人化身导游的秘诀在于巧妙融合了多种 AI 技术。大型语言模型(LLM)赋予了 Spot 语言理解和生成的能力,使其能够根据预设剧本和实时信息,生成生动有趣的讲解内容。同时,视觉问答 (VQA) 模型帮助 Spot 识别周围环境,并对看到的物体进行描述。此外,语音识别技术让 Spot 能够“倾听”观众的问题,并做出相应的回应。
涌现行为:AI 赋予机器人的惊人潜力
在开发过程中,研究人员发现,即使是简单的指令,也能激发出 AI 模型的“涌现行为”。例如,当被问及“谁是 Marc Raibert?”时,Spot 竟然主动前往 IT 帮助台寻求答案。而在被问及“你的前辈是谁?”时,Spot 则走向展示早期 Spot 机器人的区域。
这些例子表明,AI 模型能够进行复杂的联想和推理,并根据情境做出出人意料的举动。这为未来机器人应用带来了无限可能,例如,机器人可以根据用户的语言指令完成复杂的任务,或在遇到问题时自主寻求帮助。
展望未来:AI 与机器人技术携手共创智能未来
虽然这款机器人导游仍处于实验阶段,但其展现出的潜力已经令人惊叹。未来,AI 与机器人技术的融合将进一步推动人机交互方式的变革,为我们带来更加智能、便捷的生活体验。
相关阅读
Emergent Abilities of Large Language Models
Sparks of Artificial General Intelligence: Early experiments with GPT-4
VQA: Visual Question Answering
PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3
Using an LLM to direct our robot Digit