Code前端首页关于Code前端联系我们

能听懂人类语音的Google DeepMind AI语音识别机器人——RT-2诞生!

terry 2年前 (2023-09-23) 阅读数 69 #AI人工智能

Google DeepMind 又发布 AI 机器人大事件!领先的人工智能研究机构周五学院宣布,通过训练人工智能聊天机器人,训练出一种新的机器人模型——机器人变形金刚2(RT-2)。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

RT-2 类似于机器人版本的 ChatGPT,Google DeepMind 将其称为视觉-语言-动作(VLA)模型的新版本。该模型可以教会机器人更好地识别视觉和语言线索,用自然语言解释人类给出的指令,并推断出适当的行动方案。他还可以接受英语以外语言的指令。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

通过链式推理,RT-2可以进行多种语义推理。即使概念复杂,RT-2 也能理解并引导机械臂执行精确的动作。例如,如果你让他找一把临时锤子,他会拿一块石头;如果你让他为疲倦的人选择一种饮料,他会选择红牛;如果你让他把一罐可乐转移到泰勒·斯威夫特的照片上,他也能完成这项工作。 。

据媒体报道,RT-2模型是在网络和机器人数据上进行训练的,利用了Google Bard等主要语言模型的研究进展,并结合了机器人数据(例如要移动的关节),然后这些知识被转化为机器人控制的通用指南,同时保持网络平台的功能。

Google DeepMind 博客文章写道,RT-2 展示了超出其所接触的机器人数据的一般能力以及语义和视觉理解能力,包括解释新命令和进行基本推理,例如关于对象类别或更高级别的推理。定义。想法)来响应用户命令。

将信息转化为行动的能力表明机器人有望更快地适应新情况和环境。

在使用 RT-2 模型进行超过 6,000 机器人测试后,研究团队发现 RT-2 在训练数据或“视觉”工作上的表现与之前的一样好型号 RT- 1 一样好。他的故事表现,意外情况几乎翻倍从RT-1的32%提高到62%

01 让机器人利用优秀的AI模型学习新技能

机器人技术领域正在悄然发生一场革命——融入语言建模的最新进展成长为机器人,让机器人变得更聪明、更智能。更了解情况。理解能力和解决问题的能力。

《纽约时报》科技记者 Kevin Roose 在 Google 机器人部门观看了动手演示。工程师向这些机器人发出指令:“消灭灭绝的动物。”一个单臂机器人猛冲了一会儿,然后伸展开来。他取下机械臂,张开爪子,将其放下,抓起面前桌子上的塑料恐龙制品。视频来源:

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲《纽约时报》

在这长达1小时的演示中,RT-2成功执行了“将大众汽车移至德国国旗”的复杂命令。 RT-2 找到并带走了一辆大众巴士模型,并将其放在几米外的一面小德国国旗上。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲ 两名 Google 工程师 Ryan Julian(左)和 Quan Vuong 在 RT-2 中成功“将大众汽车推上了德国国旗”。 (图片来源:《纽约时报》)

多年来,谷歌和其他公司的工程师通过使用“特殊指令列表”对其进行编程,训练机器人执行机械任务,例如翻转汉堡。然后,机器人多次执行该任务,每次获得满意的响应时,工程师都会调整指令。

此方法适用范围有限。但以这种方式训练机器人既缓慢又费力。这需要从全球试验中收集大量数据。如果你想教机器人做一些新的事情(比如移动汉堡、翻转煎饼),你通常需要从头开始构建它。

部分由于这些限制,与基于软件的机器人相比,硬件机器人正在缓慢改进。

近年来,Google 研究人员提出了一个想法:如果机器人使用广泛语言的 AI 模型(为自己学习新技能,而不是针对特定任务单独编程?

根据)研究科学家卡罗尔·豪斯曼 (Karol Hausman) 表示,他们大约两年前开始研究这些语言模型,并意识到知识如此之多,因此他们开始将它们连接到接受基于网络数据训练的机器人,使这些系统擅长识别视觉模式或语言并使用不同的语言进行工作。但是要让机器人达到相同的技能水平,他们需要收集一切信息、环境、第一手机器人数据。用于工作和情况。

RT- 2 建立在 RT-1 的基础上。它是一个多运动训练模型,用于从一组机器人数据中学习任务和对象。 Google 搜索功能使用了 RT-1 机器人在 17 个月内收集的运动数据,其中包括办公室厨房环境中的 13 个机器人。

Google 首次尝试将语言建模和物理机器人结合起来是一个名为 PaLM-SayCan 的研究项目,该项目于去年公布并引起了一些关注,但其使用受到了限制。机器人缺乏解释图像的能力,而这是理解世界的重要技能。他们可以为不同的任务编写分步说明,但无法将这些步骤转化为行动。

Google 的新 RT-2 机器人模型正是这样做的。这种“视觉-语音-动作”模型不仅可以看到和分析周围的世界,还可以告诉机器人如何行动。

它通过将机器人的运动转换为一系列数字(这个过程称为注释)并将这些注释合并到类似于语言模型的训练数据中来实现这一点。

最终,就像 ChatGPT 或 Bard 学会猜测哪些单词应该来自一首诗或历史文本一样,RT-2 可以学习预测机械臂应该如何移动来捡起球或将球收起来。苏打。您可以将其扔进回收箱。

02 使用视觉语言建模进行机器人控制

RT-2表明,视觉语言建模(VLM)可以转换为强大的视觉语言模型(VLA),用于预训练机器人的VLM输入集成数据以直接控制机器人。

RT-2 基于视觉语言模型 (VLM),该模型将一个或多个图像作为输入并生成一组通常表示自然语言文本的注释。此类 VLM 经过空间数据训练,可以执行诸如回答视觉查询、标记图像或识别对象等任务。 Google DeepMind 团队采用 PaLI-X 和 PaLM-E 模型作为 RT-2 的基础。

为了控制机器人,必须对其进行输出运动训练。研究人员通过将函数表示为模型输出中的注释(类似于语言隐喻)并将函数定义为可由配置设计者操作的字符串来解决这一挑战。-自然语言中的正常声音,如下:-2 训练。此类字符串的示例是机器人动作标签编号序列,例如“1 128 91 241 5 101 127 217”。

该字符串以一个标志开头,指示是否继续或结束当前部分而不执行下一个命令,然后是更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。

研究人员使用了机器人运动的离散版本,例如 RT-1 中的机器人运动,并表明将它们转换为字符串图像可以在机器人数据上训练 VLM 模型,因为这种模型的输入和输出空间不需要改变。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲RT-2架构和训练:研究人员共同改进了基于机器人和网络数据的预训练VLM模型。生成的模型获取机器人的相机图像并直接预测机器人的下一步动作。

03 整体性能和新兴能力更好

研究人员对 RT-2 模型进行了一系列定性和定量测试,进行了超过 6,000 次机器人测试。

在研究 RT-2 的新兴功能时,他们寻找需要将空间数据知识与机器人经验相结合的任务,然后确定了三类功能:符号理解、推理和人类认知❀。

每项任务都需要理解视觉语义概念以及执行机器人控制来处理这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令,其中要求机器人对机器人数据库中尚未找到的物体或场景执行操作。将知识从基于网络的数据转化为行动。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲ 机器人数据库中不存在的新兴机器人技能示例,需要通过网络预训练进行知识转移。

在所有类别中,研究人员指出,与之前的 RT-1 模型和 Visual Cortex (VC-1) 等模型相比,RT-2 的整体性能提高了 3 倍

,这些模型是根据大量视觉数据进行预训练的。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲ 紧急能力评估的成功率:RT-2 模型优于之前的 RT-1 和 VC-1 系列。

研究人员还进行了一系列评估,从第一次RT-1任务开始,该任务提供了机器人数据的示例,并继续不同程度地需要机器人来处理以前未见过的物体、背景和环境。在训练之前从 VLM 学习泛化技能。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲例如,在机器人从未见过的环境中,RT-2 可以泛化到新的情况。

RT-2 保持了机器人数据库中找到的原始任务的性能,并提高了机器人在以前未见过的领域的性能,将 RT-1 的 32% 提高到 62%,显示了大量预训练的显着好处。

此外,研究人员还观察到预编程的仅视线任务(例如 VC-1 和机器人操作的可重用表示(R3M))以及用于对象识别的 VLM 算法(例如操作)的显着改进开放世界对象(MOO)。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲RT-2在可见配送任务中实现了高性能,在不可见配送任务中优于多条生产线。

在一系列用于机器人任务的开放语言脚本上评估他们的模型,研究人员在模拟中取得了90%的成功率,高于之前的水平,包括 BC-Z (72%)、RT - 1 (74%) 和熔岩 (77%)。

研究人员随后在现实世界中评估了相同的模型(因为它是在模拟和真实数据上进行训练的),并展示了其开发新对象的能力,如下所示,除了蓝色立方体之外,训练数据中什么都没有出现。

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲RT-2 在真实的机器人语言表任务中表现良好。除了蓝色立方体之外,训练数据中没有任何对象。

受到大型语言模型中使用链式思维方法的启发,研究人员正在探索他们的模型,将机器人控制与链式思维推理相结合,以便能够在单一语言中学习长期规划和简单技能模型。

特别是,他们构建了一个具有数百个梯度步骤的 RT-2 变体,以提高其语言和手势技能,然后使用自然语言增强数据以添加额外的“规划”步骤。定义机器人将执行的动作的目的,然后是“动作”和动作的注释。

在这里,研究人员展示了这种思维和机器人最终行为的一个例子:

Google DeepMind AI机器人放大招——听懂人话的RT-2横空出世!

▲ 链式推理可以学习独立的模型,这些模型可以规划持久能力的序列并预测机器人的行为。

通过此过程,RT-2 可以执行更复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。得益于其 VLM 主干,RT-2 还可以基于图像和文本命令进行规划,从而实现基于视觉的规划,而当前的规划和行动方法(例如 SayCan)无法看到现实世界并完全依赖于语言。

04 结论:设计和编程控制机器人的巨大飞跃

多年来,研究人员一直试图赋予机器人比真实机器人更好的认知能力。 - 解决生活方式。情况 问题。此前,训练机器人需要很长时间。研究人员必须制定个人指南。但借助 RT-2 等 VLA 模型的强大功能,机器人可以获得更多信息来决定下一步该做什么。

加州大学伯克利分校机器人学教授Ken Goldberg表示,机器人仍然缺乏人类的能力,不擅长一些基本任务,但谷歌用大AI语言中的模型赋予机器人新的想法。即兴创作技能是有前途的发展。

谷歌没有计划出售 RT-2 机器人,也没有计划全面发布它们,但研究人员认为,这些带有语言的新机器只会用于家庭魔法。内置语言模型的机器人可以投入仓库,用于医药,甚至可以充当家政帮手——叠衣服、卸衣服、打扫房子。

Google DeepMind 机器人技术总监 Vincent Vanhoucke 认为,这为在人类环境中使用机器人打开了大门——在办公室、家里、任何有大量体力活动的情况。完成了。

显然,在混乱的物理环境中移动物体比在受控实验室中移动物体更困难。人类擅长清理桌子上溢出的饮料,但机器人需要更多的指导才能完成这项看似简单的任务。

鉴于大型人工智能语言模型经常出错或生成无意义的答案,将它们用作机器人的大脑会带来新的风险。但戈德堡教授表示,这些风险仍然很小。 “我们并不是在谈论让这些事情不受控制,”他说。 “在这些实验室环境中,他们只是试图推动某些事情的讨论。”

谷歌表示 RT-2 具有多项安全功能。除了每个机器人背面有一个大的红色按钮(按下该按钮可使机器人停止在轨道上)之外,该系统还使用传感器来防止其撞到人或物体。

RT-2内置的AI软件具有特殊的保护功能,可以用来防止机器人做出有害的事情。例如,谷歌的机器人经过训练,不会拿起盛有水的容器,因为如果水溢出,它们的设备可能会损坏。

Google 的 RT-2 机器人并不完美。在一次实际演示中,他认为一罐调味苏打水的味道是“橙色的”。有一次,当被问到桌子上有什么水果时,机器人回答“白色”,正确答案是香蕉。谷歌发言人解释说,该机器人使用了之前测试人员保存的问题答案,因为他们的 Wi-Fi 暂时关闭。

但缺陷并不能掩盖美丽。 RT-2 不仅是对现有 VLM 模型的简单而高效的修改,而且在构建通用物理机器人方面显示出前景,这些机器人可以推理、解决问题和解释信息以执行现实世界中的各种任务。

受到广泛的语言建模研究的启发,机器人变得越来越聪明。

来源:智东西

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门