Code前端首页关于Code前端联系我们

Deep TAMER:一种用于训练机器人的新深度学习算法,TAMER 的扩展

terry 2年前 (2023-09-23) 阅读数 102 #AI人工智能

美国陆军研究实验室和德克萨斯大学奥斯汀分校的研究人员开发了一种用于机器人或计算机程序的新技术,以学习如何交互与人类。教练通过沟通来完成任务。研究结果将于 2 月 2 日至 7 日在路易斯安那州新奥尔良举行的人工智能进展会议上公布和展示。

来自 ARL 和 UT 的研究人员考虑了人类以批评形式提供实时反馈的具体案例。德克萨斯大学奥斯汀分校的教授·彼得·斯通博士与布拉德诺克斯的前博士生TAMER(即通过评估代理人进行的增强手动训练)首先介绍了ARL/UT团队开发了一种名为Deep TAMER的新算法。

Deep TAMER:用于训练机器人的深度学习新算法,TAMER的扩展

这是 TAMER 的扩展,它使用深度学习(一种受大脑启发的机器学习算法),以便机器人可以通过与人类一起短时间观看视频流来学习如何执行教练任务。

根据研究员博士的军队的说法。加勒特·沃内尔(Garrett Warnell)团队考虑了这样一个场景,人类通过观察特工并给予批评来教代理人如何做到这一点,例如“干得好”或“干得不好”——类似于人类如何训练狗做戏法。沃内尔表示,研究人员正在扩展该领域之前的工作,以允许对机器人或计算机程序进行训练,这些机器人或计算机程序现在可以通过图像观察世界,这是设计在现实世界中工作的学习代理的重要的第一步。

当前的许多人工智能技术都要求机器人与环境长时间交互,以学习如何最好地执行任务。在此过程中,代理可能会执行不仅错误的操作,例如机器人在墙上行走,而且会像机器人在悬崖边缘行走一样灾难性。沃内尔表示,人类的帮助将加快代理人的速度并帮助他避免潜在的陷阱。

作为第一步,研究人员通过使用 15 分钟的人类提供的反馈来训练代理人在雅达利保龄球比赛中比人类表现得更好,从而证明了 Deep TAMER 的成功——这项任务已被证明甚至对国家也有用。最先进的球员。用于困难人工智能的最先进方法。 TAMER 训练的特工表现良好,业余训练师和职业 Atari 玩家的平均水平也一样。

在未来一到两年内,研究人员有兴趣探索最新技术在更多场景中的应用:例如,除了雅达利保龄球之外的视频游戏和其他模拟环境,以表示使用机器人时发现代理和环境的类型在现实世界。

该工作将发表在AAI 2018会议论文集上。

“未来的军队将是自主士兵和朋友一起工作的一支,”瓦内尔说。 “当人类和自主人员能够首先接受训练时,团队将不可避免地被要求在他们从未见过的新环境中执行任务,例如搜索救援或监视训练,但人工智能代理目前还没有。

Deep TAMER 是研究人员设想的一系列研究的第一步,这些研究将使人类自主团队在陆军中取得更大的成功。最终,他们期望自主代理能够以各种方式快速、安全地向人类队友学习,例如演示、自然语言教学和批评。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门