向机器人展示“坚强的爱”可以帮助他们成功

导读根据USC计算机科学家的一项新研究，为帮助机器人成功，您可能需要表现出一些坚强的爱。在计算机模拟的操纵任务中，研究人员发现与人类对手

根据USC计算机科学家的一项新研究，为帮助机器人成功，您可能需要表现出一些坚强的爱。

在计算机模拟的操纵任务中，研究人员发现与人类对手一起训练机器人可以大大提高其对物体的抓地力。

研究合著者，计算机科学助理教授史蒂芬诺斯·尼古拉迪斯(Stefanos Nikolaidis)说：“这是使用对抗性人类用户进行的第一次机器人学习。”

“想象一下就像参加一项运动：如果您与一个总是让您获胜的人一起打网球，您将不会变得更好。与机器人相同。如果我们希望他们学习诸如抓地力之类的操纵任务，那么他们就可以帮助人们，我们需要挑战他们。”

这项名为“通过人类对抗游戏进行机器人学习”的研究于11月4日在智能机器人与系统国际会议上发表。USC博士生段佳丽和王谦是CC Jay Kuo教授的指导下的主要作者，以及卡内基梅隆大学的另一位合著者Lerrel Pinto。

从实践中学习

尼古拉迪斯(Nikolaidis)于2018年加入南加州大学维特比工程学院，他的团队使用强化学习，这是一种人工智能程序通过反复实验“学习”的技术。

机器人系统不仅仅限于完成诸如工业机器人之类的小范围重复任务，它还基于先前的示例“学习”，理论上增加了它可以执行的任务范围。

但是，创建通用机器人的挑战非常艰巨，部分原因是需要大量的培训。机器人系统需要查看大量示例，以学习如何以类人的方式操作对象。

例如，OpenAI令人印象深刻的机器人系统学会了用类人动物的手解决魔方，但是需要相当于10,000年的模拟训练才能学会操作该魔方。

更重要的是，机器人的灵活性非常具体。没有大量的培训，它就无法捡起物体，用另一个握把操纵它或抓握和搬运另一个物体。

“作为一个人，即使我知道物体的位置，我也不知道它重了多少，或者当我拿起它时会如何运动或表现，但我们几乎始终都能成功做到这一点。” 。

“这是因为人们对世界的行为非常直觉，但是机器人就像新生婴儿。”

换句话说，机器人系统很难推广，这是人类理所当然的技能。这看似微不足道，但可能会导致严重的后果。如果诸如抓地机器人之类的辅助机器人设备要履行其帮助残疾人的承诺，则机器人系统必须能够在现实环境中可靠运行。

人在循环

在克服这一问题方面非常成功的一项研究是“将人引入循环”。换句话说，人类通过展示完成任务的能力向机器人系统提供反馈。

但是，直到现在，这些算法已经做出了强有力的假设，即需要协作的人类主管来协助机器人。

尼古拉迪斯说：“我一直致力于人机协作，但实际上，人们并不总是在野外与机器人合作。”

例如，他指出了日本研究人员的一项研究，该研究人员在公共购物中心内放开了一个机器人，并观察到儿童多次“朝着它猛烈行动”。

那么，尼古拉迪斯想，如果我们利用人类的倾向使机器人变得更困难呢?如果不尝试显示如何更好地抓取对象，而是尝试将其拉出怎么办?通过思考，通过添加挑战，该系统将学会对现实世界的复杂性更加强大。

挑战要素

实验是这样的：在计算机仿真中，机器人试图抓住一个物体。人类在计算机上观察模拟机器人的抓地力。如果抓握成功，则人类会尝试使用键盘来指示方向，从而从机器人的抓握中抢走物体。

添加挑战元素可以帮助机器人了解较弱的抓紧力(例如，将瓶子握在顶部)与牢固的抓紧力(将其握在中间)之间的区别，这会使对手更难以抢走。

Nikolaidis承认，这是一个疯狂的主意，但它确实有效。

研究人员发现，经过人类对手训练的系统拒绝了不稳定的抓握，并迅速学习了这些物体的稳健抓握。在一个实验中，该模型在人类对手的掌握下成功率达到52%，而在人类协作者的掌握下成功率为26.5%。

尼古拉迪斯说：“机器人不仅学会了如何更稳固地抓取物体，而且还学会了以不同的方向使用新物体来获得更多的成功，因为它学会了更稳定的抓握。”

他们还发现，由人类对手训练的模型比模拟对手表现更好，后者的抓取成功率高达28%。因此，机器人系统从有血有肉的对手那里学习得最好。

尼古拉迪斯解释说：“这是因为人类比学过的对手更能理解稳定性和鲁棒性。”

“机器人试图捡拾东西，如果人类试图破坏东西，它将导致更稳定的抓握。并且由于它学会了更稳定的抓握，即使物体处于不同的位置，它也将更频繁地成功。换句话说，它已经学会了概括。这很重要。”

寻找平衡

尼古拉迪斯(Nikolaidis)希望该系统能在一年内在真正的机器人手臂上运行。这将提出新的挑战-在现实世界中，机器人关节中的丝毫摩擦或噪音会把东西扔掉。但是尼古拉迪斯(Nikolaidis)对机器人对抗性学习的未来充满希望。

尼古拉迪斯说：“我认为我们只是通过对抗性人类游戏触及了学习的潜在应用面。”

“我们也很高兴探索在其他任务中的在环对抗学习，例如避免机械臂和移动机器人(例如自动驾驶汽车)的障碍。”

这就引出了一个问题：我们愿意进行对抗性学习多远?我们愿意踢和击败机器人屈服吗?尼古拉迪斯说，答案在于与我们的机器人同行寻求艰难的爱与鼓励之间的平衡。

尼古拉迪斯说：“在我们提出的算法中，我感到艰难的爱再次像一项运动：它属于特定的规则和约束。”

“如果人类只是打破了机器人的抓手，机器人将不断失败并且永远不会学习。换句话说，机器人需要受到挑战，但仍然可以成功学习。”