首页 >> 何静

训练机器人通过半透明场景识别物体位置宁德

2022-10-10 23:11:38 宁德

训练机器人通过“半透明”场景识别物体位置

随着越来越多的机器人进入多种环境，研究人员正在努力使与人类的互动尽可能顺畅自然。培训机器人以立即响应语音指令，例如“拿起玻璃杯，将其移至右侧”等，这在许多情况下是理想的，因为它最终将实现更直接，更直观的人机交互。但是，这并不总是那么容易，因为它需要机器人理解用户的指令，而且还需要知道如何根据特定的空间关系移动对象

德国弗赖堡大学的研究人员最近设计了一种新的方法，用于教机器人如何按照人类用户的指示来移动对象，该方法通过对“半透明”场景表示进行分类。他们的论文已在arXiv上预先发表，将于6月在巴黎举行的IEEE国际机器人与自动化会议上发表。

“在我们的工作中，我们专注于关系对象放置说明，例如'将杯子放在盒子的右边'或'将黄色玩具放在盒子的顶部，” Oier Mees，一位研究人员这项研究告诉TechXplore。“为此，机器人需要推理出杯子相对于盒子或任何其他参考对象的放置位置，以便再现用户描述的空间关系。”

训练机器人以了解空间关系并相应地移动对象可能非常困难，因为用户的指令通常不会在机器人观察到的较大场景中划定特定位置。换句话说，如果人类用户说“将杯子放在手表的左侧”，则机器人应将杯子放置在离手表多远的地方，以及不同方向之间的确切边界在哪里？的前面，后面等）？

梅斯说：“由于这种固有的含糊性，也没有可用于学习模拟空间关系的真实性或'正确'的数据。” “我们从辅助学习的角度解决了空间关系的地面真像素式注释不可用的问题。”

Mees和他的同事设计的方法背后的主要思想是，当给定两个对象以及代表它们所在背景的图像时，确定它们之间的空间关系就容易了。这使机器人可以检测一个物体是否在另一个物体的左侧，上方，前方等等。

该图概述了研究人员设计的方法是如何工作的。辅助的CNN，称为RelNet，经过训练可以在给定输入图像和两个注意蒙版的情况下预测空间关系，这两个注意蒙版涉及形成关系的两个对象。训练后，可以通过在不同的空间位置实施商品的高级功能来“诱骗”网络对幻觉场景进行分类。图片来源：Mees等。

虽然识别两个对象之间的空间关系并没有指定应在何处复制这些关系，但在场景中插入其他对象可能会允许机器人推断多个空间关系的分布。将这些不存在的对象添加到机器人所看到的内容中，应允许它评估场景在执行给定动作时的外观的）。

梅斯说：“通常，逼真地将物体“粘贴”到图像中需要访问3-D模型和轮廓，或者精心设计生成对抗网络的优化程序。“此外，天真地“粘贴”图像中的对象蒙版会产生细微的像素伪像，从而导致明显不同的特征，并导致错误地将注意力集中在这些差异上。我们采用了不同的方法，并将对象的高级特征植入场景的特征图中由卷积神经网络生成以产生幻觉的场景表示，然后将其分类为获取学习信号的辅助任务。”

Before training a convolutional neural network (CNN) to learn spatial relations based on hallucinated objects, the researchers had to ensure that it was capable of classifying relations between individual pairs of object based on a single image. Subsequently, they "tricked" their network, dubbed RelNet, into classifying "hallucinated" scenes by implanting high-level features of items at different spatial locations.

迈斯说：“我们的方法允许机器人遵循人类用户给出的自然语言放置指令，而将数据收集或启发式方法降到最低。” “每个人都希望在家中拥有一个服务机器人，该机器人可以通过理解自然语言指令来执行任务。这是使机器人能够更好地理解常用空间介词含义的第一步。”

训练机器人移动物体的大多数现有方法都是使用与物体的3-D形状有关的信息来建模成对的空间关系。这些技术的主要局限性在于，它们通常需要其他技术组件，例如可以跟踪物体的跟踪系统。另一方面，Mees和他的同事提出的方法不需要任何其他工具，因为它不是基于3-D视觉技术的。

研究人员在一系列涉及真实人类用户和机器人的实验中评估了他们的方法。这些测试的结果非常有前途，因为它们的方法使机器人可以根据人类用户的口头指示所概述的空间关系，有效地识别出将对象放在桌子上的最佳策略。

“我们新颖的幻觉场景表示方法在机器人技术和计算机视觉社区中也可以有多种应用，因为通常机器人通常需要能够估计未来状态的好坏程度，以便推理出需要采取的行动，米斯说。通过使用幻觉的场景表示作为数据增强的一种形式，它还可以用于改善许多神经网络的性能，例如对象检测网络。”

Mees和他的同事们能够可靠地对一组自然语言空间介词进行建模，而无需使用3-D视觉工具。将来，他们的研究中提出的方法可用于增强现有机器人的功能，从而使它们能够在遵循人类用户的语音指导的同时，更有效地完成简单的对象移动任务。

同时，他们的论文可以为类似技术的发展提供信息，以增强其他对象操作任务期间人与机器人之间的交互。如果结合辅助学习方法，Mees和他的同事开发的方法还可以减少与编译机器人技术研究的数据集有关的成本和工作量，因为它可以预测像素概率，而无需使用大批注解的数据集。

迈斯总结说：“我们认为这是朝着使人与机器人之间达成共识的方向迈出的有希望的第一步。” “将来，我们希望扩展我们的方法，以纳入对引用表达的理解，以便开发遵循自然语言指令的取放系统。”

上一篇：不是所有限量款都值得这种高规格期待GSHOCKSMFK不定时男女炸街扎西顿珠
下一篇：范文芳结婚听李名顺的吧葛继力