人形机器人的共同语音手势生成到学习

发布日期：2018-11-15 浏览次数：72

韩国电子和电信研究所(ETRI)的研究人员最近开发了一种神经网络模型，可以生成一系列共同语音手势。他们的模型经过52小时的TED演讲训练，成功地制作了符合语音内容的类似人类的手势。

“我们正在与之互动的智能设备已经从个人电脑发展到手机和智能扬声器，”进行这项研究的研究人员之一Youngwoo Yoon告诉TechXplore。“我们认为社交机器人可能是下一个互动平台。物理运动是社交机器人和其他智能设备之间的关键差异之一，为仿效人类或动物般的行为开辟了新的可能性，这可以增加亲密感。”

联合演讲手势可以大大提高人类和社会的机器人之间互动的质量。大多数现有机器人使用基于规则的语音 - 手势关联方法产生手势。然而，这些技术需要相当大的努力，因为它们基于人类的专业知识和知识。“我们希望产生自然和类似人类的社交行为，尤其是说话时的手势，”Yoon说。“观察他人是学习新行为的一种非常自然的方式，因此我们提出了一种基于学习的手势生成模型，该模型是在TED演讲数据集上进行训练的。”

由Yoon和他的同事设计的模型在一个包含52小时TED演讲视频片段的数据集上进行了培训。在训练之后，该模型可以生成类似人类的手势和上身姿势的序列以匹配书面语音文本。

“设计机器人的社会行为是困难和耗时的，因为我们必须考虑背景，自然，运动的美学，机器人的控制空间以及许多其他因素，”Yoon解释说。“最近的端到端学习研究揭示了人工智能产生这种复杂行为的潜力。在看到自动驾驶和面部动作生成的成功应用后，我们决定将端到端学习应用于共同演讲手势生成。“

由Yoon和他的同事开发的神经网络模型成功地生成了几种类型的手势，包括标志性，隐喻性，指示性和拍子手势。此外，它能够为任何长度的语音文本生成连续的手势序列。研究人员发现，他们的方法在创建类似于人类的手势方面优于基线方法。在主观评估中，在亚马逊机械土耳其人招募的46人认为它产生的手势类似于人，并且与语音内容紧密匹配。

“我们发现机器人可以学习社交技巧，”尹说。“对于共同语音手势生成，在大规模数据集上训练的模型足够通用，因此机器人可以为任何语音做出类似人类的手势。我们认为这种方法可以应用于其他社交技能，以及视频游戏和VR世界中的角色。“

Yoon及其同事开展的这项研究强调了端对端学习共同演讲手势的潜力。在未来，它可以被用来提高人-机器人互动，还可能激发类似的研究，作为TED演讲，他们使用的数据集是公开的。研究人员现在计划通过为不同的机器人生成个性化的手势，使他们的研究向前迈进一步。“机器人可能有自己的个性，就像人一样，”尹说。“个性化的手势生成方法可以确保不同的机器人根据他们的角色用不同风格的手势表达自己。”