人工智能可以告诉高尔夫球的茶壶吗

发布日期：2019-01-09 浏览次数：78

被称为深度学习计算机网络的人工智能的形式有多聪明，这些机器如何模仿人类大脑?近年来，他们已经有了很大的改进，但仍有很长的路要走，加州大学洛杉矶分校认知心理学家团队在PLOS计算生物学杂志上报道。

支持者表示热衷于使用这些网络来完成许多个人任务，甚至传统上由人们执行的工作。然而，在这项研究中的五个实验的结果表明，很容易欺骗网络，并且网络使用计算机视觉识别物体的方法与人类视觉大不相同。

“这些机器有严重的局限性，我们需要了解，”加州大学洛杉矶分校的杰出心理学教授，该研究的高级作者Philip Kellman说。“我们说，'等等，不要那么快。'”

他说，机器视觉有缺点。在第一个实验中，心理学家展示了最好的深度学习网络之一，称为VGG-19，动物和物体的彩色图像。图像已被更改。例如，高尔夫球的表面显示在茶壶上;斑马条纹放在骆驼上;并且在大象上展示了蓝色和红色亚皆老街袜子的图案。VGG-19排名第一，选择正确的项目作为40个对象中只有5个的首选。

“我们可以很容易地欺骗这些人工系统，”共同作者，加州大学洛杉矶分校心理学教授Lujing Lu说。“他们的学习机制远没有人类思维复杂。”

VGG-19认为大象是大象的可能性为0%，茶壶只有0.41%的可能性是茶壶。加州大学洛杉矶分校心理学研究生尼古拉斯·贝克说，它的首选茶壶是高尔夫球，这表明人工智能网络比其形状更能看待物体的纹理。

凯尔曼说：“高尔夫球的出现绝对合理，但令人担忧的是，茶壶不会出现在选择中的任何地方。”“它没有变形。”

凯尔曼说，人类主要从形状上识别物体。研究人员怀疑计算机网络使用的是另一种方法。

在第二个实验中，心理学家向VGG-19展示了玻璃雕像的图像，并向第二个深度学习网络展示了AlexNet。VGG-19在所有测试两个网络的实验中表现更好。使用名为ImageNet的图像数据库训练两个网络识别对象。

然而，两个网络都表现不佳，无法识别玻璃俑。VGG-19和AlexNet都没有正确地将小雕像确定为他们的首选。一个大象雕像被两个网络评为大象几率为0%。大多数热门回应令研究人员感到困惑，例如VGG-19选择“鹅”的“网站”和“北极熊”的“开启者”。平均而言，AlexNet在1,000个选项中排名第328位。

“这些机器与人类产生了非常不同的错误，”卢说。

在第三个实验中，研究人员向VGG-19和AlexNet展示了40幅黑色轮廓图，白色图像。前三个实验旨在发现设备是否通过其形状识别物体。

这些网络在识别诸如蝴蝶，飞机和香蕉等物品方面做得很差。

该实验的目的不是欺骗网络，而是要了解他们是否以与人类相似的方式识别物体，或以不同的方式识别物体，共同作者，加州大学洛杉矶分校心理学博士后学者Gennady Erlikhman说。

在第四个实验中，研究人员显示两个网络都有40个图像，这次是纯黑色。

对于黑色图像，网络做得更好，在大约50%的对象的前五个选项中产生正确的对象标签。例如，VGG-19排名算盘的概率为99.99%，算盘和大炮的概率为61%。相比之下，VGG-19和AlexNet各自认为白锤(黑色轮廓)是锤子的可能性不到1%。

研究人员认为这些网络在黑色物体方面的表现要好得多，因为这些物品缺乏凯尔曼所说的“内部轮廓” - 这些边缘会混淆机器。

在实验五中，研究人员对图像进行了加扰，使其难以识别，但它们保留了一些物体。研究人员选择了VGG-19网络最初获得的六张图像，并对它们进行了加扰。人类发现这些难以辨认。VGG-19得到了六张图片中的五张，并且在第六张图片上接近了。

作为第五个实验的一部分，除了VGG-19之外，研究人员测试了加州大学洛杉矶分校的本科学生。十名学生被展示为黑色轮廓的物体 - 有些人难以辨认，一些人被解读，一些物体只有一秒钟，有些只要学生想要查看它们。学生们正确地识别出92%的未被解读的对象和23%的被打乱的对象只需一秒钟即可查看它们。当学生可以根据需要看到轮廓时，他们正确识别出97%的未加扰对象和37%的加扰对象。

心理学家得出什么结论?

人类看到整个物体，而人工智能网络识别物体的碎片。

“这项研究表明，这些系统在他们接受训练的图像中得到了正确的答案而不考虑形状，”凯尔曼说。“对于人类而言，整体形状是物体识别的主要形式，而根据整体形状识别图像似乎根本不在这些深度学习系统中。”

有许多深度学习机器，研究人员认为他们的研究结果广泛适用于这些设备。

该研究得到了国家科学基金会的资助。