如果你认为自动驾驶汽车不能很快到达这里,那么你并不孤单。但是给计算机编程来识别物体在技术上是非常具有挑战性的,尤其是因为科学家们还没有完全理解我们的大脑是如何做到这一点的。
现在,索尔克研究所的研究人员分析了大脑关键部位V2的神经元如何对自然场景做出反应,从而更好地理解视觉处理。这项工作发表在2017年6月8日的《自然通讯》杂志上。
索尔克计算神经生物学实验室的副教授、这篇论文的高级作者Tatyana Sharpee说:“理解大脑是如何识别视觉对象的,这不仅对视觉很重要,而且因为它提供了一个窗口,让我们了解大脑是如何工作的。”我们大脑的大部分是由一个重复的计算单元组成的,叫做皮质柱。特别是在视觉方面,我们可以非常精确地控制输入到大脑的信息,这使得定量地分析信号在大脑中的转换成为可能。
根据Sharpee的说法,尽管我们通常认为这种能力是理所当然的,但这种能力来自于我们还不能在计算机中重现的一系列复杂的数学变换。事实上,超过三分之一的大脑专门用于分析视觉场景。
我们的视觉感知从眼睛的明暗像素开始。这些信号被发送到大脑后部的V1区域,在那里它们被转换成对应于视觉场景的边缘。不知何故,通过对这些信息进行几次后续的转换,我们就可以识别人脸、汽车和其他物体,以及它们是否在移动。这种识别是如何发生的仍然是个谜,部分原因是编码物体的神经元以复杂的方式做出反应。
现在,Sharpee和他的团队的博士后研究员Ryan Rowekamp已经开发出一种统计方法,可以将这些复杂的反应以可解释的方式描述出来,这种方法可以用于将视觉解码为计算机模拟视觉。为了开发他们的模型,研究小组使用了来自计算神经科学合作研究(CRCNS)数据库的公开数据,显示灵长类动物观看自然场景(如森林景观)电影时的大脑反应。
Rowekamp说:“我们运用了新的统计技术来弄清楚电影中的哪些特征导致V2神经元改变了它们的反应。”“有趣的是,我们发现V2神经元对边缘的组合有反应。”
研究小组发现,V2神经元处理视觉信息遵循三个原则:第一,它们将方向相似的边缘结合起来,增强了对构成物体边界的曲线位置微小变化的感知鲁棒性。其次,如果一个神经元被某个特定方向和位置的边缘激活,那么与此方向90度的那个方向将在同一位置被抑制,这种组合称为“交叉方向抑制”。“这些交叉方向的边缘组合以不同的方式组合在一起,让我们能够检测出不同的视觉形状。”研究小组发现,交叉定位对于准确的形状检测至关重要。第三个原则是,相关图案在空间中重复出现,其方式有助于感知树木或水的纹理表面及其边界,就像印象派绘画那样。
研究人员将这三种组织原则合并到一个名为二次卷积模型的模型中,该模型可以应用于其他实验数据集。研究人员说,视觉处理很可能类似于大脑处理气味、触觉或声音的方式,因此这项工作也可以解释这些区域的数据处理。
Rowekamp说:“我以前做过的模型与数据并不完全兼容,或者不完全兼容。”“因此,将边缘识别与对纹理的敏感性结合起来,作为一种分析和理解复杂视觉数据的工具,开始获得成功,这真的令人满意。”
但更直接的应用可能是改进自动驾驶汽车或其他机器人设备的对象识别算法。“似乎每次我们在计算机视觉算法中加入大脑中发现的计算元素,它们的性能就会提高,”Sharpee说。