说起来似乎是一种毫不费力的活动,但它是我们执行的最复杂的行动之一。它需要精确,动态地协调声道咬合架结构中的肌肉 - 嘴唇,舌头,喉部和下颌。当由于中风,肌萎缩侧索硬化或其他神经障碍导致言语中断时,丧失交流能力可能是毁灭性的。在自然界的一篇论文中,Anumanchipalli等。1让我们更接近可以恢复语音功能的脑机接口(BCI)。
脑 - 计算机接口旨在通过直接从大脑“读取”他们的意图并使用该信息来控制外部设备或移动瘫痪的肢体来帮助瘫痪的人。用于交流的BCI的发展主要集中在脑控制打字2上,允许瘫痪的人每分钟输入多达8个单词3。尽管恢复这种功能水平可能会改变有严重沟通障碍的人的生活,但基于分型的BCI不太可能实现自然语音的流畅交流,平均每分钟约150字。Anumanchipalli等。已经开发出一种方法,使用深度学习方法从脑信号中产生口语句子。
研究人员与五名志愿者一起工作,这些志愿者正在进行一项称为颅内监测的程序,其中电极用于监测大脑活动,作为治疗癫痫的一部分。作者使用一种称为高密度脑电图的技术来跟踪控制言语和发音运动的大脑区域的活动,因为志愿者说了数百句话。为了重建语音,而不是将大脑信号直接转换为音频信号,Anumanchipalli等。使用两阶段解码方法,他们首先将神经信号转换为声道咬合架运动的表示,然后将解码的运动转换为口语句子(图1)。这两种转换都使用了递归神经网络 - 一种人工神经网络,它在处理和转换具有复杂时间结构的数据时特别有效。
了解大脑信号如何与声道发音器的运动相关是具有挑战性的,因为在与患有癫痫的人一起在医院环境中工作时很难直接测量这些运动。相反,作者使用他们之前开发的模型中的信息4,该模型使用人工神经网络将记录的语音转换为产生它的声道发音器的运动。该模型不是特定主题;相反,它是使用从以前的研究参与者收集的大量数据库建立的4。通过包括一个模型来估计录制语音的声道运动,作者可以将大脑活动映射到声道运动,而无需直接测量运动本身。
一些研究使用深度学习方法来重建来自脑信号的音频信号(参见例如参考文献5,6)。这些包括令人兴奋的BCI方法,其中神经网络被用于直接从控制语音的大脑区域合成口语单词(主要是单音节)6。相比之下,Anumanchipalli及其同事将他们的解码方法分为两个阶段(一个解码声道发音器的运动和一个合成语音的运动),基于他们之前的观察,语音相关的大脑区域的活动更接近于运动声音咬合器的声音,而不是声音4期间产生的声学信号。
作者的两阶段方法导致声学失真明显小于声学特征的直接解码。如果可以获得跨越各种语音条件的海量数据集,则直接合成可能匹配或优于两阶段解码方法。然而,考虑到实际存在的数据集限制,具有解码的中间阶段将关于声道咬合架的正常运动功能的信息带入模型中,并且约束必须被评估的神经网络模型的可能参数。 。这种方法似乎使神经网络能够实现更高的性能。最终,反映正常运动功能的“仿生”方法可能在复制自然语音典型的高速,高精度通信中起关键作用。
开发和采用强大的指标,允许跨研究进行有意义的比较是BCI研究中的一项挑战,包括新生的语音BCI领域。例如,诸如重建原始语音的错误之类的度量可能与BCI的功能性能几乎没有对应关系;也就是说,听众是否能够理解合成语音。为了解决这个问题,Anumanchipalli等人。从语音工程领域开发出易于复制的人类听众语音清晰度测量方法。研究人员在众包市场亚马逊机械土耳其人招募用户,并责成他们识别合成语音中的单词或句子。与重建错误或以前使用的自动可懂度测量不同如图6所示,该方法直接测量语音对人类听众的可懂度,而无需与原始口语单词进行比较。
Anumanchipalli及其同事的结果为语音合成BCI提供了令人信服的证据,无论是在音频重建的准确性方面还是在听众对所产生的单词和句子进行分类的能力方面。然而,在临床可行的语音BCI的道路上仍然存在许多挑战。重构语音的可懂度仍远低于自然语音的可懂度。通过收集更大的数据集并继续开发基础计算方法是否可以进一步改进BCI还有待观察。通过使用神经接口可以获得额外的改善,该神经接口记录比脑电图记录更多的局部大脑活动。皮质内微电极阵列,例如,3,7。
所有当前用于语音解码的方法的另一个限制是需要使用发声语音训练解码器。因此,基于这些方法的BCI不能直接应用于不会说话的人。但Anumanchipalli及其同事表示,虽然语音解码的准确性大大降低,但志愿者在没有声音的情况下模仿语音仍然可以进行语音合成。能够不再产生语音相关运动的个体是否能够使用语音合成BCI是未来研究的问题。值得注意的是,在开展BCI的第一次概念验证研究以控制健康动物的手臂和手部运动之后,对于这些BCI在瘫痪患者中的适用性提出了类似的问题。8,9。
鉴于人类言语产生无法在动物中直接研究,过去十年来该研究领域的快速发展 - 从探索语言相关大脑区域组织的开创性临床研究10到概念证明语音合成BCIs6- 真的很了不起。这些成就证明了多学科协作团队的力量,这些团队将神经外科医生,神经科医生,工程师,神经科学家,临床工作人员,语言学家和计算机科学家结合在一起。最近的调查结果也将有不深的学习和人工神经网络,在神经科学的广泛应用和神经工程的出现是不可能的11-13。
最后,这些引人注目的概念验证证明了无法说话的个体的语音合成,并结合BCI在上肢瘫痪患者中的快速进展,认为应该强烈考虑涉及言语障碍的人的临床研究。随着持续的进步,我们可以希望有语言障碍的人能够重新获得自由发表意见并与周围世界重新联系的能力。