将计算机连通人脑,直接读取意识,这不是科幻。2019年4月25日,来自加州大学旧金山分校(UCSF)神经外科学系的Edward Chang实验室在Nature杂志上发表了题为Speech synthesis from neural decoding of spoken sentences的长文,报道了脑机接口领域的重大进展——通过两组前后衔接的bi-LSTM将癫痫患者说话时的脑皮质电图信号经由发音器官运动特征的中间解码层间接解码为人类可直接理解的语音。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


英国著名理论物理学家史蒂芬·霍金因其对广义相对论和黑洞理论等物理学重大课题的巨大贡献和终身与疾病斗争的不屈精神而为世人敬仰。霍金从21岁起即饱受肌萎缩侧索硬化(ALS)的折磨,并在43岁时因患肺炎行气管切开术而丧失了语言能力。为了帮助霍金与外界正常交流,几十年来科学家们持续为其开发、改进了多套辅助交流系统。从最初的拼写板到单键鼠标打字再到眼部红外探测器打字,霍金所使用的交流工具的衍变也见证了人类在辅助交流和语音合成上的不懈努力。然而,迄今为止,辅助交流系统的主流仍然是以拼写为基础,这种方法使用起来不仅十分缓慢,且严重受限于操作者本身机体运动能力。更重要的是,由文本拼写转译为合成语音完全丢失了讲话者的音色和音调变化特征。为回应这一关切,脑机接口领域的一个重要课题便是如何直接由脑皮层相应区域的电信号解码合成语音。


近年来,深度学习的飞速发展带来的多项信号处理方面的优势使之正逐渐成为脑机接口领域中的主流应用方法之一,其中便包括基于脑电波信号的人工语音合成。基于循环神经网络(recurrent neural network,RNN)的深度学习技术因其具有对网络训练过程中上一时间点的输出结果的记忆能力,成为了提取和预测时序性数据(sequential data,如文本、音视频、DNA/RNA序列等)特征的主流方法。然而,标准的RNN在处理长时序数据时至少具有两个重要缺陷:一是其对上下文信息的存取范围十分有限,在网络训练中具体表现为某一时间节点的隐含层输出对于后续时间节点的网络输出的影响随着网络环路的不断递归而衰退;二是其通常只能记忆过去的上下文信息而忽略了未来的上下文信息。为了解决这些问题,瑞士Dalle Molle 人工智能研究所的JurgenSchmidhuber分别于1997年和2005年提出了RNN的两种变体——长短时记忆循环神经网络(long short-term memory,LSTM)和双向长短时记忆循环神经网络(bidirectional long short-term memory,bi-LSTM),两者的网络架构中每一神经元都内嵌了精细的记忆门控与传递结构,且后者还保证训练数据被以正反两种顺序输入,因而使得过去和未来的长程上下文信息都能被准确地筛选、保留和运用(下图)。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


在解码流程上,研究者首先将经由侵入式电极记录的腹侧感觉运动皮质(ventral sensorimotor cortex,vSMC)、颞上回(superiortemporal gyrus,STG)、额下回(inferior frontal gyrus,IFG)三个脑区域表层在患者说话时的连续电图信号(包括高γ振幅包络和低频分量)通过第一阶段的bi-LSTM解码为33种发音器官运动特征指标,随后通过第二阶段的bi-LSTM将这些运动特征指标再解码为32项语音参数(包括25维梅尔频率倒谱系数(mel-frequencycepstral coefficients,MFCCs)、音高(pitch)、清浊(voicing)等),最终根据这些参数合成语音声波(下图)。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


为分析合成语音对真实语音的重现程度,作者首先直接比较了原始语音与合成语音的声波特征,发现神经网络解码的语音相当完整地重现了患者所述原始语句中的单个音素及音素间的自然连接和停顿(下图)。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


接着,作者通过独立试验检测了合成语音对于人类的可理解性。在该测试中,倾听者被要求聆听由患者脑电信号解码而来的合成语音并复述其内容。作者发现,由不同音节长度的单词或完整单句组成的合成语音的正确复述率与语音长度成正比,且与单次测试可选项数目成反比。令人惊喜的是,即使在可选择项高达50个时,倾听者仍能以接近70%的复述率成功识别合成语音的内容(下图a)。类似地,作者还进行了限定词汇量的整句转录测试,发现在为倾听者提供25个单词时,其转录错误率中位数仅为31%(下图b)。因此,作者认为,由独立试验证实的高复述率表明基于脑电波解码合成的语音已经具有足够高的现实应用价值。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


有趣的是,当被试者被要求以接近默念的极轻微的声音重复相同语句时,由原本清晰陈述的语句所训练的神经网络仍能成功解码默念伴随的脑电信号并合成高质量的语音(下图)。这一重要证据排除了神经网络的表现仅由不同语句的音量和其相关少数特征决定的可能性,同时也展示了这一解码流程具有相当程度的稳健性。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


该研究在解码流程上的一大创新点在于设置了以发音器官运动特征为输出的中间层。利用梅尔倒谱失真值(mel-cepstral distortion,MCD,用于评价合成语音质量的可量化指标)为评价标准,作者分析了这一三层网络结构与直接将脑皮质电图描记信号解码为语音特征的两层网络结构的表现差异,结果发现在训练数据量相同时,中间层的加入显著提升了神经网络的表现,合成出了更高质量的语音(下图左)。作者推测这可能是由于脑皮质电信号与发音器官的运动本身而不是所发出的语音的特征具有更直接的关联。为了从数据特性角度证实这一推测,作者利用主成分分析(principal component analysis,PCA)研究了这两种数据的密度在不同主成分维度上的分布,结果发现相较于语音参数来说,发音器官运动特征富集在一个更低维度的空间中,这意味着其被神经网络准确拟合的参数代价显著更低(下图右)。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


有了上述证据的支持,作者进一步将原始语音和合成语音对应的发声器官运动特征在前二维主成分上的轨迹(trajectory)描绘于状态空间(state-space)内,发现他们都能很好地刻画对应语句的辅音-元音转换,这就意味着前二维主成分能够捕捉的关于发声器官运动特征的信息不仅仅包括颌开闭,而是包含了全声道的整体开合(下图)。这一结论除在进一步证实发声器官运动特征信息的确富集于低维空间内之外,还暗示了不同个体之间可能共享同一套发声器官运动与语音生成的对应逻辑。如这一推论为真,将使得即使失去语言能力的患者也能够通过直接解码发声器官的运动特征来复现语音。


AI脑机接口破译神经活动,深度学习解码脑电波合成语音


Chang实验室的这项激动人心的开创性研究和同期发表的其他几项研究,一道展现了利用神经网络解码脑皮层电信号合成语音的广阔前景。然而,要实现广泛应用的脑机接口语音交互,至少还存在两项根本性的制约因素:第一,现阶段为获取高精度脑电波信号,仍然需要侵入式手术安装电极才能完成。事实上,霍金本人就曾经尝试过由英特尔公司提供的非侵入式头皮脑电图转化合成语音的设备,但由于这种设备信号采集精度较低且极易受到头面部运动的干扰,因而始终未能从霍金的脑电图里收集到具有足够高信噪比的特异信号。第二,现阶段的研究都仅考虑了在被试者能够清楚陈述语句时伴随的脑电波信号在语音解码上的可利用性,而对于失去语言能力的患者来说,其在生发“想象语言”(imaged speech)时所伴随的脑电波信号是否在很大程度上与前者不同,又是否能用相同方式解码,都存在疑问。不过,我们有理由相信,随着人类对语言活动的神经机制基础的深入理解、脑电信号采集精度的不断提升以及信号处理技术的蓬勃发展,连接想象语言与合成语音的桥梁在可预见的将来会成为现实。


这种创新的解码方法有助于解决重建语音时的声学失真问题,让合成的语音更容易被人听清、听懂,接下来的测试结果验证了这一点。研究人员在亚马逊的众包任务平台Mechanical Turk上招募听众来辨认解码器合成的语音,包含325个单词和101句整句。检验测试中,听众可以成功地识别出单词,和对自然语音的感知模式一致。对于合成语音发出的整句,听众也能识别出句子的意思。


第一作者Gopala Anumanchipalli博士认为,该结果意味着,这种神经合成语音对于现实世界的应用来说已经达到即刻听懂的实用程度。


更有意义的是,研究人员还测试了解码器对于不出声说话的语音合成能力。一名被试先按要求说出句子,然后默念同一个句子,也就是只有发音的动作、并不发出声音——这种情形更符合某些患者的实际情况。结果显示,解码器对默念动作合成的语音频谱与同一句句子的有声频谱是相似的。


尽管如生物工程学教授Chethan Pandarinath等人在同期《自然》上刊发的评论中所言,这一系统要真正成为一个临床可行的语音脑机接口还面临许多挑战,但毫无疑问的一点是,脑机接口技术的持续进步将让有发声障碍的人重新获得自由说出心声的能力,与周遭世界重新建立联系。甚至,脑机接口的发展还会让更多的人有可能突破人类自身的局限,让意识的疆界不断拓展。



我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~