近日,据外媒报道,最新研究表明:直接连接到大脑的人工语音设备在未来的某个时刻或成现实。这也意味着失去说话能力的人有望开口说话。
著名的科学作家Kelly Servick,介绍了发表在BioRxiv杂志上的三篇论文。这三篇论文课题由三组不同的研究人员进行研究,但他们都得出了一个研究结论:可以从神经元放电的记录中解码人类语音。
在每一项研究中,当脑外科患者讲话或大声朗读单词的时候,直接放置在大脑上的电极就记录神经活动。在每一种情况下,研究人员都能将大脑的脑电波活动转化为至少可以理解的声音文件。
2018年10月10日发表在BioRxiv杂志上的第一篇论文,描述了这样一项实验:研究人员在实验中向正在做脑部手术的癫痫病人播放了语音录音。(实验中记录的神经活动必须非常详细才能得到更好地解释。因此只有当大脑暴露在空气中,电极直接放置在空气中时,才能获得这种程度的细节,比如在脑外科手术中。)
当病人听声音录音时,研究人员记录了病人大脑中处理声音的部分神经元的放电情况。科学家们尝试了多种不同的方法将神经元放电数据转化为语言。而且研究人员发现,拥有深度学习能力的计算机或多或少能在无人监督的情况下解决这一问题,而且效果不错。
当他们通过一个合成人类声音的声码器为11名听众播放语音时,这些人在75%的时间情况下都能正确地解释单词。
2018年11月27日发表在BioRxiv杂志上的第二篇论文,描述了这样一项实验:研究人员记录了接受脑肿瘤摘除手术的病人的神经活动。当病人大声读出单音节的单词时,研究人员记录了病人口中发出的声音和在他们大脑中产生言语的区域。
这些研究人员没有对每个病人进行深入的计算机培训,而是教授了一种人工神经网络,将神经记录转换成音频,这表明这些结果至少是合理的,而且类似于麦克风的录音。
2018年8月9日发表在BioRxiv杂志上的第三篇论文,提出了这样一个结论:大脑的一部分神经元决定了一个人说话的特定词语通过肌肉运动转化出来。
虽然这一实验的录音文件无法在网上找到,但研究人员说,他们能够重建整个句子(也是在脑外科手术期间记录到的),而且在83%的时间里,听过这些句子的人能够在多项选择测试中正确地解释这些句子(10种选择中的一种)。该实验的方法依赖于识别产生单个音节所涉及的模式,而不是整个单词。
所有这些实验的目标是有一天使那些失去说话能力的人开口说话。科学报道说,解释一个人的神经模式,仅仅是想象一个人的讲话,这要比解释一个人听或产生讲话的模式要复杂得多。(然而,第二篇论文的作者说,解释那些想象演讲的人的大脑活动是可能的。)
同样值得注意的是,这些都是小范围的研究。第一篇论文所依据的数据仅来自五名患者,而第二篇则以六名患者为研究对象,第三篇仅为三名患者。并且所有的神经记录都没有持续超过一个小时。
尽管如此,科学仍在向前发展,直接连接到大脑的人工语音设备在未来的某个时刻似乎会成为现实。
关键词: 人工语音
质检
推荐