《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 科學(xué)家利用人工智能,有望讓失聲者重新正常“說(shuō)話”

科學(xué)家利用人工智能,有望讓失聲者重新正常“說(shuō)話”

2019-04-29

20190428031356494.jpg

  加州大學(xué)舊金山分校的科學(xué)家利用深度學(xué)習(xí)算法開發(fā)出了一套高效的語(yǔ)音合成器,有望讓因?yàn)榛疾《暤娜巳阂哉5恼Z(yǔ)速“說(shuō)話”,相關(guān)的研究成果發(fā)表在了 4 月 24 日出版的《自然》(Nature)上。

  中風(fēng)、腦癱、肌萎縮性脊髓側(cè)索硬化癥(漸凍癥)等疾病都有可能會(huì)讓患者失去說(shuō)話的能力。目前市面上已有一些設(shè)備能夠通過(guò)追蹤患者眼球或者面部肌肉運(yùn)動(dòng)的方式,逐字拼出患者想要說(shuō)的話,再利用語(yǔ)音合成器將這些話“說(shuō)”出來(lái)。最為著名的例子就是身患漸凍癥的已故英國(guó)物理學(xué)家斯蒂芬·霍金在晚年的時(shí)候需要利用單邊臉頰肌肉控制語(yǔ)音合成器發(fā)聲。

  但是這樣的方式溝通效率極其低下,一般每分鐘不會(huì)超過(guò) 10 個(gè)單詞,而正常人說(shuō)話的語(yǔ)速大約是每分鐘 150 個(gè)單詞。

  不同于先打字再朗讀的方式,加州大學(xué)舊金山分校的科學(xué)家試圖利用算法,建立起大腦信號(hào)和聲道(vocal tract)活動(dòng)間的關(guān)系——找出這樣的關(guān)系之后,便能夠?qū)⒋竽X中的信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的聲道運(yùn)動(dòng),進(jìn)而發(fā)出聲音。

  為了實(shí)現(xiàn)這一點(diǎn),研究人員招募了 5 名患有癲癇的志愿者。志愿者均能正常說(shuō)話,而且他們的大腦中被臨時(shí)植入了用于術(shù)前確定病灶的電極。這就讓研究人員能夠在志愿者說(shuō)話的同時(shí),監(jiān)測(cè)大腦語(yǔ)言中樞的活動(dòng)情況。

  研究人員要求志愿者大聲朗讀一些給定的句子,在志愿者朗讀的同時(shí),大腦中語(yǔ)言中樞的活動(dòng)便被記錄了下來(lái)。之后,研究人員將這些大腦活動(dòng)記錄與之前已經(jīng)確定了的聲道運(yùn)動(dòng)數(shù)據(jù)進(jìn)行了結(jié)合。

  研究人員利用這些數(shù)據(jù)對(duì)一套深度學(xué)習(xí)算法進(jìn)行了訓(xùn)練,然后將算法整合進(jìn)了解碼器中。這一裝置先將大腦信號(hào)轉(zhuǎn)變?yōu)槁暤肋\(yùn)動(dòng),再將聲道運(yùn)動(dòng)轉(zhuǎn)變?yōu)楹铣烧Z(yǔ)音。

  未參與這項(xiàng)研究的圣地亞哥州立大學(xué)的神經(jīng)學(xué)家 Stephanie Riès 表示通過(guò)將大腦活動(dòng)與聲道運(yùn)動(dòng)進(jìn)行聯(lián)系、再將聲道運(yùn)動(dòng)轉(zhuǎn)換成聲音的方式所生成的語(yǔ)音,要比直接將大腦活動(dòng)與聲音進(jìn)行聯(lián)系所生成的語(yǔ)音更加容易讓人理解。

  “實(shí)際上,我們中很少有人真正知道當(dāng)我們說(shuō)話的時(shí)候,我們的嘴巴發(fā)生了什么,”論文的通訊作者、神經(jīng)外科醫(yī)生 Edward Chang 說(shuō),“大腦把你想說(shuō)的話轉(zhuǎn)化成聲道運(yùn)動(dòng),而這就是我們?cè)噲D解碼的東西?!?Chang 表示,聽(tīng)過(guò)合成句子的人平均能夠理解其中 70% 的單詞。

  科學(xué)家們此前已經(jīng)利用人工智能技術(shù)將大腦活動(dòng)解譯為單個(gè)單詞,不過(guò)大部分都是簡(jiǎn)單的單音節(jié)單詞?!皬膯我艄?jié)跳躍到句子在技術(shù)上非常具有挑戰(zhàn)性,這也是這項(xiàng)研究令人如此印象深刻的地方之一,”未參與這項(xiàng)研究的埃默里大學(xué)(Emory University)的神經(jīng)工程師 Chethan Pandarinath 評(píng)論說(shuō)。

  “當(dāng)我們第一次聽(tīng)到結(jié)果的時(shí)候,其實(shí)挺震驚的——我們簡(jiǎn)直不敢相信自己的耳朵。令人難以置信的是,真實(shí)語(yǔ)音里的許多方面在合成器輸出的語(yǔ)音里都得到了呈現(xiàn)。”論文的共同作者、加州大學(xué)舊金山分校的博士生 Josh Chartier 說(shuō),“當(dāng)然,讓語(yǔ)音變得更加自然和清楚還有許多工作要做,不過(guò)我們對(duì)于能夠解碼多少大腦活動(dòng)印象深刻?!?/p>

  “我們希望這些發(fā)現(xiàn)為那些表達(dá)受阻的人們帶來(lái)希望,有一天我們將能夠恢復(fù)交流的能力,這是我們作為人類的基礎(chǔ)之一”,他補(bǔ)充說(shuō)。

  我們做了一個(gè)壁紙應(yīng)用,給你的手機(jī)加點(diǎn)好奇心。去 App 商店搜好奇怪下載吧。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。