《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 業(yè)界動(dòng)態(tài) > 一種基于時(shí)域解相關(guān)的雙通道語(yǔ)音分離算法

一種基于時(shí)域解相關(guān)的雙通道語(yǔ)音分離算法

2008-07-30
作者:夏秀渝, 何培宇, 周激流

??? 摘 要: 提出了一種基于時(shí)域解相關(guān)的卷積混合" title="卷積混合">卷積混合語(yǔ)音盲分離時(shí)域算法。該算法利用相關(guān)系數(shù)對(duì)語(yǔ)音信號(hào)" title="語(yǔ)音信號(hào)">語(yǔ)音信號(hào)進(jìn)行時(shí)域去相關(guān)處理,同時(shí)基于二階統(tǒng)計(jì)量完成雙通道語(yǔ)音分離" title="語(yǔ)音分離">語(yǔ)音分離。該算法充分考慮了語(yǔ)音信號(hào)本身的相關(guān)性及不平穩(wěn)性,收斂速度快,穩(wěn)定性好,為減小計(jì)算量提出了該算法的遞推改進(jìn)算法。仿真實(shí)驗(yàn)表明,在對(duì)卷積混合雙通道語(yǔ)音信號(hào)進(jìn)行盲分離時(shí),該算法是非常有效的。
??? 關(guān)鍵詞: 語(yǔ)音分離; 卷積混合; 去相關(guān)

?

  人耳具有很強(qiáng)的分離聲音的能力,即所謂的“雞尾酒會(huì)效應(yīng)”。如何讓機(jī)器也具備這種自動(dòng)分離語(yǔ)音的能力是目前的一個(gè)熱點(diǎn)研究問(wèn)題。瞬時(shí)混合語(yǔ)音信號(hào)的盲分離研究已比較成熟并且產(chǎn)生了很好的分離效果[1],但在實(shí)際場(chǎng)合,對(duì)多個(gè)麥克風(fēng)接收到的混合語(yǔ)音信號(hào)進(jìn)行盲分離時(shí),因語(yǔ)音信號(hào)本身的相關(guān)性及不平穩(wěn)性,尤其是延遲和反射造成的卷積,使卷積混合語(yǔ)音信號(hào)的盲分離變得十分困難。
  盲分離算法" title="盲分離算法">盲分離算法有時(shí)域和頻域算法之分,時(shí)域算法能獲得獨(dú)立性一致的分離信號(hào),但有計(jì)算量大、對(duì)于語(yǔ)音信號(hào)算法收斂性差等缺點(diǎn)。頻域算法是把時(shí)域的卷積混合變換到頻域用瞬時(shí)混合盲分離算法對(duì)其進(jìn)行分離,由于信號(hào)順序倒轉(zhuǎn)、功率歸一化等問(wèn)題,這些算法的復(fù)雜程序大大增加,分離效果也不是太好,而且其為分幀處理,有延遲效應(yīng)。
本文研究卷積混合語(yǔ)音信號(hào)的盲分離方法。綜合考慮了語(yǔ)音信號(hào)既是非平穩(wěn)信號(hào)又是有色信號(hào)(強(qiáng)相關(guān)信號(hào))的特點(diǎn),提出了基于時(shí)域解相關(guān)和空域解相關(guān)同時(shí)進(jìn)行的語(yǔ)音盲分離時(shí)域算法,仿真實(shí)驗(yàn)證明此算法收斂快,穩(wěn)定性好,在對(duì)卷積混合語(yǔ)音信號(hào)進(jìn)行盲分離時(shí),獲得了非常好的效果。
1 雙通道語(yǔ)音卷積混合分離簡(jiǎn)化模型
  設(shè)麥克風(fēng)1收到的信號(hào)為x1(t),令其中來(lái)自聲源1的部分記做s1(t),麥克風(fēng)2收到的信號(hào)為x2(t),令其中來(lái)自聲源2的部分記做s2(t), 則在一定條件下,得到簡(jiǎn)化的卷積混合及分離模型[2]
  在簡(jiǎn)化模型中,分別用兩個(gè)嚴(yán)格因果的FIR濾波器來(lái)逼近混合濾波器h12和h21。所謂嚴(yán)格因果的濾波器是指濾波器的零延遲項(xiàng)系數(shù)為零。當(dāng)源信號(hào)位于麥克風(fēng)陣列法線(xiàn)兩側(cè)時(shí),基本可認(rèn)為h12和h21為嚴(yán)格因果系統(tǒng)。若此時(shí)的分離模型采用圖1所示結(jié)構(gòu),且規(guī)定w12和w21也為嚴(yán)格因果的,則可分析出只有當(dāng)h12=w12,h21=w21,這種情況才能成功分離出混合語(yǔ)音。這種混合分離模型情況下,分離工作本質(zhì)是一個(gè)系統(tǒng)盲辯識(shí)的過(guò)程,h12和w12以及h21和w21的接近程度決定了分離效果的好壞,他們?cè)浇咏?,分離效果越好。當(dāng)源信號(hào)處于麥克風(fēng)陣列同側(cè)時(shí),在相應(yīng)分離濾波器引入延遲,以上方法也適用,當(dāng)然延遲的多少須由源信號(hào)的方位確定。

?


2 算法提出
  非嚴(yán)格的理論分析顯示二階統(tǒng)計(jì)量可以用于非平穩(wěn)的語(yǔ)音分離。實(shí)踐證明采用二階統(tǒng)計(jì)量比采用高階統(tǒng)計(jì)量在實(shí)際中能得到更好的語(yǔ)音分離效果和更小的計(jì)算量。
  Kawamoto針對(duì)非平穩(wěn)信號(hào)提出了基于二階統(tǒng)計(jì)量的卷積混合盲分離算法[3]。
  


  Pi代表輸出信號(hào)yi在不同時(shí)段的能量。該算法實(shí)現(xiàn)簡(jiǎn)單,已在TMS320C6701 EVM板上實(shí)時(shí)實(shí)現(xiàn)了語(yǔ)音分離,有不錯(cuò)的效果[4]。但研究發(fā)現(xiàn)對(duì)于語(yǔ)音信號(hào)該算法收斂還是較慢,且收斂穩(wěn)定性差。
  在仔細(xì)分析了實(shí)驗(yàn)結(jié)果后,筆者認(rèn)為收斂慢的根本原因是由于語(yǔ)音信號(hào)時(shí)間上的強(qiáng)相關(guān)性導(dǎo)致學(xué)習(xí)的權(quán)向量相互影響而收斂慢,收斂不穩(wěn)定是由語(yǔ)音信號(hào)的非平穩(wěn)性造成的。傳統(tǒng)基于二階統(tǒng)計(jì)量的盲分離算法進(jìn)行的是空域去相關(guān)處理,考慮到語(yǔ)音信號(hào)時(shí)間上的強(qiáng)相關(guān)性,對(duì)于分離濾波器的盲辨識(shí)還應(yīng)同時(shí)考慮對(duì)信號(hào)進(jìn)行時(shí)域解相關(guān)處理。
  Doherty 與Porayath于1997年提出解相關(guān)的LMS算法(簡(jiǎn)稱(chēng)DLMS算法)[5],對(duì)于強(qiáng)相關(guān)性的語(yǔ)音信號(hào)該算法收斂速度大大加快。其基本思想是用信號(hào)解相關(guān)的結(jié)果作為更新方向向量:
  定義輸入信號(hào)向量x(n)和x(n-1)的相關(guān)系數(shù)為:
  

  令v(n)=x(n)-ρ(n)x(n-1),為x(n)解相關(guān)的結(jié)果, DLMS算法權(quán)的調(diào)整則利用e(n)v(n)來(lái)代替LMS算法中的e(n)x(n)完成,即:
???

??? 根據(jù)上述思想,本文提出時(shí)域解相關(guān)的語(yǔ)音盲分離算法:將Kawamoto算法中權(quán)的調(diào)整由yj(n-k)改變?yōu)?A target=_blank>。
  新算法(D_BSS1)迭代步驟如下:

  (1) 初始化:wij(0)=0?????? i≠j∈{1,2}
  (2) 更新:n=1,2,3…

???
  新算法中由于采用解相關(guān)的結(jié)果v(n)作為更新方向向量,盲辨識(shí)h12時(shí)不僅對(duì)y1(n)(相當(dāng)于系統(tǒng)激勵(lì)信號(hào))作了時(shí)間解相關(guān)處理,加快算法收斂速度,而且對(duì)y2(n)(相當(dāng)于自適應(yīng)系統(tǒng)辯識(shí)中參考信號(hào)中的噪聲)經(jīng)解相關(guān)處理幅度大大降低,算法收斂的穩(wěn)定性大大提高,盲辨識(shí)h21同樣。
  為了減小上述算法中的計(jì)算量,做如下改進(jìn):相關(guān)系數(shù)的計(jì)算采用迭代算法,其中β取0~1的數(shù),向量vi(n)每次只計(jì)算更新最新的一個(gè)元素vi(n), 具體算法如下:
  改進(jìn)算法(D_BSS2)如下:
???

??? 從上面迭代公式看,與Kawamoto算法比較, D_BSS2僅增加了一次相關(guān)系數(shù)的迭代和元素vi(n)的計(jì)算量,所增加的計(jì)算量相對(duì)于幾百甚至幾千階的分離系統(tǒng)" title="分離系統(tǒng)">分離系統(tǒng)來(lái)說(shuō)幾乎可以忽略。
3 仿真結(jié)果
3.1 算法收斂性能及語(yǔ)音分離情況
  以上面簡(jiǎn)化模型為基礎(chǔ)完成如下仿真,兩聲源信號(hào)各為一段長(zhǎng)60 000點(diǎn)的中文朗讀的女聲和男聲,采樣率為11.025kHz。h12和h21采用如圖2所示的實(shí)測(cè)房間聲通道特性,濾波器長(zhǎng)度取500點(diǎn)。

?


  另在x1,x2處加入信噪比為-30dB的白噪聲,算法調(diào)整步長(zhǎng)?滋取0.000 05。輸入語(yǔ)音波形、Kawamoto算法和新算法D_BSS1失配曲線(xiàn)如圖3所示。

?


  失配(misalignment)定義如下:
  


??? 失配越小,說(shuō)明wij和hij越接近。圖3中虛線(xiàn)為Kawamoto算法的失配變化曲線(xiàn),實(shí)線(xiàn)為新算法的失配變化曲線(xiàn)??梢?jiàn),新算法在迭代過(guò)程中的失配曲線(xiàn)收斂比Kawamoto算法快,且穩(wěn)定性好得多,具有良好的跟蹤性能。按照現(xiàn)在語(yǔ)音盲分離常采取的辦法,讓盲分離算法運(yùn)行一段時(shí)間,收斂后停止迭代,用權(quán)進(jìn)行語(yǔ)音分離,采用提高信號(hào)干擾比SIR來(lái)反映算法性能,信干比定義如下:
???

??? 其中s′i(n)表示麥克風(fēng)接收信號(hào)xi(n)或分離輸出端yi(n)中與源信號(hào)si(n)相關(guān)的部分。當(dāng)運(yùn)行60 000點(diǎn)停止迭代時(shí),測(cè)得新算法信干比為: SIR_x1=4.2dB,SIR_y1=12.4dB, SIR_x2=0.3dB,SIR_y2=12.6dB, 平均提高了10dB。同樣條件下,Kawamoto算法平均提高了5dB,由于Kawamoto算法失配曲線(xiàn)收斂的不穩(wěn)定性不能保證停止迭代時(shí)兩路權(quán)都最佳,所以Kawamoto算法有分離效果不穩(wěn)定的現(xiàn)象。
3.2 改進(jìn)算法D_BSS2的性能
??? 在上面相同的實(shí)驗(yàn)條件下,進(jìn)行了D_BSS1和D_BSS2算法性能的對(duì)比實(shí)驗(yàn),得到兩種算法失配曲線(xiàn)如圖4所示。
可見(jiàn),改進(jìn)算法D_BSS2收斂性能比D_BSS1稍微差一點(diǎn),但計(jì)算量卻大大降低,D_BSS2和Kawamoto算法的計(jì)算量相差不多。

?


3.3 實(shí)際混迭語(yǔ)音分離實(shí)驗(yàn)
??? 仿真實(shí)驗(yàn)在一虛擬聲學(xué)實(shí)驗(yàn)室進(jìn)行,房間長(zhǎng)、寬、高為(5,4,3)(m),房間混響時(shí)間為0.2s,兩聲源位于(1.5,2,1)和(3.5,2,1)處,兩麥克風(fēng)分別位于(2,1,1)和(3,1,1)處。信號(hào)采樣率為11.025kHz,分離濾波器階數(shù)取500階,由于無(wú)法得到對(duì)應(yīng)簡(jiǎn)化模型中的h12和h21(其本質(zhì)為聲源到兩麥克風(fēng)的差異沖擊響應(yīng)),所以不能用失配來(lái)反映分離性能,采用D_BSS2,測(cè)得信干比平均提高11dB,算法一直迭代情況下,試聽(tīng)分離系統(tǒng)的兩路輸出,算法收斂很快,明顯聽(tīng)到每通道聲音由兩個(gè)聲音很快變?yōu)橐粋€(gè)聲音,語(yǔ)音得到成功分離。
  本文提出針對(duì)非平穩(wěn)強(qiáng)相關(guān)語(yǔ)音信號(hào)的雙通道語(yǔ)音分離時(shí)域算法,該算法基于二階統(tǒng)計(jì)量進(jìn)行混合語(yǔ)音的分離,采用時(shí)域解相關(guān)處理來(lái)降低語(yǔ)音的時(shí)間相關(guān)性,從而具有計(jì)算量小,收斂速度快,穩(wěn)定性好的優(yōu)點(diǎn),能較好完成卷積混合語(yǔ)音的實(shí)時(shí)分離工作。


參考文獻(xiàn)
[1] ?BELL A J, SEJNOWSKI T J. An information-maximization?approach to blind separation and blind deconvolution [J].Neural Computation, 1995,(7):1129-1159.
[2] ?何培宇,殷斌.一種有效的語(yǔ)音盲信號(hào)分離簡(jiǎn)化混合模型[J].電子學(xué)報(bào), 2002,30(10):1438-1440.
[3]?KAWAMOTO M, BARROS A K, MANSOUR A, et al.?Real world blind separation of convolved non-stationary?signals. ICA 1999:347-352.
[4]?張玲,何培宇.一種時(shí)域盲信號(hào)分離系統(tǒng)的DSP實(shí)現(xiàn) [C].全國(guó)第二屆DSP應(yīng)用技術(shù)會(huì)議,2004,8(23):222-224.
[5] ?DOHERTY J, PORAYATH R.? A robust echo canceler for ?acoustic environments[J]. IEEE Trans, Circuits and Sys??temsⅡ1997,(44):389-398.

?

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。