摘 要: 論述了基于人體仿生學和嵌入式軟核的可編程片上系統(tǒng)SoPC的研究與實現(xiàn)。
關鍵詞: 仿生學 SoPC 數(shù)字信號并行處理 嵌入式聲源定位" title="聲源定位">聲源定位器
眾所周知,人的聽覺系統(tǒng)可以對所聽到的特定聲音來源進行定位。所謂的“雞尾酒會效應”[1]就是指人耳可以在一定的噪音背景下惟一地關注一個指定的聲音。結合嵌入式系統(tǒng)小巧靈活的特點和日益強大的功能,實現(xiàn)這樣的一種仿生聲源定位器" title="定位器">定位器,可以有效地對聽障人士的日常生活起到幫助作用,例如躲避突發(fā)的危險狀況、日常的人際交往等。更廣泛地看,這種系統(tǒng)可應用于機器人的聽覺系統(tǒng)、保安保密設施等諸多領域。
為與基于ASIC技術的聲源定位器[2]區(qū)別,本文基于SoPC技術,在Altera的stratix系統(tǒng)平臺上,充分利用SoPC靈活的可重用設計特性和FPGA的信號并行處理能力,用一個MIC陣列,模擬人耳的聽覺系統(tǒng),實現(xiàn)聲源定位器。并利用其良好的擴展性,進一步將系統(tǒng)從單CPU架構擴展至雙CPU架構,加入了語音識別" title="語音識別">語音識別的功能(本文只重點論述聲源定位的研究與實現(xiàn))。
在一個相對安靜的房間里對定位器進行測試,在5米的直徑范圍內,可以較準確地通過LCD輸出聲源的位置坐標。同時,對于簡單的短語,經(jīng)過訓練之后,系統(tǒng)能夠在不超過1秒的時間內產(chǎn)生指定的響應,如在LCD上顯示相應的文字、振動器振動報警等。
1 人耳聽覺模型的基本原理
在一個簡單的人耳聽覺系統(tǒng)模型中,聲源定位可以描述為:(1)從各種不同頻率的聲音中解析發(fā)現(xiàn)特定的聲音,如從一定的環(huán)境噪聲背景中找到特定聲源所發(fā)出的聲音。(2)獲得聲音到達MIC陣列的端點,即端點檢測" title="端點檢測">端點檢測。(3)聽覺系統(tǒng)根據(jù)聲音到達兩耳的時間差,判斷出聲源的方向和位置。
根據(jù)上述人耳聽覺的機理,所設計的聲源定位器需要解決聲音的噪音過濾、端點檢測及方位距離算法等問題。
(1)聲音的噪音過濾和端點檢測。對于噪音的簡單過濾和聲音的端點檢測,可以通過常用的“雙門限法”實現(xiàn)。
本文利用Matlab下的Simulink作為原理驗證工具。驗證無誤后,將對應的FIR數(shù)字濾波器的階數(shù)和系數(shù)直接填入到Quartus II提供的FIR IP Core模塊中參數(shù)化,再在VHDL用戶模塊例化,即可完成FPGA中的語音信號預處理模塊的搭建工作。
(2)聲源定位算法。系統(tǒng)中共使用了3個MIC,分別位于水平面上邊長為20cm的等邊三角形的三個頂點。借助于端點檢測,可獲取聲音到達各個MIC時對應的不同計數(shù)值n(對應有t=n/f,其中t為聲音傳播時間,f為采樣頻率),從而得到時延估計。經(jīng)過前端的信號預處理工作,再充分利用聲源傳播中的先驗信息,基于空間幾何知識建立的算法模型,定位精度基本上達到了應用要求。MIC陣列擺放如圖1所示。
因為該設備主要是針對聾啞人的語音輔助開發(fā)的,所以通常情況下聲源是與MIC陣列確定的平面共面或近似共面的。在近似共面的情形時,將數(shù)學模型擴展到三維的情況,即MIC陣列確定一個平面,而聲源不在該平面內。此時,以原點為中心,假設聲源位于一個橫截面直徑為3~10m的環(huán)狀空間中,且聲源到MIC陣列平面(橫截面)的垂直距離不超過±1m。可驗證,聲源到原點的距離與聲源在MIC陣列平面投影點到原點的距離,二者偏差僅在4%左右。所以,為便于計算和構建模型,可以假設聲源與MIC陣列共面。
2 系統(tǒng)架構
系統(tǒng)基本架構由Avalon Bus和兩個NIOS II CPU組成。NIOS II是基于哈佛結構的RISC通用嵌入式處理器軟核,能與用戶邏輯相結合。該處理器具有32位指令集、32位數(shù)據(jù)通道和可配置的指令及數(shù)據(jù)緩沖。本文選用標準型內核搭建系統(tǒng)。
利用外圍ADC電路并通過IIS總線,三路" title="三路">三路MIC并行地將各自采集到的語音信號傳入AD Receiver模塊。該模塊是利用VHDL構建的用戶外設,用以橋接Avalon總線和ADC,同時完成三路語音信號的并行預處理。
單路信號處理過程如下所述:
將ADC傳入的串行信號轉換成16位的并行信號送入FIFO1。每一個并行信號即一個采樣點,定義每2 400個點為一幀,選取FIFO1容量為16bit×2560=5KB。存儲點數(shù)達到一幀后,將該幀逐點送入短時能量分析模塊、短時過零率分析模塊和FIFO2,計數(shù)器同時計數(shù)。FIFO2的容量與FIFO1相同。如果該幀沒有達到短時能量和過零率的閾值觸發(fā)要求,則該幀為無效幀;如果只達到過零率的觸發(fā)要求,則該幀為有效幀,暫時保留在FIFO2中,其后一幀若短時能量閾值觸發(fā)則回溯前一幀定位端點,否則兩幀都舍棄;如果某幀同時達到短時能量和過零率的觸發(fā)要求,則聲音起始端點即為該幀內部觸發(fā)過零率閾值的那一點。在這里,設置短時能量的觸發(fā)閾值EH為0.01,約為平穩(wěn)狀態(tài)時能量值的5倍;短時過零率公式中修正閾值T為0.01,當短時過零率幅值發(fā)生大于3倍的突變時,則認為過零率閾值觸發(fā)。另外,為便于能量閾值觸發(fā)后的回溯查尋,設置了同樣為5KB的FIFO3、FIFO4,分別存儲短時過零率和短時能量的數(shù)據(jù)。
將取得的聲音端點值傳至CPU1進行定位計算。CPU1利用Avalon總線與CPU2及系統(tǒng)其他模塊進行信息交換和處理。
系統(tǒng)硬件結構如圖2、圖3所示。
?
NIOS II提供了良好的系統(tǒng)擴展性和可編輯性,當系統(tǒng)引入語音識別功能使性能要求提高時,在不改變原有系統(tǒng)架構的基礎上,通過增加共享內存互斥鎖和共享內存,系統(tǒng)即可方便快速地擴展成為雙CPU架構。其中定義CPU1對前段采集的數(shù)據(jù)進行定位處理,將處理過的數(shù)據(jù)傳入CPU2,由CPU2完成識別及LCD顯示的功能,如圖3所示。
3 實驗
在一個相對安靜的房間中對系統(tǒng)進行了測試。房間大小約為(8×6×3)m3,環(huán)境噪聲以持續(xù)的音樂模擬,約為40~50dB,待檢測聲音約為65~70dB。人發(fā)聲的位置在圖1所示的平面坐標系中選擇。
圖4顯示了實驗中某個MIC的聲音預處理波形。聲音信號從左往右依次是你好、危險、早上好三句話,其中利用了223階的FIR線性濾波器實現(xiàn)信號處理功能,其窗函數(shù)為矩形窗。
從圖4中可以明顯看出:因為背景音樂和說話前后的呼吸,原始聲音波形中出現(xiàn)明顯的干擾信號(背景噪音),但經(jīng)過短時能量分析后,短時能量分析圖中的干擾部分已經(jīng)被過濾掉。實驗證明,將短時能量分析與短時過零率結合,可以較好地檢測到聲音的端點。
利用FPGA可并行處理的特性,實時監(jiān)控三路MIC的聲音處理信號,比較各路聲音端點對應的不同n值,得出三個時間差,代入定位計算公式,從而定位聲源位置。
本文論述了基于人體仿生學和NIOS II的聲源定位器。系統(tǒng)分為語音信號采集預處理和定位計算兩個基本部分及語音識別一個擴展部分。整個系統(tǒng)在實現(xiàn)過程中:
(1)利用FPGA的并行特性實現(xiàn)了三路語音信號的并行采集和處理;
(2)利用嵌入式的軟核NIOS II搭建了雙CPU結構。其中CPU1實現(xiàn)了對聲源定位的算法,CPU2實現(xiàn)了對語音識別及響應的功能;
(3)利用NIOS II提供的硬件互斥鎖機制實現(xiàn)了CPU間的良好同步通信。
從該系統(tǒng)的研究與實現(xiàn)中可以看到,SoPC的多核結構在低功耗、小面積、低成本的前提下提供了實現(xiàn)強大功能的可能。在聲源定位、語音識別的基礎上,結合語音合成技術,可為聾啞人提供更完善的幫助。而較高的性價比也將使這樣的系統(tǒng)進入更多更廣泛的生活工作應用領域。
參考文獻
1 Jie Huang,Ohnishi N,Sugie N.A Biomimetic System for Localization and Separation of Multi-ple Sound Sources.Instrumentation and Measure-ment.IEEE Transactions,1995;44(3)
2 Stanacevic M,Cauwenberghs G.Micorpower Gra-dient Flow Acoustic Localizer.Circuits and Sys-tems I:Regular Papers,IEEE Transactions on[seealso Circuits and Systems I:Fundamental Theory and Applications.IEEE Transactions,2005;52(10)
3 胡 航.語音信號處理.哈爾濱:哈爾濱工業(yè)大學出版社,2002
4 王炳錫,屈 丹,彭 煊.實用語音識別基礎.北京:國防工業(yè)出版社,2005
5 蔡蓮紅,黃德智,蔡 銳.現(xiàn)代語音技術基礎與應用.北京:清華大學出版社,2003