《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于神經網絡的智能語音識別研究
基于神經網絡的智能語音識別研究
2016年微型機與應用第17期
楊景花1,王雙喜1,周思方2,3
1.商丘學院 計算機工程學院,河南 商丘 476000;2. 商丘師范學院 計算機與信息技術學院,河南 商丘 476000; 3.商丘職業(yè)技術學院,河南 商丘 476000
摘要: 語音識別或語言轉化成文本的過程包括捕獲聲波,數字化聲波,轉換成基本的語言單位或者音素,根據音位和語境構建詞語,分析詞語,保證拼寫正確,并且保證與聽到的詞語保持一致。該文把人工智能和神經網絡技術應用到語音識別系統(tǒng)中,通過學習獲得固定權重并應用到模型,最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經網絡模型主要用來進行語音識別。
Abstract:
Key words :

  楊景花1,王雙喜1,周思方2,3

 ?。?.商丘學院 計算機工程學院,河南 商丘 476000;2. 商丘師范學院 計算機與信息技術學院,河南 商丘 476000;3.商丘職業(yè)技術學院,河南 商丘 476000)

       摘要:語音識別或語言轉化成文本的過程包括捕獲聲波,數字化聲波,轉換成基本的語言單位或者音素,根據音位和語境構建詞語,分析詞語,保證拼寫正確,并且保證與聽到的詞語保持一致。該文把人工智能神經網絡技術應用到語音識別系統(tǒng)中,通過學習獲得固定權重并應用到模型,最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經網絡模型主要用來進行語音識別。

  關鍵詞:語音識別;神經網絡;人工智能;信號處理

0引言

  人工智能的應用在最近幾年迅速發(fā)展,特別是神經網絡的應用,神經網絡系統(tǒng)是解決許多突出問題的一個工具,如模式識別和模式分類。1943年,神經生物學家MCCULLOCH W S和青年數學家PITTS W合作,提出了第一個人工神經元模型,并抽象出神經元的數理模型,開創(chuàng)了人工神經網絡的研究[1]。Hopfield模型是于1982年提出的,它是神經網絡存儲和提取信息進行非線性數學運算的概括,使人工神經網絡的構造和學習有了理論指導[2]。隨后又有脈沖耦合神經網絡等模型不斷被提出[35]。經過多年的發(fā)展,更多經過優(yōu)化、性能更強的神經網絡模型被提出。

  語音識別的研究工作開始于Bell實驗室開發(fā)的第一個可識別10個英文數字的語音識別系統(tǒng)。20世紀60年代,計算機的應用推動了語音識別的發(fā)展。出現(xiàn)了動態(tài)規(guī)劃和線性預測分析技術,較好地解決了語音信號產生模型的問題。隱馬爾可夫(HMM)模型和人工神經網絡(ANN)在語音識別中的應用加快了語音識別模型的發(fā)展,隨后又有許多的模型出現(xiàn)[69]。隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗室走向實用。我國語音識別研究工作起步較晚,但近年來發(fā)展也很快,尤其實驗室系統(tǒng)到市場化商品的發(fā)展[10 12]。

1模式識別

  自動識別、分類和分組模式作為重要的參數廣泛應用于各種工程和科學學科,如生物學、心理學、醫(yī)學、市場營銷、計算機視覺、人工智能、遙感等。模式可以是指紋圖像、手寫草書、人臉或語音信號。從處理問題的性質和解決問題的方法等角度,模式識別可分為:

 ?。?)有監(jiān)督的分類,辨別分析、實驗樣本所屬的類別是預先已知的;

 ?。?)無監(jiān)督的分類,實驗樣本所屬的類別是預先未知的。

  文中的模式識別問題是如何分類或者說是分類問題,其中類的定義是系統(tǒng)設計者設計的約束分類或者是無監(jiān)督分類下相似模型的學習。

  模式識別的應用包括特定數據的挖掘等。例如,數以百萬計的相關或獨立的多維模型中,文檔分類能有效搜索文本文檔、金融預測、多媒體數據庫和生物特征的組織與檢索。由于大型數據庫對速度、精度和成本要求很嚴格,所以自動模式識別的需求正在迅速增長。

圖像 001.png

  識別系統(tǒng)模式的設計基本上包括以下三個方面:(1)收集、預處理和數據報告;(2)決策過程;(3)問題規(guī)模決定了預處理技術的選擇。

  從一組例子中學習是大多數識別系統(tǒng)的一個重要性質。人們在觀察事物或現(xiàn)象時,通常會尋找它與其他事物或現(xiàn)象的不同之處,并根據一定的目的把各個相似的但又不完全相同的事物或現(xiàn)象組成一類[13 17]。常見的模式識別方法有:模式匹配、統(tǒng)計分類、句法方法等。

2神經網絡

  神經網絡是一種模仿動物神經網絡行為特征、進行分布式并行信息處理的算法數學模型。通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。一些學者給出了節(jié)點之間交互定義:利用數學模型仿真生物學系統(tǒng)特征,并行處理信息;簡單的實體類的算法,算法形成于數學模型(模型將這些策略分組成大量的算法,這些算法能解決大量復雜的問題)。

  神經網絡的活躍性體現(xiàn)在分類、編碼的過程和神經網絡的特性方面。神經網絡特性有:(1)抗噪聲。(2)靈活處理扭曲圖像。(3)并行協(xié)同處理信息。神經網絡中的每個神經元都可以根據接收到的信息進行獨立的運算和處理,并輸出結果,同一層中的各個神經元的輸出結果可被同時計算下來,然后傳輸給下一層做進一步處理,體現(xiàn)了神經網絡并行運算的特點。(4)對信息的處理具有自組織、自學習的特點,便于聯(lián)想、綜合和推廣。神經網絡的神經元之間的連接強度用權值大小表示,這種權值可以通過對訓練樣本的學習而不斷變化。

  神經網絡常見類型有:(1)Hopfield網絡,一種單層的自聯(lián)想網絡,無學習能力,多使用在聯(lián)想記憶方法來識別ASCII字符等領域。(2)感知器主要用來模擬人腦的感知特征,采取閾值單元作為傳遞函數,所以只能輸出兩個值,適合簡單模式分類問題。多用在文字識別、聲音識別領域。(3)自組織映射常尋找最優(yōu)參考矢量集合來對輸入模式集合進行分類。(4)自適應諧振理論將競爭學習模型嵌入到一個自調節(jié)控制機構,使得當輸入充分類似某一已存模式時系統(tǒng)才接受,不夠類似時,只能作為新的類別來處理。

3處理過程

  神經網絡處理語音識別問題的處理過程如圖1所示。

  3.1識別過程

  (1)輸入信號送入計算機,選擇單詞邊界,去掉孤立詞匯。

  (2)聽覺信號處理,對語音信號進行片段化(分幀),LPC分析,將Durbin算法作用于每個片段得到LPC倒譜系數的矢量,并使用K均值算法進行量化。

  (3)模式匹配和識別,利用人工神經網絡對聲學參數近似度進行計算。

  (4)時間校正,模式序列識別。

  語音信號作為神經網絡的輸入,對語音信號分段后,神經網絡接收到一組信號片段。每個片段對應一組數字,表示信號的振幅范圍。所有的數字為計算神經網絡輸出做準備。如表1所示,每行是一幀的數字集合。

圖像 004.png

圖像 002.png

如圖2所示。其中,I表示一組數字中的數目,N表示數字集合(分割之后的幀信號)的數目,輸入神經元的數目已知,每個神經元對應一組數字,輸出層只有一個神經元。輸出神經元輸出的信號對應識別所期望的輸出值。

  其中,xqi表示一組數字中第i個xq的輸入值,yj為第j個神經元的輸出值,wij為第i個神經元和第j個神經元的連接權值,βj為第j個神經元的權值反饋。

  3.2利用模型進行語音識別

  要計算神經網絡的輸出,須完成以下步驟:

  (1)初始化所有隱藏層中的所有神經元的上下文;

  (2)將第一組數字應用于神經網絡,利用式(1)計算隱藏層的輸出。

  QQ圖片20161007214214.png

  要識別一個數字需要建立相應的神經網絡模型,這里建立10個相互有聯(lián)系的模型單元模仿神經元。一個語音片段經過片段化后輸入到神經網絡模型中,經過權值的迭代計算出期望的輸出。如訓練神經網絡識別一個數字時,理想的輸出應當是對應的數字,而不應當是其他的數字或者字母。表2列出了神經網絡模型對數字0~9測試的準確率。

圖像 005.png

神經網絡學習時按照量化均值調整規(guī)模,直到周圍的各種配置錯誤到達一個可以接受的水平(由系統(tǒng)定義)。系統(tǒng)功能中的錯誤按式(2)進行計算。

    QQ圖片20161007214217.png

  N是神經網絡例子中訓練樣本的數目。一個神經元的原型是生物學中的神經細胞,一個神經元由體細胞和兩個樹狀的分支——軸突和樹突組成。細胞體包含了細胞的必要元素,例如細胞核(內含DNA)、細胞質等。樹突可以接受刺激并將興奮傳入細胞體。每個神經元只有一個軸突,傳遞興奮給其他神經元。

  神經元的功能特點以及它們如何結合成一個網絡結構決定了神經網絡的功能特點。多層神經網絡和多層感知器能夠滿足苛刻的識別和管理要求。設計神經元時,每一個神經元都會從前一層處理矢量信號,圖3雙層神經網絡模型并將處理結果傳給下一層。最小實現(xiàn)是一個雙層神經網絡,由輸入層、中間層(隱藏)、輸出層組成。如圖3所示。

4結論

  基于人工神經網絡的語音識別模型的研究目的是研究開發(fā)學習型神經網絡。利用學習型神經網絡來實現(xiàn)語音識別的功能。本文把人工智能和神經網絡技術應用到語音識別的系統(tǒng)中,通過學習獲得固定權重并應用到模型,最后模型快速給出與輸入相匹配的輸出。在現(xiàn)有數據集實驗的基礎上,識別準確程度較好。

  參考文獻

 ?。?] MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biophysics,1943,10(5):115133.

 ?。?] HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities[J].Proc Natl Acad Sci,1982,79(6):25542558.[3] RITTER G X, SUSSNER P. Morphological associative memories[J]. IEEE Transactions on Neural Networks, 1998,9(2):281292.

 ?。?] 馮乃勤,劉春紅,張聰品,等.形態(tài)學聯(lián)想記憶框架研究[J].計算機學報,2010,33(1): 3140.

 ?。?] SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary[J].Journal of Signal and Information Processing,2015,4(4):370374.

 ?。?] CHOUDHARY A, KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique[J].International Journal of Soft Computing and Engineering(IJSCE), 2012,2(5):239242.

  [7] CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407419.

 ?。?] BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models[J].Advances in Neural Information Processing Systems,2013:899907.

 ?。?] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):19291958.

  [10] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協(xié)論壇,2010(3):6263.

 ?。?1] 林錫海.召喚式撿球機器人的語音識別系統(tǒng)設計與實現(xiàn)[D].廣州:廣東工業(yè)大學,2011.

 ?。?2] 史峰,王小川,郁磊,等.MATLAB 神經網絡30個案例分析[M].北京:北京航空航天大學出版社,2010.

 ?。?5] 劉鈺,馬艷麗,董蓓蓓.語音識別技術概述[J].計算機光盤軟件與應用,2010(5):9899.

 ?。?6] 廖锎.淺析語音識別技術的發(fā)展及趨勢[J].科技傳播,2010(17):3436.

 ?。?7] 賈晶.基于STM32的嵌入式語音識別模塊設計[J].數字技術與應用,2012(6):152153.


此內容為AET網站原創(chuàng),未經授權禁止轉載。