日本人妻vs黑人巨大嗷嗷叫视频,4虎最新,亚色91

基于神經(jīng)網(wǎng)絡(luò)的智能語音識別研究

2016年微型機(jī)與應(yīng)用第17期

楊景花1，王雙喜1，周思方2,3

1.商丘學(xué)院計(jì)算機(jī)工程學(xué)院，河南商丘 476000；2. 商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院，河南商丘 476000； 3.商丘職業(yè)技術(shù)學(xué)院，河南商丘 476000

摘要： 語音識別或語言轉(zhuǎn)化成文本的過程包括捕獲聲波，數(shù)字化聲波，轉(zhuǎn)換成基本的語言單位或者音素，根據(jù)音位和語境構(gòu)建詞語，分析詞語，保證拼寫正確，并且保證與聽到的詞語保持一致。該文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識別系統(tǒng)中，通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型，最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經(jīng)網(wǎng)絡(luò)模型主要用來進(jìn)行語音識別。

關(guān)鍵詞： 語音識別神經(jīng)網(wǎng)絡(luò) 人工智能信號處理

Abstract：

Key words :

　　楊景花1，王雙喜1，周思方2,3

　　（1.商丘學(xué)院計(jì)算機(jī)工程學(xué)院，河南商丘 476000；2. 商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院，河南商丘 476000；3.商丘職業(yè)技術(shù)學(xué)院，河南商丘 476000）

摘要：語音識別或語言轉(zhuǎn)化成文本的過程包括捕獲聲波，數(shù)字化聲波，轉(zhuǎn)換成基本的語言單位或者音素，根據(jù)音位和語境構(gòu)建詞語，分析詞語，保證拼寫正確，并且保證與聽到的詞語保持一致。該文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識別系統(tǒng)中，通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型，最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經(jīng)網(wǎng)絡(luò)模型主要用來進(jìn)行語音識別。

　　關(guān)鍵詞：語音識別；神經(jīng)網(wǎng)絡(luò)；人工智能；信號處理

0引言

　　人工智能的應(yīng)用在最近幾年迅速發(fā)展，特別是神經(jīng)網(wǎng)絡(luò)的應(yīng)用，神經(jīng)網(wǎng)絡(luò)系統(tǒng)是解決許多突出問題的一個(gè)工具，如模式識別和模式分類。1943年,神經(jīng)生物學(xué)家MCCULLOCH W S和青年數(shù)學(xué)家PITTS W合作，提出了第一個(gè)人工神經(jīng)元模型，并抽象出神經(jīng)元的數(shù)理模型，開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)的研究［1］。Hopfield模型是于1982年提出的，它是神經(jīng)網(wǎng)絡(luò)存儲和提取信息進(jìn)行非線性數(shù)學(xué)運(yùn)算的概括，使人工神經(jīng)網(wǎng)絡(luò)的構(gòu)造和學(xué)習(xí)有了理論指導(dǎo)［2］。隨后又有脈沖耦合神經(jīng)網(wǎng)絡(luò)等模型不斷被提出［35］。經(jīng)過多年的發(fā)展，更多經(jīng)過優(yōu)化、性能更強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型被提出。

　　語音識別的研究工作開始于Bell實(shí)驗(yàn)室開發(fā)的第一個(gè)可識別10個(gè)英文數(shù)字的語音識別系統(tǒng)。20世紀(jì)60年代，計(jì)算機(jī)的應(yīng)用推動了語音識別的發(fā)展。出現(xiàn)了動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)，較好地解決了語音信號產(chǎn)生模型的問題。隱馬爾可夫(HMM)模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中的應(yīng)用加快了語音識別模型的發(fā)展，隨后又有許多的模型出現(xiàn)［69］。隨著多媒體時(shí)代的來臨，迫切要求語音識別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩Ｎ覈Z音識別研究工作起步較晚，但近年來發(fā)展也很快，尤其實(shí)驗(yàn)室系統(tǒng)到市場化商品的發(fā)展［10 12］。

1模式識別

　　自動識別、分類和分組模式作為重要的參數(shù)廣泛應(yīng)用于各種工程和科學(xué)學(xué)科，如生物學(xué)、心理學(xué)、醫(yī)學(xué)、市場營銷、計(jì)算機(jī)視覺、人工智能、遙感等。模式可以是指紋圖像、手寫草書、人臉或語音信號。從處理問題的性質(zhì)和解決問題的方法等角度，模式識別可分為：

　?。?）有監(jiān)督的分類，辨別分析、實(shí)驗(yàn)樣本所屬的類別是預(yù)先已知的；

　?。?）無監(jiān)督的分類，實(shí)驗(yàn)樣本所屬的類別是預(yù)先未知的。

　　文中的模式識別問題是如何分類或者說是分類問題，其中類的定義是系統(tǒng)設(shè)計(jì)者設(shè)計(jì)的約束分類或者是無監(jiān)督分類下相似模型的學(xué)習(xí)。

　　模式識別的應(yīng)用包括特定數(shù)據(jù)的挖掘等。例如，數(shù)以百萬計(jì)的相關(guān)或獨(dú)立的多維模型中，文檔分類能有效搜索文本文檔、金融預(yù)測、多媒體數(shù)據(jù)庫和生物特征的組織與檢索。由于大型數(shù)據(jù)庫對速度、精度和成本要求很嚴(yán)格，所以自動模式識別的需求正在迅速增長。

圖像 001.png

　　識別系統(tǒng)模式的設(shè)計(jì)基本上包括以下三個(gè)方面：（1）收集、預(yù)處理和數(shù)據(jù)報(bào)告；（2）決策過程；（3）問題規(guī)模決定了預(yù)處理技術(shù)的選擇。

　　從一組例子中學(xué)習(xí)是大多數(shù)識別系統(tǒng)的一個(gè)重要性質(zhì)。人們在觀察事物或現(xiàn)象時(shí)，通常會尋找它與其他事物或現(xiàn)象的不同之處，并根據(jù)一定的目的把各個(gè)相似的但又不完全相同的事物或現(xiàn)象組成一類［13 17］。常見的模式識別方法有：模式匹配、統(tǒng)計(jì)分類、句法方法等。

2神經(jīng)網(wǎng)絡(luò)

　　神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征、進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系，從而達(dá)到處理信息的目的。一些學(xué)者給出了節(jié)點(diǎn)之間交互定義：利用數(shù)學(xué)模型仿真生物學(xué)系統(tǒng)特征，并行處理信息；簡單的實(shí)體類的算法，算法形成于數(shù)學(xué)模型(模型將這些策略分組成大量的算法，這些算法能解決大量復(fù)雜的問題)。

　　神經(jīng)網(wǎng)絡(luò)的活躍性體現(xiàn)在分類、編碼的過程和神經(jīng)網(wǎng)絡(luò)的特性方面。神經(jīng)網(wǎng)絡(luò)特性有：（1）抗噪聲。（2）靈活處理扭曲圖像。（3）并行協(xié)同處理信息。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元都可以根據(jù)接收到的信息進(jìn)行獨(dú)立的運(yùn)算和處理，并輸出結(jié)果，同一層中的各個(gè)神經(jīng)元的輸出結(jié)果可被同時(shí)計(jì)算下來，然后傳輸給下一層做進(jìn)一步處理，體現(xiàn)了神經(jīng)網(wǎng)絡(luò)并行運(yùn)算的特點(diǎn)。（4）對信息的處理具有自組織、自學(xué)習(xí)的特點(diǎn)，便于聯(lián)想、綜合和推廣。神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間的連接強(qiáng)度用權(quán)值大小表示，這種權(quán)值可以通過對訓(xùn)練樣本的學(xué)習(xí)而不斷變化。

　　神經(jīng)網(wǎng)絡(luò)常見類型有：(1)Hopfield網(wǎng)絡(luò)，一種單層的自聯(lián)想網(wǎng)絡(luò)，無學(xué)習(xí)能力，多使用在聯(lián)想記憶方法來識別ASCII字符等領(lǐng)域。(2)感知器主要用來模擬人腦的感知特征，采取閾值單元作為傳遞函數(shù)，所以只能輸出兩個(gè)值，適合簡單模式分類問題。多用在文字識別、聲音識別領(lǐng)域。(3)自組織映射常尋找最優(yōu)參考矢量集合來對輸入模式集合進(jìn)行分類。(4)自適應(yīng)諧振理論將競爭學(xué)習(xí)模型嵌入到一個(gè)自調(diào)節(jié)控制機(jī)構(gòu)，使得當(dāng)輸入充分類似某一已存模式時(shí)系統(tǒng)才接受，不夠類似時(shí)，只能作為新的類別來處理。

3處理過程

　　神經(jīng)網(wǎng)絡(luò)處理語音識別問題的處理過程如圖1所示。

　　3.1識別過程

　　(1)輸入信號送入計(jì)算機(jī)，選擇單詞邊界，去掉孤立詞匯。

　　(2)聽覺信號處理，對語音信號進(jìn)行片段化(分幀)，LPC分析，將Durbin算法作用于每個(gè)片段得到LPC倒譜系數(shù)的矢量，并使用K均值算法進(jìn)行量化。

　　(3)模式匹配和識別，利用人工神經(jīng)網(wǎng)絡(luò)對聲學(xué)參數(shù)近似度進(jìn)行計(jì)算。

　　(4)時(shí)間校正，模式序列識別。

　　語音信號作為神經(jīng)網(wǎng)絡(luò)的輸入，對語音信號分段后，神經(jīng)網(wǎng)絡(luò)接收到一組信號片段。每個(gè)片段對應(yīng)一組數(shù)字，表示信號的振幅范圍。所有的數(shù)字為計(jì)算神經(jīng)網(wǎng)絡(luò)輸出做準(zhǔn)備。如表1所示，每行是一幀的數(shù)字集合。

圖像 004.png

圖像 002.png

如圖2所示。其中，I表示一組數(shù)字中的數(shù)目，N表示數(shù)字集合(分割之后的幀信號)的數(shù)目，輸入神經(jīng)元的數(shù)目已知，每個(gè)神經(jīng)元對應(yīng)一組數(shù)字，輸出層只有一個(gè)神經(jīng)元。輸出神經(jīng)元輸出的信號對應(yīng)識別所期望的輸出值。

　　其中，xqi表示一組數(shù)字中第i個(gè)xq的輸入值，yj為第j個(gè)神經(jīng)元的輸出值，wij為第i個(gè)神經(jīng)元和第j個(gè)神經(jīng)元的連接權(quán)值，βj為第j個(gè)神經(jīng)元的權(quán)值反饋。

　　3.2利用模型進(jìn)行語音識別

　　要計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出，須完成以下步驟：

　　(1)初始化所有隱藏層中的所有神經(jīng)元的上下文；

　　(2)將第一組數(shù)字應(yīng)用于神經(jīng)網(wǎng)絡(luò)，利用式（1）計(jì)算隱藏層的輸出。

　　 QQ圖片20161007214214.png

　　要識別一個(gè)數(shù)字需要建立相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型，這里建立10個(gè)相互有聯(lián)系的模型單元模仿神經(jīng)元。一個(gè)語音片段經(jīng)過片段化后輸入到神經(jīng)網(wǎng)絡(luò)模型中，經(jīng)過權(quán)值的迭代計(jì)算出期望的輸出。如訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別一個(gè)數(shù)字時(shí)，理想的輸出應(yīng)當(dāng)是對應(yīng)的數(shù)字，而不應(yīng)當(dāng)是其他的數(shù)字或者字母。表2列出了神經(jīng)網(wǎng)絡(luò)模型對數(shù)字0~9測試的準(zhǔn)確率。

圖像 005.png

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)按照量化均值調(diào)整規(guī)模，直到周圍的各種配置錯(cuò)誤到達(dá)一個(gè)可以接受的水平(由系統(tǒng)定義)。系統(tǒng)功能中的錯(cuò)誤按式（2）進(jìn)行計(jì)算。

　 QQ圖片20161007214217.png

　　N是神經(jīng)網(wǎng)絡(luò)例子中訓(xùn)練樣本的數(shù)目。一個(gè)神經(jīng)元的原型是生物學(xué)中的神經(jīng)細(xì)胞，一個(gè)神經(jīng)元由體細(xì)胞和兩個(gè)樹狀的分支——軸突和樹突組成。細(xì)胞體包含了細(xì)胞的必要元素，例如細(xì)胞核(內(nèi)含DNA)、細(xì)胞質(zhì)等。樹突可以接受刺激并將興奮傳入細(xì)胞體。每個(gè)神經(jīng)元只有一個(gè)軸突，傳遞興奮給其他神經(jīng)元。

　　神經(jīng)元的功能特點(diǎn)以及它們?nèi)绾谓Y(jié)合成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)決定了神經(jīng)網(wǎng)絡(luò)的功能特點(diǎn)。多層神經(jīng)網(wǎng)絡(luò)和多層感知器能夠滿足苛刻的識別和管理要求。設(shè)計(jì)神經(jīng)元時(shí)，每一個(gè)神經(jīng)元都會從前一層處理矢量信號，圖3雙層神經(jīng)網(wǎng)絡(luò)模型并將處理結(jié)果傳給下一層。最小實(shí)現(xiàn)是一個(gè)雙層神經(jīng)網(wǎng)絡(luò)，由輸入層、中間層（隱藏）、輸出層組成。如圖3所示。

4結(jié)論

　　基于人工神經(jīng)網(wǎng)絡(luò)的語音識別模型的研究目的是研究開發(fā)學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)。利用學(xué)習(xí)型神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)語音識別的功能。本文把人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識別的系統(tǒng)中，通過學(xué)習(xí)獲得固定權(quán)重并應(yīng)用到模型，最后模型快速給出與輸入相匹配的輸出。在現(xiàn)有數(shù)據(jù)集實(shí)驗(yàn)的基礎(chǔ)上，識別準(zhǔn)確程度較好。

　　參考文獻(xiàn)

　　［1］ MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity［J］. Bulletin of Mathematical Biophysics,1943,10(5):115133.

　?。?］ HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities［J］.Proc Natl Acad Sci,1982,79(6):25542558.［3］ RITTER G X, SUSSNER P. Morphological associative memories［J］. IEEE Transactions on Neural Networks, 1998,9(2):281292.

　　［4］馮乃勤,劉春紅,張聰品,等.形態(tài)學(xué)聯(lián)想記憶框架研究［J］.計(jì)算機(jī)學(xué)報(bào),2010,33(1): 3140.

　?。?］ SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary［J］.Journal of Signal and Information Processing,2015，4（4）：370374.

　?。?］ CHOUDHARY A， KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique［J］.International Journal of Soft Computing and Engineering(IJSCE), 2012，2（5）：239242.

　　［7］ CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition［J］.Computer Speech & Language,2013,27(2):407419.

　?。?］ BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models［J］.Advances in Neural Information Processing Systems，2013:899907.

　?。?］ SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting［J］.The Journal of Machine Learning Research,2014,15(1):19291958.

　?。?0］邢銘生，朱浩，王宏斌．語音識別技術(shù)綜述［J］．科協(xié)論壇，2010(3):6263.

　?。?1］林錫海．召喚式撿球機(jī)器人的語音識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［D］．廣州：廣東工業(yè)大學(xué)，2011.

　?。?2］史峰,王小川,郁磊,等.MATLAB 神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析［M］.北京:北京航空航天大學(xué)出版社,2010.

　　［15］劉鈺，馬艷麗，董蓓蓓.語音識別技術(shù)概述［J］.計(jì)算機(jī)光盤軟件與應(yīng)用,2010（5）:9899.

　?。?6］廖锎.淺析語音識別技術(shù)的發(fā)展及趨勢［J］.科技傳播,2010（17）:3436.

　　［17］賈晶．基于ＳＴＭ３２的嵌入式語音識別模塊設(shè)計(jì)［J］．?dāng)?shù)字技術(shù)與應(yīng)用，2012（6）：152153.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容