《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于馬爾可夫鏈的自適應(yīng)性神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法
基于馬爾可夫鏈的自適應(yīng)性神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法
2014年電子技術(shù)應(yīng)用第10期
莫紅枝
玉林師范學(xué)院 教育技術(shù)中心,廣西 玉林537000
摘要: 提出一種基于馬爾可夫鏈的自適應(yīng)性神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,對傳統(tǒng)的S型激勵函數(shù)進(jìn)行了改進(jìn),建立了自適應(yīng)性的神經(jīng)網(wǎng)絡(luò)分類器。
中圖分類號: TP393
文獻(xiàn)標(biāo)識碼: A
文章編號: 0258-7998(2014)10-0142-04
A Markov-based training program for adaptive neural network
Mo Hongzhi
Education Technology Center,Yulin Normal University,Yulin 537000,China
Abstract: A Markov-based training program to improve the robust and convergence rate is proposed in this paper. The activation function is improved from sigmoid function. The maximum likelihood estimation is established under the assumption that noise in the samples follows Gaussian distributions. Then a Markov chain is formed based on posterior probability. The Markov chain is used for training samples and can speed up the training rate. To evaluate the mentioned network, an experiment is designed to diagnose fault for roll bears. Result shows that the Markov chain is able to train the adaptive network and improve the diagnostic classification results effectively.
Key words : adaptively;activation functions;fault diagnosis;neural network

0 引言

    神經(jīng)網(wǎng)絡(luò)算法是一種非線性計算模型,近年來成為模式識別中常用的工具之一。在多層神經(jīng)網(wǎng)絡(luò)中,系統(tǒng)的性能不僅受到隱含層數(shù)、隱含層神經(jīng)元數(shù)量的影響,而且還與激勵函數(shù)的選取和訓(xùn)練算法直接相關(guān)。

    在目前的研究中,采用最為廣泛的為S型激勵函數(shù)[1-2],S型函數(shù)容易減慢網(wǎng)絡(luò)的收斂速度,甚至可能導(dǎo)致陷入局部最小值[3]。針對這一問題,近幾年采用自適應(yīng)激勵函數(shù)對神經(jīng)元輸入的加權(quán)和進(jìn)行計算已經(jīng)成為一種趨勢,并應(yīng)用于股票預(yù)測[4]、文字識別[5]等方面。本文針對常見的S型函數(shù),改進(jìn)了自適應(yīng)性激勵函數(shù)神經(jīng)網(wǎng)絡(luò)系統(tǒng)框架,提出基于馬爾可夫鏈的學(xué)習(xí)算法,并將其應(yīng)用到故障診斷領(lǐng)域,取得了比較好的實驗結(jié)果。

1 自適應(yīng)性神經(jīng)網(wǎng)絡(luò)

1.1 多層神經(jīng)網(wǎng)絡(luò)

    多層神經(jīng)網(wǎng)絡(luò)一般包括一個輸入層、一個輸出層、一個或者多個隱藏層。隱藏層每一層網(wǎng)絡(luò)中都包含多個神經(jīng)元,對每個神經(jīng)元的輸入都是由上一層輸出的加權(quán)和,例如對于第n組樣本數(shù)據(jù),第k層上的第j個神經(jīng)元的輸入可以通過計算上一層的加權(quán)和來計算,計算公式為:

jsj7-gs1-2.gif

jsj7-gs3.gif

其中,din和yin分別為第i個神經(jīng)元上真實情況下的輸出值和實際計算結(jié)果的輸出值,N為訓(xùn)練樣本的個數(shù)。

1.2 激勵函數(shù)

    本文以傳統(tǒng)的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計出基于改進(jìn)的S函數(shù)的自適應(yīng)性神經(jīng)網(wǎng)絡(luò)。其特點在于隱含層的激勵函數(shù)不再是固定的函數(shù),而是包含了可變參數(shù)的激勵函數(shù),這種神經(jīng)網(wǎng)絡(luò)系統(tǒng)框架如圖1所示。其中輸入層的神經(jīng)元數(shù)量由選取的特征的個數(shù)決定(1,2,…,N),輸出層神經(jīng)元個數(shù)為4個(S1,S2,S3,S4),隱含層神經(jīng)元的輸入是輸入層各個神經(jīng)元輸出的加權(quán)和,并采用了自適應(yīng)性的激勵函數(shù)對隱含層的輸入進(jìn)行計算(I1,I2…Ik)。計算結(jié)果通過加權(quán)求和作為輸出層的輸入。在輸入層并未采用任何激勵函數(shù),輸出層采用經(jīng)典的S型激勵函數(shù),如:

    jsj7-gs4.gif

    式(4)由S型函數(shù)演化而來,是一種常用的自適應(yīng)性激勵函數(shù),式中的α和β為可變參數(shù)。雖然該函數(shù)已經(jīng)應(yīng)用到神經(jīng)網(wǎng)絡(luò)算法中,卻很少有文獻(xiàn)將其應(yīng)用在解決機(jī)械設(shè)備故障分類問題中。

jsj7-t1.gif

2 基于馬爾可夫鏈的訓(xùn)練算法

2.1 算法描述

    樣本訓(xùn)練即是在給定一定數(shù)量的樣本時,利用式(3)對所有的權(quán)重進(jìn)行最優(yōu)化估計的過程[6-7]。當(dāng)樣本數(shù)據(jù)中含有噪聲時,會造成程序魯棒性很差,給傳統(tǒng)的訓(xùn)練方法帶來困難,本文假設(shè)式(3)中的誤差服從于高斯分布,然后根據(jù)后驗概率構(gòu)造出馬爾可夫鏈,完成對權(quán)重的訓(xùn)練,可以有效避免噪聲對訓(xùn)練結(jié)果造成的影響,具有收斂速度快的優(yōu)勢。假設(shè)樣本中含有噪聲,因此實際輸出與理想輸出之間的關(guān)系為:

    jsj7-gs5.gif

    式(5)的含義是對權(quán)重和自適應(yīng)性參數(shù)進(jìn)行估計,首先建立出的最大似然估計為:

jsj7-gs6-9.gif

    在得到θ的條件分布后,則各個權(quán)重及可變參數(shù)可以通過以下的算法進(jìn)行更新。

    算法一:

    輸入:樣本X,迭代次數(shù)I,初始值θ(0)={w0,α0,β0}

    jsj7-gs9-x1.gif

    從上面算法可以看到,通過不斷對各個參數(shù)進(jìn)行更新,形成了馬爾可夫鏈,最終可以得到最小二乘估計。

2.2 參數(shù)分析

    下面以式(4)為例給出條件分布的計算公式:

    (1)對于權(quán)重wk

    求取其分布時只需要將其他變量看作固定值,則可以得到其分布:

    jsj7-gs10.gif

其中,jsj7-gs10-x1.gif注意到要想從式(10)中得到估計量并不是很容易,因此采用了拒絕性采樣對權(quán)重進(jìn)行更新。其算法可以表示為:

    算法二:

    jsj7-gs10-x2.gif

    (2)對于參數(shù)α

    通過簡單的推導(dǎo)可以得出參數(shù)α的條件分布仍然服從于正態(tài)分布:

jsj7-gs11-12.gif

    式(12)中的概率也是很難處理的,為簡化程序,同樣采用拒絕性采樣算法對β進(jìn)行更新。

3 實驗結(jié)果仿真

3.1 數(shù)據(jù)準(zhǔn)備

    為對神經(jīng)網(wǎng)絡(luò)性能進(jìn)行驗證,利用本文設(shè)計的自適應(yīng)性神經(jīng)網(wǎng)絡(luò)設(shè)計出了分類器,應(yīng)用于軸承故障診斷當(dāng)中。選取的樣本數(shù)據(jù)來自于美國凱斯西儲大學(xué)股東軸承數(shù)據(jù)中心。軸承型號為SKF公司的6205-2RS型的深溝球軸承??紤]了4種軸承故障,分別為內(nèi)圈單點故障、外圈點蝕及滾動體點蝕和正常工作信號。4種信號的波形分別如圖2~圖5所示。

jsj7-t2.gif

jsj7-t3.gif

jsj7-t4.gif

jsj7-t5.gif

    訓(xùn)練樣本空間總共選取了1 136個個體,每個個體包含512個采樣點。通過小波分解提取出了20個小波系數(shù)作為分類器的輸入。

3.2 訓(xùn)練結(jié)果

    由于每段數(shù)據(jù)提取的特征個數(shù)為20個,因此將分類器的輸入層神經(jīng)元個數(shù)設(shè)置為了20個。通過實驗得到了最佳的隱含層神經(jīng)元數(shù)量。輸出層神經(jīng)元個數(shù)對應(yīng)于4種故障,最終的神經(jīng)網(wǎng)絡(luò)架構(gòu)和參數(shù)設(shè)置如表1所示。

jsj7-b1.gif

    其中S-MPL代表了S型函數(shù)作為隱含層激勵函數(shù)的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。F1-MPL代表以式(4)中的函數(shù)作為激勵函數(shù)的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。對F1-MPL的訓(xùn)練過程如圖6和圖7所示。圖6顯示的是利用本文算法的訓(xùn)練過程,其中?滓=0.5,初始值在0~1之間隨機(jī)生成。圖7展示了利用共軛梯度法作為訓(xùn)練算法的收斂過程。共軛梯度法是介于最速下降法與牛頓法之間的一個方法,它僅需利用一階導(dǎo)數(shù)信息,但克服了最速下降法收斂慢的缺點,又避免了牛頓法需要存儲和計算Hesse矩陣并求逆的缺點,學(xué)習(xí)率選為1.2。

jsj7-t6.gif

jsj7-t7.gif

    從圖6和圖7中的對比可以看出,利用本文提出的算法在第5次更新時就基本可以達(dá)到穩(wěn)定,具有穩(wěn)定性高、收斂速度快的特點。

3.3 分類結(jié)果

    通過訓(xùn)練后兩種神經(jīng)網(wǎng)絡(luò)對4類信號最終的分類結(jié)果如表2所示。

jsj7-b2.gif

    其中樣本個數(shù)一欄分別表示了4種類型的信號的樣本個數(shù),S-MPL、F1-MPL分別指的是通過S-MPL網(wǎng)絡(luò)和F1-MPL網(wǎng)絡(luò)分類正確的4種信號的數(shù)目。因此可以計算出兩種神經(jīng)網(wǎng)絡(luò)算法的分類精度如表3所示。

jsj7-b3.gif

    從表1中看出,本文的訓(xùn)練算法比傳統(tǒng)固定型的S型函數(shù)更加耗時,這是由于將可變參數(shù)引入到激勵函數(shù)中后,系統(tǒng)在訓(xùn)練時往往需要更多的運算。然而訓(xùn)練樣本的收斂精度也有所提高,這表明了本文算法訓(xùn)練精度也更高,因此可以推測,自適應(yīng)性的神經(jīng)網(wǎng)絡(luò)應(yīng)用到其他問題當(dāng)中時,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)更加容易搜索到全局最優(yōu)值。

    表2和表3證明了將本文的訓(xùn)練算法應(yīng)用在解決滾動軸承故障診斷問題方面的優(yōu)越性,取得了更高的分類精度。對于正常信號、滾動體點蝕振動信號、內(nèi)圈單點故障信號、外圈點蝕故障信號的分類精度分別可以達(dá)到99.69%、99.15%、98.90%、99.67%,平均分類精度可以達(dá)到99.38%。

4 結(jié)論

    本文對傳統(tǒng)的S型激勵函數(shù)進(jìn)行了改進(jìn),提出一種自適應(yīng)性的神經(jīng)網(wǎng)絡(luò)分類器;基于馬爾可夫鏈對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提高了網(wǎng)絡(luò)訓(xùn)練速度;最后,將該分類器應(yīng)用到滾動軸承故障診斷問題中。結(jié)果證明,使用該分類器可以比傳統(tǒng)的S型神經(jīng)網(wǎng)絡(luò)分類器獲得更高的分類精度。

參考文獻(xiàn)

[1] 唐貴基,范德功,胡愛軍,等.基于小波包能量特征向量神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)機(jī)械故障診斷[J].汽輪機(jī)技術(shù),2006(3):215-217.

[2] 張來斌,崔厚璽,王朝暉,等.基于信息熵神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電機(jī)故障診斷方法研究[J].機(jī)械強(qiáng)度,2009(1):132-135.

[3] BURSE K,YADAV R N,SHRIVASTAVA S C.Channel equalization using neural networks:a review[J].IEEE Transactions on Systems,Man,and Cybernetics Part C-Applications and Reviews,2010,40(3):352-357.

[4] BILDIRICI M,ALP E A,ERSIN O O.TAR-cointegration neural network model:An empirical analysis of exchange rates and stock returns[J].Expert Systems with Applications,2010,37(1):2-11.

[5] KANG M,PALMER-BROWN D.A modal learning adaptive function neural network applied to handwritten digit recognition[J].Information Sciences,2008,178(20):3802-3812.

[6] 滕輝.一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法研究[J].科技通報,2012(4):97-98.

[7] 鄭緒枝,夏薇,雷靖.一種改進(jìn)的Jacobi正交多項式的BP神經(jīng)網(wǎng)絡(luò)算法[J].云南大學(xué)學(xué)報(自然科學(xué)版),2011(S2):188-191.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。