蔣磊磊,秦麗娟,李武舉
?。ㄉ蜿?yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110159)
摘要:手勢(shì)識(shí)別正在成為人機(jī)交互技術(shù)研究中的一種重要模式,運(yùn)用攝像機(jī)和計(jì)算機(jī)視覺(jué)技術(shù)捕獲靜態(tài)手勢(shì)圖像,在YCrCb空間下利用高斯分布對(duì)膚色建模,通過(guò)計(jì)算背景顏色像素概率分割出干凈的手勢(shì)圖像,再采用基于Sugeno模糊模型的自適應(yīng)神經(jīng)模糊推理系統(tǒng)識(shí)別手勢(shì)。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)相比,該識(shí)別方法具有較好的自適應(yīng)性和魯棒性。實(shí)驗(yàn)結(jié)果表明,基于Sugeno模糊模型的自適應(yīng)神經(jīng)模糊推理系統(tǒng)能夠有效地進(jìn)行特征學(xué)習(xí),正確識(shí)別率可以達(dá)到95%左右,是一個(gè)非常有效的靜態(tài)手勢(shì)識(shí)別方法。
關(guān)鍵詞:人機(jī)交互;手勢(shì);基于Sugeno模糊模型;自適應(yīng)神經(jīng)-模糊推理
中圖分類號(hào):TP751;TP753文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2016.24.015
引用格式:蔣磊磊,秦麗娟,李武舉. 基于Sugeno模糊模型的ANFIS在手勢(shì)識(shí)別中的應(yīng)用[J].微型機(jī)與應(yīng)用,2016,35(24):50-53.
0引言
近年來(lái),隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)應(yīng)用的迅速普及,人機(jī)交互已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚慕M成部分[1]。自然的人機(jī)交互方式可以降低操作難度,避免身體單一部位的重復(fù)勞動(dòng)。傳統(tǒng)意義里向計(jì)算機(jī)輸入信息的交互方式如使用鼠標(biāo)、鍵盤、遙控、觸摸屏、游戲搖桿等讀入設(shè)備,都是以機(jī)器為中心,用戶需要去適應(yīng)學(xué)習(xí)預(yù)先設(shè)定的規(guī)范之后才能應(yīng)用機(jī)器的基本操作。這些人機(jī)交互方式已成為人機(jī)交流聯(lián)系的瓶頸,因?yàn)橛脩舨荒苁褂米约鹤盍?xí)慣的方式(如手勢(shì)等)與計(jì)算機(jī)進(jìn)行交互。
手勢(shì)是人有意識(shí)地作出的手的動(dòng)作,不論是操作使用工具還是與其他人進(jìn)行交流,手勢(shì)都能表達(dá)出做手勢(shì)者的想法與意圖。由此應(yīng)運(yùn)而生的手勢(shì)識(shí)別技術(shù)為人們提供了人與計(jì)算機(jī)進(jìn)行交互的最自然的方式?;谑謩?shì)識(shí)別技術(shù),人們能夠與計(jì)算機(jī)創(chuàng)造的虛擬環(huán)境進(jìn)行直接交互。目前,手勢(shì)識(shí)別技術(shù)的研究是虛擬現(xiàn)實(shí)技術(shù)研究的主要內(nèi)容之一。
1手勢(shì)圖像的預(yù)處理與手勢(shì)分割
ANFIS[2]用于手勢(shì)圖像處理的一般流程[3]如圖1所示。
1.1圖像的預(yù)處理
在復(fù)雜背景下,不同光照變化也會(huì)導(dǎo)致膚色的亮度發(fā)生變化,這就需要采用一種可靠的顏色空間模型。研究表明YCrCb顏色空間[4]具有亮度和色度分離的優(yōu)點(diǎn),既能充分表達(dá)人手膚色,又能在很大程度上消除亮度影響,降低了色彩空間的維數(shù),減少了計(jì)算復(fù)雜度。在YCrCb空間下利用高斯分布對(duì)膚色建模,計(jì)算出圖像中各點(diǎn)屬于膚色的概率值,可以分割出手勢(shì)區(qū)域?;诟咚狗植紝?duì)膚色建模的計(jì)算公式如下:
P(Cb,Cr)=exp{-0.5(x-m)TC-1(x-m)}
其中:x為樣本像素在YCrCb空間的值x=(Cb,Cr)T,m為膚色在YCrCb空間的樣本均值,m=E(x);C為膚色相似度模型的協(xié)方差矩陣,C=E{(x-m)(x-m)T}。
通過(guò)計(jì)算圖像每個(gè)像素點(diǎn)屬于膚色的概率值P,可以建立一個(gè)完整的膚色概率分布矩陣,采用最大類間方差法(OTSU)對(duì)膚色概率矩陣進(jìn)行自適應(yīng)值的二值化處理,在二值化處理的圖像中,像素值為1的亮色區(qū)域表示是膚色點(diǎn),像素值為0的暗色區(qū)域表示非膚色點(diǎn)。
使用高斯濾波,消除手勢(shì)圖像中的噪聲,恢復(fù)有用的手勢(shì)信息,增強(qiáng)手勢(shì)目標(biāo)的可檢測(cè)性和最大限度地簡(jiǎn)化背景圖像數(shù)據(jù)。經(jīng)過(guò)二值化和濾波處理的圖像,手勢(shì)區(qū)域邊緣會(huì)存在大小不一的空洞,具有毛刺或不完整的輪廓,形態(tài)學(xué)的膨脹算法可以擴(kuò)展二值圖像中的亮度區(qū)域,腐蝕算法可以擴(kuò)展二值圖像中的暗色區(qū)域。去除二值圖像中孤立的噪聲點(diǎn)和手勢(shì)區(qū)域邊緣不平滑的凸出部分,同時(shí)對(duì)二值圖像的孔洞進(jìn)行填充。
1.2手勢(shì)圖像的分割
OTSU法[5]是一種動(dòng)態(tài)的閾值分割算法。按照手勢(shì)圖像灰度特征將手勢(shì)圖像分成目標(biāo)和背景兩部分,選擇門限值劃分使得背景和目標(biāo)之間的方差最大。背景和目標(biāo)之間的類間方差越大說(shuō)明這兩部分的差別越大,目標(biāo)圖像就越容易從背景圖像中分割出來(lái)。
現(xiàn)在,手勢(shì)圖像的灰度值為1~N級(jí),t為選定的閾值,那么圖像就被分成兩組。假設(shè)A代表背景,PA為背景出現(xiàn)的概率,同理B為目標(biāo),PB為目標(biāo)出現(xiàn)的概率,Pi是N個(gè)灰度級(jí)每個(gè)出現(xiàn)的概率。計(jì)算背景和目標(biāo)兩個(gè)區(qū)域的類間方差過(guò)程如下:
(1)背景和目標(biāo)的出現(xiàn)概率:
在1~N之間改變t的值,當(dāng)δ2取最大時(shí)對(duì)應(yīng)的t的值為最佳閾值,因此δ2是選擇閾值的函數(shù)。該方法不管圖像的直方圖是否有明顯的雙峰,都能得到比較滿意的結(jié)果。本文使用上述方法取得了不錯(cuò)的效果,圖2和圖3是室內(nèi)與室外手勢(shì)分割的效果圖。
2自適應(yīng)神經(jīng)-模糊推理系統(tǒng)(ANFIS)
自適應(yīng)神經(jīng)元模糊推理系統(tǒng)[6](Adaptive Neural Fuzzy Inference System, ANFIS)是一種把模糊邏輯方法和神經(jīng)網(wǎng)絡(luò)方法有機(jī)融合在一起的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),借助神經(jīng)網(wǎng)絡(luò)的信息存儲(chǔ)能力和學(xué)習(xí)能力,在對(duì)廣泛選擇的訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,優(yōu)化了控制規(guī)則、各語(yǔ)言變量的隸屬函數(shù)及每條規(guī)則的輸出函數(shù),使ANFIS系統(tǒng)本身朝著自適應(yīng)、自組織、自學(xué)習(xí)的方向發(fā)展。
Sugeno模糊模型是一種用來(lái)在給定的輸入/輸出數(shù)據(jù)集中產(chǎn)生模糊規(guī)則的系統(tǒng)方式。一階Sugeno模糊模型如下:
y=k0+k1x1+k2x2+…+kmxm
圖4表示基于Sugeno模糊模型的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)模型。
下面討論每一層的作用。
第1層是輸入層。該層的神經(jīng)元簡(jiǎn)單地將外部信號(hào)傳送給第2層,即
y(1)i=x(1)i
其中,x(1)i是第一層中神經(jīng)元i的輸入,y(1)i是第1層中神經(jīng)元i的輸出。
第2層是模糊化層。該層中的神經(jīng)元的作用是執(zhí)行模糊化操作。其中模糊化神經(jīng)元有一個(gè)鐘形激活函數(shù)(bell activation function)。鐘形激活函數(shù)由線為規(guī)則的鐘形形狀,其定義為:
其中,x(2)i是第2層中的神經(jīng)元i的輸入,y(2)i是第2層輸入神經(jīng)元的輸出。ai、bi、ci分別為控制神經(jīng)元i的鐘形激活函數(shù)的中心、寬度和斜率的參數(shù)。
第3層是模糊化層。規(guī)則神經(jīng)元從各自的模糊化神經(jīng)元接收輸入,并計(jì)算它表示的規(guī)則激發(fā)強(qiáng)度。在ANFIS中,規(guī)則前項(xiàng)的鏈接由“乘積”操作來(lái)評(píng)估。因此,第3層的神經(jīng)元的輸出可表示為:
其中,x(3)ji和y(3)i分別為第3層規(guī)則神經(jīng)元i的輸入輸出。例如:
y(3)1=μA1×μB1=μ1
其中μ1的取值代表規(guī)則1的激發(fā)強(qiáng)度或真值。
第4層是歸一化層。該層接收并計(jì)算給定規(guī)則的歸一化激發(fā)強(qiáng)度。歸一化強(qiáng)度是給定規(guī)則的激發(fā)強(qiáng)度和所有規(guī)則激發(fā)強(qiáng)度的總和的比值,它表示給定規(guī)則對(duì)最終結(jié)果的貢獻(xiàn)。因此,第4層神經(jīng)元i的輸出為:
第5層是去模糊化層。該層中的每個(gè)神經(jīng)元均連接到各自的歸一化神經(jīng)元上,同時(shí)接收初始輸入x1和x2。去模糊化神經(jīng)元計(jì)算給定規(guī)則的帶權(quán)重的后項(xiàng)值:
y(5)1=x(5)i[ki0+ki1x1+ki2x2]=1[ki0+ki1x1+ki2x2]
其中,x(5)i和y(5)i分別為第5層去模糊化神經(jīng)元i的輸入和輸出,ki0、ki1、ki2是規(guī)則i的后項(xiàng)參數(shù)的集合。
第6層為總和神經(jīng)元,作用是計(jì)算所有去模糊化神經(jīng)元輸出的總和,產(chǎn)生ANFIS總輸出y:
y=∑ni=1x(6)i=∑ni=1i[ki0+ki1+ki2]
3基于Sugeno模糊模型的ANFIS在手勢(shì)識(shí)別中的實(shí)現(xiàn)
3.1ANFIS的學(xué)習(xí)樣本
首先選擇1~10的手勢(shì)樣本進(jìn)行訓(xùn)練,每類手勢(shì)訓(xùn)練樣本的數(shù)量要近似相等,避免由于訓(xùn)練樣本數(shù)量的不同導(dǎo)致個(gè)別類別響應(yīng)過(guò)于敏感或者過(guò)于遲鈍,同時(shí)能大幅度提高訓(xùn)練速度,避免網(wǎng)絡(luò)陷入局部極小點(diǎn)。
以中國(guó)傳統(tǒng)的標(biāo)準(zhǔn)手勢(shì)為例,如圖5所示。
由于神經(jīng)網(wǎng)絡(luò)[7]不具有不變識(shí)別的能力,要使網(wǎng)絡(luò)對(duì)手勢(shì)的旋轉(zhuǎn)、伸縮具有不變性,要盡可能選擇各種情況的手勢(shì)樣本。每個(gè)手勢(shì)選用200個(gè)樣本進(jìn)行訓(xùn)練,盡量選擇不同方向、不同大小的手勢(shì)樣本,這樣可以保證網(wǎng)絡(luò)系統(tǒng)在較為復(fù)雜背景下有較高識(shí)別率。訓(xùn)練樣本如圖6所示。
提取預(yù)處理后的手勢(shì)圖像特征向量,同來(lái)訓(xùn)練系統(tǒng)參數(shù)。
3.2基于Sugeno模糊模型的ANFIS在手勢(shì)識(shí)別的結(jié)果
從分割出來(lái)的手勢(shì)圖像中提取出特征向量作為識(shí)別系統(tǒng)的輸入。本文使用以下三種識(shí)別方法:基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)、基于BP神經(jīng)網(wǎng)絡(luò)[8]的識(shí)別方法和基于模糊神經(jīng)網(wǎng)絡(luò)[9]的識(shí)別方法,并比較三者的識(shí)別率。為了系統(tǒng)學(xué)習(xí)和輸入的方便,本文采用同樣且同等數(shù)量的樣本進(jìn)行學(xué)習(xí),同等條件下經(jīng)過(guò)200次的實(shí)驗(yàn)后得到的結(jié)果是:基于自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)的手勢(shì)識(shí)別率比另外兩種方法的識(shí)別率高。具體實(shí)驗(yàn)數(shù)據(jù)如表1所示。
根據(jù)表中的數(shù)據(jù)制成鏈表,直觀表現(xiàn)三種識(shí)別方式的優(yōu)劣,如圖7所示。此外識(shí)別率還受系統(tǒng)學(xué)習(xí)次數(shù)的影響,具體如圖8所示。
4結(jié)論與展望
針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足,本文提出的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)充分發(fā)揮了自適應(yīng)、模糊化和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),具有適應(yīng)性強(qiáng)、學(xué)習(xí)能力好的特點(diǎn),提高了系統(tǒng)的魯棒性。此外對(duì)手勢(shì)的識(shí)別率也有了顯著的提高。對(duì)于手勢(shì)本身的多樣性、多義性、差異性等特點(diǎn)以及技術(shù)的局限,尤其是在復(fù)雜的環(huán)境下,當(dāng)人手和人臉重合或者人手與背景膚色相差不多的情況下,并不能很好地從圖像中提取出完整的無(wú)噪聲的手勢(shì)圖像。此外目前采用的識(shí)別系統(tǒng)在識(shí)別率與時(shí)間效率還不能同時(shí)完美實(shí)現(xiàn),如何在保證目標(biāo)識(shí)別率的前提下,獲得理想的處理速度,提高系統(tǒng)實(shí)用性,這將是一個(gè)重要的研究課題。
參考文獻(xiàn)
?。?] 武霞,張崎,許艷旭. 手勢(shì)識(shí)別研究發(fā)展現(xiàn)狀綜述[J]. 電子科技,2013,26(6):171174.
?。?] NEGNEVITSKY M. 人工智能:智能系統(tǒng)指南[M]. 北京:機(jī)械工業(yè)出版社, 2012.
[3] 范會(huì)敏,王浩. 模式識(shí)別方法概述[J]. 電子設(shè)計(jì)工程,2012,20(19):4851.
?。?] 邱迪. 基于HSV與YCrCb顏色空間進(jìn)行膚色檢測(cè)的研究[J]. 電腦編程技巧與維護(hù),2012(10):7475.
[5] 李梅. 基于Otsu算法的圖像分割研究[D].合肥:合肥工業(yè)大學(xué),2011.
?。?] 張小娟. 自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)及其仿真[J]. 電子設(shè)計(jì)工程,2012,20(5):1113.
?。?] 馮桐. 基于神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別研究[D].北京:北京理工大學(xué),2015.
?。?] 李歌. 基于BP神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別研究[D].秦皇島:燕山大學(xué),2013.
[9] 齊鏜泉. 基于動(dòng)態(tài)模糊神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別算法研究[D].重慶:西南大學(xué),2011.