文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.015
中文引用格式: 何騰鵬,張榮芬,劉超,等. 基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2017,43(4):58-61.
英文引用格式: He Tengpeng,Zhang Rongfen,Liu Chao,et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique,2017,43(4):58-61.
0 引言
據(jù)世界衛(wèi)生組織統(tǒng)計(jì),截至目前全球約有盲人7 800萬(wàn),其中90%生活在發(fā)展中國(guó)家,中國(guó)現(xiàn)有盲人數(shù)量占據(jù)世界盲人總數(shù)的18%,多達(dá)1 400萬(wàn)。盲人作為社會(huì)中的一種弱勢(shì)群體,視力殘疾、眼部疾病給其生活帶來(lái)了諸多不便。另一方面,近年來(lái)隨著我國(guó)老齡化人口的持續(xù)增多,視力障礙者數(shù)量也在急劇上升,如何保障盲人群體及視障人士安全有效地出行顯得尤為重要。為此,本文設(shè)計(jì)了一種基于機(jī)器視覺(jué)[1]的智能導(dǎo)盲眼鏡,旨在幫助盲人朋友在行走過(guò)程中,安全、有效地避開(kāi)道路上的目標(biāo)障礙物,盡最大可能地保障其出行安全。相較于市場(chǎng)上導(dǎo)盲效率不理想的導(dǎo)盲手杖和價(jià)格昂貴的導(dǎo)盲犬,基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡系統(tǒng)更具競(jìng)爭(zhēng)力。
1 智能導(dǎo)盲眼鏡控制系統(tǒng)的總體設(shè)計(jì)
本文的智能導(dǎo)盲眼鏡控制系統(tǒng)由前端嵌入式采集傳輸系統(tǒng)和遠(yuǎn)程云平臺(tái)服務(wù)器兩大部分組成。嵌入式采集傳輸系統(tǒng)以三星Cortex-A8架構(gòu)的S5PV210處理器為載體,搭載Linux內(nèi)核,配備雙目采集、GPS定位、語(yǔ)音播報(bào)、GSM短信、語(yǔ)音通話、無(wú)線傳輸?shù)群诵墓δ苣K搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺(tái),主要完成信息采集傳輸和智能指令導(dǎo)盲功能。云平臺(tái)服務(wù)器作為智能導(dǎo)盲眼鏡的遠(yuǎn)程數(shù)據(jù)處理中心,在服務(wù)器配置上,選用阿里云作為云端服務(wù)器,再融入深度學(xué)習(xí)、雙目測(cè)距[2]等相關(guān)算法,實(shí)現(xiàn)對(duì)智能導(dǎo)盲眼鏡前端場(chǎng)景目標(biāo)的圖像識(shí)別、距離檢測(cè)和方位判斷。此外該服務(wù)器還構(gòu)建了GPS衛(wèi)星數(shù)據(jù)匹配平臺(tái),結(jié)合智能導(dǎo)盲眼鏡實(shí)體,能對(duì)眼鏡使用者進(jìn)行實(shí)時(shí)有效地定位。本系統(tǒng)的總體設(shè)計(jì)框圖如圖1所示。
2 智能導(dǎo)盲眼鏡控制系統(tǒng)硬件設(shè)計(jì)
2.1 雙目采集模塊設(shè)計(jì)
雙目采集模塊選用兩個(gè)性能參數(shù)完全一致的CMOS高清攝像頭,用于智能導(dǎo)盲眼鏡前方場(chǎng)景信息的采集,幫助盲人獲取前方目標(biāo)和相應(yīng)的場(chǎng)景信息。
2.2 GPS定位模塊設(shè)計(jì)
全球定位系統(tǒng)(GPS)能為全球用戶提供低成本、高精度的三維位置,可在全球范圍內(nèi)進(jìn)行全天候、全方位的實(shí)時(shí)定位。系統(tǒng)選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元,主要用于實(shí)時(shí)獲取盲人所在地理位置的經(jīng)緯度坐標(biāo)。
2.3 無(wú)線通信傳輸模塊設(shè)計(jì)
無(wú)線通信傳輸模塊主要由3G芯片和對(duì)應(yīng)的外圍電路組成,采用3G無(wú)線技術(shù),實(shí)現(xiàn)智能導(dǎo)盲眼鏡與遠(yuǎn)程云平臺(tái)服務(wù)器的雙向通信。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標(biāo)信息通過(guò)3G網(wǎng)絡(luò)發(fā)到遠(yuǎn)端云服務(wù)器平臺(tái),另一方面將服務(wù)器的圖片識(shí)別和地理位置配對(duì)結(jié)果反送回來(lái)傳遞給智能導(dǎo)盲眼鏡,進(jìn)行語(yǔ)音播報(bào),把結(jié)果實(shí)時(shí)告訴給盲人。同時(shí)利用3G模塊的GSM短信功能,智能導(dǎo)盲眼鏡系統(tǒng)也會(huì)將從云服務(wù)器端獲取的結(jié)果,以短消息的形式及時(shí)告知盲人家屬。另外,在特殊情況下,盲人也可利用3G的電話功能直接與親屬間進(jìn)行語(yǔ)音通話。圖2為無(wú)線通信傳輸模塊的應(yīng)用電路圖。
2.4 語(yǔ)音播報(bào)模塊設(shè)計(jì)
智能導(dǎo)盲眼鏡控制系統(tǒng)的語(yǔ)音播報(bào)功能主要用于將導(dǎo)盲眼鏡前方目標(biāo)的圖片識(shí)別結(jié)果、距離、方位信息以及所處的地理位置通過(guò)語(yǔ)音模塊播放出來(lái),及時(shí)告知盲人所處的周圍環(huán)境狀況。系統(tǒng)選用SYN6288中文語(yǔ)音合成芯片作為語(yǔ)音播報(bào)模塊的主體,實(shí)現(xiàn)文本到聲音的轉(zhuǎn)換,其外圍電路如圖3所示。
3 智能導(dǎo)盲眼鏡控制系統(tǒng)的軟件設(shè)計(jì)
本系統(tǒng)的軟件設(shè)計(jì)分為遠(yuǎn)端云平臺(tái)服務(wù)器上的程序設(shè)計(jì)和智能導(dǎo)盲眼鏡前端的程序設(shè)計(jì)兩部分。遠(yuǎn)程云平臺(tái)服務(wù)器上的軟件設(shè)計(jì)主要是采用C/C++等高級(jí)編程語(yǔ)言將圖片的識(shí)別、測(cè)距、方位檢測(cè)等相關(guān)算法轉(zhuǎn)換成計(jì)算機(jī)系統(tǒng)能夠識(shí)別的程序指令,從而實(shí)現(xiàn)智能導(dǎo)盲眼鏡遠(yuǎn)程云服務(wù)器的識(shí)別、測(cè)距、方位檢測(cè)等功能。另外GPS的經(jīng)緯度解析也在云服務(wù)器上通過(guò)軟件編程實(shí)現(xiàn)。導(dǎo)盲眼鏡前端軟件設(shè)計(jì)主要包括雙目攝像頭的圖片采集、GPS地理位置坐標(biāo)的獲取、無(wú)線通信傳輸模塊的數(shù)據(jù)傳輸與接收、語(yǔ)音播報(bào)模塊的調(diào)度和按鍵中斷的配置等功能模塊子程序的編寫(xiě),其主程序流程圖如圖4所示。
4 基于深度信念網(wǎng)絡(luò)的自然場(chǎng)景識(shí)別
深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)[3]作為深度學(xué)習(xí)中最為廣泛應(yīng)用的一種算法模型,多應(yīng)用于手寫(xiě)字體識(shí)別和自然場(chǎng)景識(shí)別這兩個(gè)方向。在智能導(dǎo)盲眼鏡控制系統(tǒng)中,深度信念網(wǎng)絡(luò)主要用在自然場(chǎng)景中常見(jiàn)的物體識(shí)別上,這也是深度學(xué)習(xí)在機(jī)器視覺(jué)領(lǐng)域中的一種應(yīng)用體現(xiàn)。圖5是一個(gè)典型的深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型。
從圖5可以看出,深度信念網(wǎng)絡(luò)是由多個(gè)受限制玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM)[4]組成的深層網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,DBN的訓(xùn)練過(guò)程采用逐層訓(xùn)練的方法,每一層RBM都單獨(dú)訓(xùn)練,參數(shù)也是單獨(dú)調(diào)整[5]。訓(xùn)練完一層后,將該層的訓(xùn)練結(jié)果作為下一層RBM的輸入,直至每一層RBM都訓(xùn)練完成,這個(gè)過(guò)程稱之為預(yù)訓(xùn)練。當(dāng)深度信念網(wǎng)絡(luò)中的所有RBM訓(xùn)練完成后,再根據(jù)樣本的標(biāo)簽值,采用反向傳播算法向后微調(diào)。
在智能導(dǎo)盲眼鏡的圖像訓(xùn)練過(guò)程中,采用改進(jìn)型的CIFAR-10自然場(chǎng)景庫(kù)作為測(cè)試訓(xùn)練樣本。原始的CIFAR-10數(shù)據(jù)集有60 000張32×32的彩色圖像,分為飛機(jī)、汽車、貓、鳥(niǎo)、鹿、狗、青蛙、馬、船和卡車共10類。為了增強(qiáng)智能導(dǎo)盲眼鏡的實(shí)用性,結(jié)合盲人的特殊情況,本文在實(shí)際的系統(tǒng)圖像訓(xùn)練中,加入了餐桌、椅子、人、垃圾桶、樹(shù)木等生活中常見(jiàn)的一些目標(biāo)場(chǎng)景,對(duì)原始的CIFAR-10自然場(chǎng)景庫(kù)進(jìn)行了改進(jìn),然后采用改進(jìn)型的CIFAR-10自然場(chǎng)景庫(kù)通過(guò)圖6所示的深度信念網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練識(shí)別。
在上述訓(xùn)練模型中,改進(jìn)型CIFAR-10自然場(chǎng)景庫(kù)中每張圖均為32×32的彩色圖片,因此輸入層大小為3 072個(gè)結(jié)點(diǎn)(3 072=32×32×3),兩個(gè)隱含層節(jié)點(diǎn)數(shù)分別為1 000和200,在經(jīng)過(guò)面向多元分類的Softmax分類器[6]后輸出層為10個(gè)單元,系統(tǒng)最終模型結(jié)構(gòu)為3072-1000-200-10。在智能導(dǎo)盲眼鏡系統(tǒng)實(shí)際的圖像訓(xùn)練階段,訓(xùn)練模型中的兩層RBM的訓(xùn)練迭代次數(shù)都設(shè)置為200,學(xué)習(xí)率都設(shè)置成0.1。訓(xùn)練完成后,將系統(tǒng)學(xué)習(xí)到的權(quán)重用于初始化神經(jīng)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行參數(shù)微調(diào), 并用Sigmoid函數(shù)[7]激活神經(jīng)網(wǎng)絡(luò)。系統(tǒng)訓(xùn)練過(guò)程中,由于樣本繁多,數(shù)據(jù)繁雜,隱含層需要相對(duì)較多的節(jié)點(diǎn)數(shù)才能學(xué)習(xí)到較好的特征,加之圖片本身信息量大,需要較多次的迭代,整個(gè)訓(xùn)練過(guò)程平均歷時(shí)10個(gè)小時(shí),這與深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)[8]以及自動(dòng)編碼模型[9]相比,訓(xùn)練時(shí)間大幅度縮短,并且還具有較為理想的識(shí)別率,這也是本系統(tǒng)選用深度信念網(wǎng)絡(luò)作為識(shí)別訓(xùn)練模型的主要原因。
5 系統(tǒng)測(cè)試結(jié)果與分析
采用上述的深度信念網(wǎng)絡(luò)訓(xùn)練模型先對(duì)改進(jìn)型CIFAR-10庫(kù)中的10 000張測(cè)試圖片隨機(jī)進(jìn)行了示范性測(cè)試,表1所示為各類樣本的識(shí)別率和平均識(shí)別率。
從表1可以看出改進(jìn)型CIFAR-10庫(kù)中的10類測(cè)試樣本通過(guò)導(dǎo)盲眼鏡系統(tǒng)的深度信念網(wǎng)絡(luò)訓(xùn)練模型后,其平均識(shí)別率為82.9%,與基于支持向量機(jī)[10]訓(xùn)練識(shí)別模型的識(shí)別率相比,其平均識(shí)別率超出了支持向量機(jī)模型的近10%,為進(jìn)一步的智能導(dǎo)盲眼鏡整體系統(tǒng)測(cè)試奠定了基礎(chǔ)。最后,針對(duì)盲人的生活需要,結(jié)合智能導(dǎo)盲眼鏡的其他功能,對(duì)智能導(dǎo)盲眼鏡控制系統(tǒng)在實(shí)際場(chǎng)景中進(jìn)行了系統(tǒng)聯(lián)調(diào),其中雙目攝像頭的采集幀率設(shè)置為3幀/s,語(yǔ)音導(dǎo)航頻率設(shè)定為每?jī)擅腌妼?dǎo)盲一次,遠(yuǎn)程服務(wù)器端測(cè)試結(jié)果如圖7、圖8所示。通過(guò)圖7可以看出智能導(dǎo)盲眼鏡的GPS功能能實(shí)時(shí)、準(zhǔn)確地獲取佩戴導(dǎo)盲眼鏡用戶的經(jīng)緯度,并通過(guò)無(wú)線通信傳輸模塊送至遠(yuǎn)程服務(wù)器,進(jìn)行地理位置的準(zhǔn)確匹對(duì)。圖8顯示該智能導(dǎo)盲眼鏡在實(shí)際場(chǎng)景中,不僅能較準(zhǔn)確識(shí)別出前方目標(biāo)的類別,還能測(cè)出目標(biāo)物體到導(dǎo)盲眼鏡的距離,正確表示出障礙物的方位特征,并在眼鏡端實(shí)時(shí)以語(yǔ)音導(dǎo)盲的形式幫助盲人及時(shí)有效地避開(kāi)障礙物,從而保障了盲人的安全出行。
6 結(jié)語(yǔ)
本系統(tǒng)以S5PV210為主控制器搭建基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡,通過(guò)搭載Linux內(nèi)核,配備雙目采集、GPS定位、語(yǔ)音播報(bào)、GSM短信、語(yǔ)音通話、無(wú)線傳輸六大核心功能模塊組成系統(tǒng),完成了系統(tǒng)的硬件電路設(shè)計(jì)和軟件設(shè)計(jì)。通過(guò)系統(tǒng)測(cè)試,該智能導(dǎo)盲眼鏡不僅能對(duì)盲人的獨(dú)立出行進(jìn)行實(shí)時(shí)語(yǔ)音導(dǎo)航,而且在特殊情況下,盲人可以通過(guò)智能眼鏡上的觸發(fā)按鍵,使用導(dǎo)盲眼鏡的GPS、GSM短信、語(yǔ)音通話等功能,及時(shí)向親朋好友獲取幫助。另外由于智能導(dǎo)盲眼鏡還具有圖像識(shí)別能力,能幫助盲人進(jìn)行簡(jiǎn)易物品歸類,在一定程度上也使盲人的生活自理能力得以提升,這對(duì)于盲人基數(shù)較大的中國(guó)而言,顯得尤為重要。
參考文獻(xiàn)
[1] Milan Sonka,Vaclav Hlavac,Roger Boyle,等.圖像處理、分析與機(jī)器視覺(jué)[M].北京:清華大學(xué)出版社,2016.
[2] 岳榮剛,王少萍,李凱,等.基于相似原理的新型雙目測(cè)距法[J].光電工程,2008,35(4):64-68.
[3] 陳翠平.基于深度信念網(wǎng)絡(luò)的文本分類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(2):121-126.
[4] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機(jī)簡(jiǎn)介[J].工程數(shù)學(xué)學(xué)報(bào),2013(2):159-173.
[5] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[6] 王爽,馬文萍,謝慧明,等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A,2014.
[7] 張雪偉,王焱.基于Sigmoid函數(shù)參數(shù)調(diào)整的雙隱層BP神經(jīng)網(wǎng)絡(luò)的板形預(yù)測(cè)[J].化工自動(dòng)化及儀表,2010,37(4):42-44.
[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].杭州:浙江工商大學(xué),2013.
[9] 吳海燕.基于自動(dòng)編碼器的半監(jiān)督表示學(xué)習(xí)與分類學(xué)習(xí)研究[D].重慶:重慶大學(xué),2015.
[10] 崔鵬宇.基于支持向量機(jī)的分類器訓(xùn)練研究[J].數(shù)字技術(shù)與應(yīng)用,2016(6):58-58.
作者信息:
何騰鵬,張榮芬,劉 超,房樂(lè)楠,劉宇紅
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025)