文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.015
中文引用格式: 何騰鵬,張榮芬,劉超,等. 基于機器視覺的智能導盲眼鏡設(shè)計[J].電子技術(shù)應用,2017,43(4):58-61.
英文引用格式: He Tengpeng,Zhang Rongfen,Liu Chao,et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique,2017,43(4):58-61.
0 引言
據(jù)世界衛(wèi)生組織統(tǒng)計,截至目前全球約有盲人7 800萬,其中90%生活在發(fā)展中國家,中國現(xiàn)有盲人數(shù)量占據(jù)世界盲人總數(shù)的18%,多達1 400萬。盲人作為社會中的一種弱勢群體,視力殘疾、眼部疾病給其生活帶來了諸多不便。另一方面,近年來隨著我國老齡化人口的持續(xù)增多,視力障礙者數(shù)量也在急劇上升,如何保障盲人群體及視障人士安全有效地出行顯得尤為重要。為此,本文設(shè)計了一種基于機器視覺[1]的智能導盲眼鏡,旨在幫助盲人朋友在行走過程中,安全、有效地避開道路上的目標障礙物,盡最大可能地保障其出行安全。相較于市場上導盲效率不理想的導盲手杖和價格昂貴的導盲犬,基于機器視覺的智能導盲眼鏡系統(tǒng)更具競爭力。
1 智能導盲眼鏡控制系統(tǒng)的總體設(shè)計
本文的智能導盲眼鏡控制系統(tǒng)由前端嵌入式采集傳輸系統(tǒng)和遠程云平臺服務器兩大部分組成。嵌入式采集傳輸系統(tǒng)以三星Cortex-A8架構(gòu)的S5PV210處理器為載體,搭載Linux內(nèi)核,配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸?shù)群诵墓δ苣K搭建智能導盲眼鏡系統(tǒng)的硬件平臺,主要完成信息采集傳輸和智能指令導盲功能。云平臺服務器作為智能導盲眼鏡的遠程數(shù)據(jù)處理中心,在服務器配置上,選用阿里云作為云端服務器,再融入深度學習、雙目測距[2]等相關(guān)算法,實現(xiàn)對智能導盲眼鏡前端場景目標的圖像識別、距離檢測和方位判斷。此外該服務器還構(gòu)建了GPS衛(wèi)星數(shù)據(jù)匹配平臺,結(jié)合智能導盲眼鏡實體,能對眼鏡使用者進行實時有效地定位。本系統(tǒng)的總體設(shè)計框圖如圖1所示。
2 智能導盲眼鏡控制系統(tǒng)硬件設(shè)計
2.1 雙目采集模塊設(shè)計
雙目采集模塊選用兩個性能參數(shù)完全一致的CMOS高清攝像頭,用于智能導盲眼鏡前方場景信息的采集,幫助盲人獲取前方目標和相應的場景信息。
2.2 GPS定位模塊設(shè)計
全球定位系統(tǒng)(GPS)能為全球用戶提供低成本、高精度的三維位置,可在全球范圍內(nèi)進行全天候、全方位的實時定位。系統(tǒng)選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元,主要用于實時獲取盲人所在地理位置的經(jīng)緯度坐標。
2.3 無線通信傳輸模塊設(shè)計
無線通信傳輸模塊主要由3G芯片和對應的外圍電路組成,采用3G無線技術(shù),實現(xiàn)智能導盲眼鏡與遠程云平臺服務器的雙向通信。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標信息通過3G網(wǎng)絡發(fā)到遠端云服務器平臺,另一方面將服務器的圖片識別和地理位置配對結(jié)果反送回來傳遞給智能導盲眼鏡,進行語音播報,把結(jié)果實時告訴給盲人。同時利用3G模塊的GSM短信功能,智能導盲眼鏡系統(tǒng)也會將從云服務器端獲取的結(jié)果,以短消息的形式及時告知盲人家屬。另外,在特殊情況下,盲人也可利用3G的電話功能直接與親屬間進行語音通話。圖2為無線通信傳輸模塊的應用電路圖。
2.4 語音播報模塊設(shè)計
智能導盲眼鏡控制系統(tǒng)的語音播報功能主要用于將導盲眼鏡前方目標的圖片識別結(jié)果、距離、方位信息以及所處的地理位置通過語音模塊播放出來,及時告知盲人所處的周圍環(huán)境狀況。系統(tǒng)選用SYN6288中文語音合成芯片作為語音播報模塊的主體,實現(xiàn)文本到聲音的轉(zhuǎn)換,其外圍電路如圖3所示。
3 智能導盲眼鏡控制系統(tǒng)的軟件設(shè)計
本系統(tǒng)的軟件設(shè)計分為遠端云平臺服務器上的程序設(shè)計和智能導盲眼鏡前端的程序設(shè)計兩部分。遠程云平臺服務器上的軟件設(shè)計主要是采用C/C++等高級編程語言將圖片的識別、測距、方位檢測等相關(guān)算法轉(zhuǎn)換成計算機系統(tǒng)能夠識別的程序指令,從而實現(xiàn)智能導盲眼鏡遠程云服務器的識別、測距、方位檢測等功能。另外GPS的經(jīng)緯度解析也在云服務器上通過軟件編程實現(xiàn)。導盲眼鏡前端軟件設(shè)計主要包括雙目攝像頭的圖片采集、GPS地理位置坐標的獲取、無線通信傳輸模塊的數(shù)據(jù)傳輸與接收、語音播報模塊的調(diào)度和按鍵中斷的配置等功能模塊子程序的編寫,其主程序流程圖如圖4所示。
4 基于深度信念網(wǎng)絡的自然場景識別
深度信念網(wǎng)絡(Deep Belief Network,DBN)[3]作為深度學習中最為廣泛應用的一種算法模型,多應用于手寫字體識別和自然場景識別這兩個方向。在智能導盲眼鏡控制系統(tǒng)中,深度信念網(wǎng)絡主要用在自然場景中常見的物體識別上,這也是深度學習在機器視覺領(lǐng)域中的一種應用體現(xiàn)。圖5是一個典型的深度信念網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)模型。
從圖5可以看出,深度信念網(wǎng)絡是由多個受限制玻爾茲曼機(Restricted Boltzmann Machines,RBM)[4]組成的深層網(wǎng)絡,在這個網(wǎng)絡中,DBN的訓練過程采用逐層訓練的方法,每一層RBM都單獨訓練,參數(shù)也是單獨調(diào)整[5]。訓練完一層后,將該層的訓練結(jié)果作為下一層RBM的輸入,直至每一層RBM都訓練完成,這個過程稱之為預訓練。當深度信念網(wǎng)絡中的所有RBM訓練完成后,再根據(jù)樣本的標簽值,采用反向傳播算法向后微調(diào)。
在智能導盲眼鏡的圖像訓練過程中,采用改進型的CIFAR-10自然場景庫作為測試訓練樣本。原始的CIFAR-10數(shù)據(jù)集有60 000張32×32的彩色圖像,分為飛機、汽車、貓、鳥、鹿、狗、青蛙、馬、船和卡車共10類。為了增強智能導盲眼鏡的實用性,結(jié)合盲人的特殊情況,本文在實際的系統(tǒng)圖像訓練中,加入了餐桌、椅子、人、垃圾桶、樹木等生活中常見的一些目標場景,對原始的CIFAR-10自然場景庫進行了改進,然后采用改進型的CIFAR-10自然場景庫通過圖6所示的深度信念網(wǎng)絡模型進行訓練識別。
在上述訓練模型中,改進型CIFAR-10自然場景庫中每張圖均為32×32的彩色圖片,因此輸入層大小為3 072個結(jié)點(3 072=32×32×3),兩個隱含層節(jié)點數(shù)分別為1 000和200,在經(jīng)過面向多元分類的Softmax分類器[6]后輸出層為10個單元,系統(tǒng)最終模型結(jié)構(gòu)為3072-1000-200-10。在智能導盲眼鏡系統(tǒng)實際的圖像訓練階段,訓練模型中的兩層RBM的訓練迭代次數(shù)都設(shè)置為200,學習率都設(shè)置成0.1。訓練完成后,將系統(tǒng)學習到的權(quán)重用于初始化神經(jīng)網(wǎng)絡,對網(wǎng)絡參數(shù)進行參數(shù)微調(diào), 并用Sigmoid函數(shù)[7]激活神經(jīng)網(wǎng)絡。系統(tǒng)訓練過程中,由于樣本繁多,數(shù)據(jù)繁雜,隱含層需要相對較多的節(jié)點數(shù)才能學習到較好的特征,加之圖片本身信息量大,需要較多次的迭代,整個訓練過程平均歷時10個小時,這與深度學習中的卷積神經(jīng)網(wǎng)絡[8]以及自動編碼模型[9]相比,訓練時間大幅度縮短,并且還具有較為理想的識別率,這也是本系統(tǒng)選用深度信念網(wǎng)絡作為識別訓練模型的主要原因。
5 系統(tǒng)測試結(jié)果與分析
采用上述的深度信念網(wǎng)絡訓練模型先對改進型CIFAR-10庫中的10 000張測試圖片隨機進行了示范性測試,表1所示為各類樣本的識別率和平均識別率。
從表1可以看出改進型CIFAR-10庫中的10類測試樣本通過導盲眼鏡系統(tǒng)的深度信念網(wǎng)絡訓練模型后,其平均識別率為82.9%,與基于支持向量機[10]訓練識別模型的識別率相比,其平均識別率超出了支持向量機模型的近10%,為進一步的智能導盲眼鏡整體系統(tǒng)測試奠定了基礎(chǔ)。最后,針對盲人的生活需要,結(jié)合智能導盲眼鏡的其他功能,對智能導盲眼鏡控制系統(tǒng)在實際場景中進行了系統(tǒng)聯(lián)調(diào),其中雙目攝像頭的采集幀率設(shè)置為3幀/s,語音導航頻率設(shè)定為每兩秒鐘導盲一次,遠程服務器端測試結(jié)果如圖7、圖8所示。通過圖7可以看出智能導盲眼鏡的GPS功能能實時、準確地獲取佩戴導盲眼鏡用戶的經(jīng)緯度,并通過無線通信傳輸模塊送至遠程服務器,進行地理位置的準確匹對。圖8顯示該智能導盲眼鏡在實際場景中,不僅能較準確識別出前方目標的類別,還能測出目標物體到導盲眼鏡的距離,正確表示出障礙物的方位特征,并在眼鏡端實時以語音導盲的形式幫助盲人及時有效地避開障礙物,從而保障了盲人的安全出行。
6 結(jié)語
本系統(tǒng)以S5PV210為主控制器搭建基于機器視覺的智能導盲眼鏡,通過搭載Linux內(nèi)核,配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸六大核心功能模塊組成系統(tǒng),完成了系統(tǒng)的硬件電路設(shè)計和軟件設(shè)計。通過系統(tǒng)測試,該智能導盲眼鏡不僅能對盲人的獨立出行進行實時語音導航,而且在特殊情況下,盲人可以通過智能眼鏡上的觸發(fā)按鍵,使用導盲眼鏡的GPS、GSM短信、語音通話等功能,及時向親朋好友獲取幫助。另外由于智能導盲眼鏡還具有圖像識別能力,能幫助盲人進行簡易物品歸類,在一定程度上也使盲人的生活自理能力得以提升,這對于盲人基數(shù)較大的中國而言,顯得尤為重要。
參考文獻
[1] Milan Sonka,Vaclav Hlavac,Roger Boyle,等.圖像處理、分析與機器視覺[M].北京:清華大學出版社,2016.
[2] 岳榮剛,王少萍,李凱,等.基于相似原理的新型雙目測距法[J].光電工程,2008,35(4):64-68.
[3] 陳翠平.基于深度信念網(wǎng)絡的文本分類算法[J].計算機系統(tǒng)應用,2015,24(2):121-126.
[4] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機簡介[J].工程數(shù)學學報,2013(2):159-173.
[5] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[6] 王爽,馬文萍,謝慧明,等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A,2014.
[7] 張雪偉,王焱.基于Sigmoid函數(shù)參數(shù)調(diào)整的雙隱層BP神經(jīng)網(wǎng)絡的板形預測[J].化工自動化及儀表,2010,37(4):42-44.
[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡的深度學習算法與應用研究[D].杭州:浙江工商大學,2013.
[9] 吳海燕.基于自動編碼器的半監(jiān)督表示學習與分類學習研究[D].重慶:重慶大學,2015.
[10] 崔鵬宇.基于支持向量機的分類器訓練研究[J].數(shù)字技術(shù)與應用,2016(6):58-58.
作者信息:
何騰鵬,張榮芬,劉 超,房樂楠,劉宇紅
(貴州大學 大數(shù)據(jù)與信息工程學院,貴州 貴陽550025)