《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡設(shè)計(jì)
基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡設(shè)計(jì)
2017年電子技術(shù)應(yīng)用第4期
何騰鵬,張榮芬,劉 超,房樂(lè)楠,劉宇紅
貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025
摘要: 提出一種基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡系統(tǒng)的設(shè)計(jì)方案。采用三星公司Cortex-A8架構(gòu)的 S5PV210作為中央處理器,搭載Linux系統(tǒng),配備雙目采集、GPS定位、語(yǔ)音播報(bào)、GSM短信、語(yǔ)音通話、無(wú)線傳輸六大核心功能模塊搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺(tái),結(jié)合深度學(xué)習(xí)算法在遠(yuǎn)程云服務(wù)器上完成了對(duì)目標(biāo)場(chǎng)景的智能識(shí)別,最后以語(yǔ)音的形式實(shí)時(shí)對(duì)盲人的行走作出準(zhǔn)確引導(dǎo)。系統(tǒng)測(cè)試結(jié)果表明,該智能導(dǎo)盲眼鏡系統(tǒng)在測(cè)試環(huán)境下不僅能對(duì)盲人出行正確導(dǎo)航,還具有一定的目標(biāo)識(shí)別能力,能幫助盲人進(jìn)行簡(jiǎn)易物品歸類。該系統(tǒng)還兼有GPS定位、語(yǔ)音通話、GSM短信等多項(xiàng)輔助功能。
中圖分類號(hào): TN929
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.015
中文引用格式: 何騰鵬,張榮芬,劉超,等. 基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2017,43(4):58-61.
英文引用格式: He Tengpeng,Zhang Rongfen,Liu Chao,et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique,2017,43(4):58-61.
Design of smart seeing glasses based on machine vision
He Tengpeng,Zhang Rongfen,Liu Chao,F(xiàn)ang Lenan,Liu Yuhong
College of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China
Abstract: A system of smart seeing glasses based on machine vision was proposed and designed in this work. Using Samsung Cortex-A8 architecture S5PV210 as the central processor, running on the Linux system, equipping six core modules of binocular acquisition, GPS, voice broadcast, GSM SMS, voice calls and wireless transmission were equipped to build smart seeing glasses systems hardware platform. Then after completing the target scene identification on a remote cloud server through deep learning algorithm, at last, the accurate voice guide for the blind walking in real time was implemented actually. The system test results show that the smart glasses system is not only able to make the right travel guide for the blind, it also has a certain ability to identify simple objects, which can help the blind make a simple items classification. In addition, this system also has GPS positioning, voice calls, GSM SMS and many other auxiliary functions.
Key words : machine vision;Cortex-A8;binocular collection;smart identification

0 引言

    據(jù)世界衛(wèi)生組織統(tǒng)計(jì),截至目前全球約有盲人7 800萬(wàn),其中90%生活在發(fā)展中國(guó)家,中國(guó)現(xiàn)有盲人數(shù)量占據(jù)世界盲人總數(shù)的18%,多達(dá)1 400萬(wàn)。盲人作為社會(huì)中的一種弱勢(shì)群體,視力殘疾、眼部疾病給其生活帶來(lái)了諸多不便。另一方面,近年來(lái)隨著我國(guó)老齡化人口的持續(xù)增多,視力障礙者數(shù)量也在急劇上升,如何保障盲人群體及視障人士安全有效地出行顯得尤為重要。為此,本文設(shè)計(jì)了一種基于機(jī)器視覺(jué)[1]的智能導(dǎo)盲眼鏡,旨在幫助盲人朋友在行走過(guò)程中,安全、有效地避開(kāi)道路上的目標(biāo)障礙物,盡最大可能地保障其出行安全。相較于市場(chǎng)上導(dǎo)盲效率不理想的導(dǎo)盲手杖和價(jià)格昂貴的導(dǎo)盲犬,基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡系統(tǒng)更具競(jìng)爭(zhēng)力。

1 智能導(dǎo)盲眼鏡控制系統(tǒng)的總體設(shè)計(jì)

    本文的智能導(dǎo)盲眼鏡控制系統(tǒng)由前端嵌入式采集傳輸系統(tǒng)和遠(yuǎn)程云平臺(tái)服務(wù)器兩大部分組成。嵌入式采集傳輸系統(tǒng)以三星Cortex-A8架構(gòu)的S5PV210處理器為載體,搭載Linux內(nèi)核,配備雙目采集、GPS定位、語(yǔ)音播報(bào)、GSM短信、語(yǔ)音通話、無(wú)線傳輸?shù)群诵墓δ苣K搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺(tái),主要完成信息采集傳輸和智能指令導(dǎo)盲功能。云平臺(tái)服務(wù)器作為智能導(dǎo)盲眼鏡的遠(yuǎn)程數(shù)據(jù)處理中心,在服務(wù)器配置上,選用阿里云作為云端服務(wù)器,再融入深度學(xué)習(xí)、雙目測(cè)距[2]等相關(guān)算法,實(shí)現(xiàn)對(duì)智能導(dǎo)盲眼鏡前端場(chǎng)景目標(biāo)的圖像識(shí)別、距離檢測(cè)和方位判斷。此外該服務(wù)器還構(gòu)建了GPS衛(wèi)星數(shù)據(jù)匹配平臺(tái),結(jié)合智能導(dǎo)盲眼鏡實(shí)體,能對(duì)眼鏡使用者進(jìn)行實(shí)時(shí)有效地定位。本系統(tǒng)的總體設(shè)計(jì)框圖如圖1所示。

qrs1-t1.gif

2 智能導(dǎo)盲眼鏡控制系統(tǒng)硬件設(shè)計(jì)

2.1 雙目采集模塊設(shè)計(jì)

    雙目采集模塊選用兩個(gè)性能參數(shù)完全一致的CMOS高清攝像頭,用于智能導(dǎo)盲眼鏡前方場(chǎng)景信息的采集,幫助盲人獲取前方目標(biāo)和相應(yīng)的場(chǎng)景信息。

2.2 GPS定位模塊設(shè)計(jì)

    全球定位系統(tǒng)(GPS)能為全球用戶提供低成本、高精度的三維位置,可在全球范圍內(nèi)進(jìn)行全天候、全方位的實(shí)時(shí)定位。系統(tǒng)選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元,主要用于實(shí)時(shí)獲取盲人所在地理位置的經(jīng)緯度坐標(biāo)。

2.3 無(wú)線通信傳輸模塊設(shè)計(jì)

    無(wú)線通信傳輸模塊主要由3G芯片和對(duì)應(yīng)的外圍電路組成,采用3G無(wú)線技術(shù),實(shí)現(xiàn)智能導(dǎo)盲眼鏡與遠(yuǎn)程云平臺(tái)服務(wù)器的雙向通信。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標(biāo)信息通過(guò)3G網(wǎng)絡(luò)發(fā)到遠(yuǎn)端云服務(wù)器平臺(tái),另一方面將服務(wù)器的圖片識(shí)別和地理位置配對(duì)結(jié)果反送回來(lái)傳遞給智能導(dǎo)盲眼鏡,進(jìn)行語(yǔ)音播報(bào),把結(jié)果實(shí)時(shí)告訴給盲人。同時(shí)利用3G模塊的GSM短信功能,智能導(dǎo)盲眼鏡系統(tǒng)也會(huì)將從云服務(wù)器端獲取的結(jié)果,以短消息的形式及時(shí)告知盲人家屬。另外,在特殊情況下,盲人也可利用3G的電話功能直接與親屬間進(jìn)行語(yǔ)音通話。圖2為無(wú)線通信傳輸模塊的應(yīng)用電路圖。

qrs1-t2.gif

2.4 語(yǔ)音播報(bào)模塊設(shè)計(jì)

    智能導(dǎo)盲眼鏡控制系統(tǒng)的語(yǔ)音播報(bào)功能主要用于將導(dǎo)盲眼鏡前方目標(biāo)的圖片識(shí)別結(jié)果、距離、方位信息以及所處的地理位置通過(guò)語(yǔ)音模塊播放出來(lái),及時(shí)告知盲人所處的周圍環(huán)境狀況。系統(tǒng)選用SYN6288中文語(yǔ)音合成芯片作為語(yǔ)音播報(bào)模塊的主體,實(shí)現(xiàn)文本到聲音的轉(zhuǎn)換,其外圍電路如圖3所示。

qrs1-t3.gif

3 智能導(dǎo)盲眼鏡控制系統(tǒng)的軟件設(shè)計(jì)

    本系統(tǒng)的軟件設(shè)計(jì)分為遠(yuǎn)端云平臺(tái)服務(wù)器上的程序設(shè)計(jì)和智能導(dǎo)盲眼鏡前端的程序設(shè)計(jì)兩部分。遠(yuǎn)程云平臺(tái)服務(wù)器上的軟件設(shè)計(jì)主要是采用C/C++等高級(jí)編程語(yǔ)言將圖片的識(shí)別、測(cè)距、方位檢測(cè)等相關(guān)算法轉(zhuǎn)換成計(jì)算機(jī)系統(tǒng)能夠識(shí)別的程序指令,從而實(shí)現(xiàn)智能導(dǎo)盲眼鏡遠(yuǎn)程云服務(wù)器的識(shí)別、測(cè)距、方位檢測(cè)等功能。另外GPS的經(jīng)緯度解析也在云服務(wù)器上通過(guò)軟件編程實(shí)現(xiàn)。導(dǎo)盲眼鏡前端軟件設(shè)計(jì)主要包括雙目攝像頭的圖片采集、GPS地理位置坐標(biāo)的獲取、無(wú)線通信傳輸模塊的數(shù)據(jù)傳輸與接收、語(yǔ)音播報(bào)模塊的調(diào)度和按鍵中斷的配置等功能模塊子程序的編寫(xiě),其主程序流程圖如圖4所示。

qrs1-t4.gif

4 基于深度信念網(wǎng)絡(luò)的自然場(chǎng)景識(shí)別

    深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)[3]作為深度學(xué)習(xí)中最為廣泛應(yīng)用的一種算法模型,多應(yīng)用于手寫(xiě)字體識(shí)別和自然場(chǎng)景識(shí)別這兩個(gè)方向。在智能導(dǎo)盲眼鏡控制系統(tǒng)中,深度信念網(wǎng)絡(luò)主要用在自然場(chǎng)景中常見(jiàn)的物體識(shí)別上,這也是深度學(xué)習(xí)在機(jī)器視覺(jué)領(lǐng)域中的一種應(yīng)用體現(xiàn)。圖5是一個(gè)典型的深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型。

qrs1-t5.gif

    從圖5可以看出,深度信念網(wǎng)絡(luò)是由多個(gè)受限制玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM)[4]組成的深層網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,DBN的訓(xùn)練過(guò)程采用逐層訓(xùn)練的方法,每一層RBM都單獨(dú)訓(xùn)練,參數(shù)也是單獨(dú)調(diào)整[5]。訓(xùn)練完一層后,將該層的訓(xùn)練結(jié)果作為下一層RBM的輸入,直至每一層RBM都訓(xùn)練完成,這個(gè)過(guò)程稱之為預(yù)訓(xùn)練。當(dāng)深度信念網(wǎng)絡(luò)中的所有RBM訓(xùn)練完成后,再根據(jù)樣本的標(biāo)簽值,采用反向傳播算法向后微調(diào)。

    在智能導(dǎo)盲眼鏡的圖像訓(xùn)練過(guò)程中,采用改進(jìn)型的CIFAR-10自然場(chǎng)景庫(kù)作為測(cè)試訓(xùn)練樣本。原始的CIFAR-10數(shù)據(jù)集有60 000張32×32的彩色圖像,分為飛機(jī)、汽車、貓、鳥(niǎo)、鹿、狗、青蛙、馬、船和卡車共10類。為了增強(qiáng)智能導(dǎo)盲眼鏡的實(shí)用性,結(jié)合盲人的特殊情況,本文在實(shí)際的系統(tǒng)圖像訓(xùn)練中,加入了餐桌、椅子、人、垃圾桶、樹(shù)木等生活中常見(jiàn)的一些目標(biāo)場(chǎng)景,對(duì)原始的CIFAR-10自然場(chǎng)景庫(kù)進(jìn)行了改進(jìn),然后采用改進(jìn)型的CIFAR-10自然場(chǎng)景庫(kù)通過(guò)圖6所示的深度信念網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練識(shí)別。

qrs1-t6.gif

    在上述訓(xùn)練模型中,改進(jìn)型CIFAR-10自然場(chǎng)景庫(kù)中每張圖均為32×32的彩色圖片,因此輸入層大小為3 072個(gè)結(jié)點(diǎn)(3 072=32×32×3),兩個(gè)隱含層節(jié)點(diǎn)數(shù)分別為1 000和200,在經(jīng)過(guò)面向多元分類的Softmax分類器[6]后輸出層為10個(gè)單元,系統(tǒng)最終模型結(jié)構(gòu)為3072-1000-200-10。在智能導(dǎo)盲眼鏡系統(tǒng)實(shí)際的圖像訓(xùn)練階段,訓(xùn)練模型中的兩層RBM的訓(xùn)練迭代次數(shù)都設(shè)置為200,學(xué)習(xí)率都設(shè)置成0.1。訓(xùn)練完成后,將系統(tǒng)學(xué)習(xí)到的權(quán)重用于初始化神經(jīng)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行參數(shù)微調(diào), 并用Sigmoid函數(shù)[7]激活神經(jīng)網(wǎng)絡(luò)。系統(tǒng)訓(xùn)練過(guò)程中,由于樣本繁多,數(shù)據(jù)繁雜,隱含層需要相對(duì)較多的節(jié)點(diǎn)數(shù)才能學(xué)習(xí)到較好的特征,加之圖片本身信息量大,需要較多次的迭代,整個(gè)訓(xùn)練過(guò)程平均歷時(shí)10個(gè)小時(shí),這與深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)[8]以及自動(dòng)編碼模型[9]相比,訓(xùn)練時(shí)間大幅度縮短,并且還具有較為理想的識(shí)別率,這也是本系統(tǒng)選用深度信念網(wǎng)絡(luò)作為識(shí)別訓(xùn)練模型的主要原因。

5 系統(tǒng)測(cè)試結(jié)果與分析

    采用上述的深度信念網(wǎng)絡(luò)訓(xùn)練模型先對(duì)改進(jìn)型CIFAR-10庫(kù)中的10 000張測(cè)試圖片隨機(jī)進(jìn)行了示范性測(cè)試,表1所示為各類樣本的識(shí)別率和平均識(shí)別率。

qrs1-b1.gif

    從表1可以看出改進(jìn)型CIFAR-10庫(kù)中的10類測(cè)試樣本通過(guò)導(dǎo)盲眼鏡系統(tǒng)的深度信念網(wǎng)絡(luò)訓(xùn)練模型后,其平均識(shí)別率為82.9%,與基于支持向量機(jī)[10]訓(xùn)練識(shí)別模型的識(shí)別率相比,其平均識(shí)別率超出了支持向量機(jī)模型的近10%,為進(jìn)一步的智能導(dǎo)盲眼鏡整體系統(tǒng)測(cè)試奠定了基礎(chǔ)。最后,針對(duì)盲人的生活需要,結(jié)合智能導(dǎo)盲眼鏡的其他功能,對(duì)智能導(dǎo)盲眼鏡控制系統(tǒng)在實(shí)際場(chǎng)景中進(jìn)行了系統(tǒng)聯(lián)調(diào),其中雙目攝像頭的采集幀率設(shè)置為3幀/s,語(yǔ)音導(dǎo)航頻率設(shè)定為每?jī)擅腌妼?dǎo)盲一次,遠(yuǎn)程服務(wù)器端測(cè)試結(jié)果如圖7、圖8所示。通過(guò)圖7可以看出智能導(dǎo)盲眼鏡的GPS功能能實(shí)時(shí)、準(zhǔn)確地獲取佩戴導(dǎo)盲眼鏡用戶的經(jīng)緯度,并通過(guò)無(wú)線通信傳輸模塊送至遠(yuǎn)程服務(wù)器,進(jìn)行地理位置的準(zhǔn)確匹對(duì)。圖8顯示該智能導(dǎo)盲眼鏡在實(shí)際場(chǎng)景中,不僅能較準(zhǔn)確識(shí)別出前方目標(biāo)的類別,還能測(cè)出目標(biāo)物體到導(dǎo)盲眼鏡的距離,正確表示出障礙物的方位特征,并在眼鏡端實(shí)時(shí)以語(yǔ)音導(dǎo)盲的形式幫助盲人及時(shí)有效地避開(kāi)障礙物,從而保障了盲人的安全出行。

qrs1-t7.gif

qrs1-t8.gif

6 結(jié)語(yǔ)

    本系統(tǒng)以S5PV210為主控制器搭建基于機(jī)器視覺(jué)的智能導(dǎo)盲眼鏡,通過(guò)搭載Linux內(nèi)核,配備雙目采集、GPS定位、語(yǔ)音播報(bào)、GSM短信、語(yǔ)音通話、無(wú)線傳輸六大核心功能模塊組成系統(tǒng),完成了系統(tǒng)的硬件電路設(shè)計(jì)和軟件設(shè)計(jì)。通過(guò)系統(tǒng)測(cè)試,該智能導(dǎo)盲眼鏡不僅能對(duì)盲人的獨(dú)立出行進(jìn)行實(shí)時(shí)語(yǔ)音導(dǎo)航,而且在特殊情況下,盲人可以通過(guò)智能眼鏡上的觸發(fā)按鍵,使用導(dǎo)盲眼鏡的GPS、GSM短信、語(yǔ)音通話等功能,及時(shí)向親朋好友獲取幫助。另外由于智能導(dǎo)盲眼鏡還具有圖像識(shí)別能力,能幫助盲人進(jìn)行簡(jiǎn)易物品歸類,在一定程度上也使盲人的生活自理能力得以提升,這對(duì)于盲人基數(shù)較大的中國(guó)而言,顯得尤為重要。

參考文獻(xiàn)

[1] Milan Sonka,Vaclav Hlavac,Roger Boyle,等.圖像處理、分析與機(jī)器視覺(jué)[M].北京:清華大學(xué)出版社,2016.

[2] 岳榮剛,王少萍,李凱,等.基于相似原理的新型雙目測(cè)距法[J].光電工程,2008,35(4):64-68.

[3] 陳翠平.基于深度信念網(wǎng)絡(luò)的文本分類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(2):121-126.

[4] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機(jī)簡(jiǎn)介[J].工程數(shù)學(xué)學(xué)報(bào),2013(2):159-173.

[5] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

[6] 王爽,馬文萍,謝慧明,等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A,2014.

[7] 張雪偉,王焱.基于Sigmoid函數(shù)參數(shù)調(diào)整的雙隱層BP神經(jīng)網(wǎng)絡(luò)的板形預(yù)測(cè)[J].化工自動(dòng)化及儀表,2010,37(4):42-44.

[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].杭州:浙江工商大學(xué),2013.

[9] 吳海燕.基于自動(dòng)編碼器的半監(jiān)督表示學(xué)習(xí)與分類學(xué)習(xí)研究[D].重慶:重慶大學(xué),2015.

[10] 崔鵬宇.基于支持向量機(jī)的分類器訓(xùn)練研究[J].數(shù)字技術(shù)與應(yīng)用,2016(6):58-58.



作者信息:

何騰鵬,張榮芬,劉  超,房樂(lè)楠,劉宇紅

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。