《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測試測量 > 設(shè)計應(yīng)用 > 機(jī)器視覺中的智能無人零售系統(tǒng)設(shè)計
機(jī)器視覺中的智能無人零售系統(tǒng)設(shè)計
2018年電子技術(shù)應(yīng)用第9期
林付春,張榮芬,何倩倩,劉宇紅
貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽550025
摘要: 提出了一種基于機(jī)器視覺和深度學(xué)習(xí)的智能無人零售系統(tǒng)。采用嵌入式的ARM9和各種傳感器模塊組成前端采集系統(tǒng),在服務(wù)器上用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型分別對物品進(jìn)行動態(tài)和靜態(tài)檢測識別,然后將識別信息反饋給數(shù)據(jù)庫,由數(shù)據(jù)庫整理所有信息,最終確定顧客訂單信息。本系統(tǒng)使用前端硬件在無人售貨柜上進(jìn)行圖像采集并在服務(wù)器的Caffe框架上進(jìn)行測試,結(jié)果表明該系統(tǒng)的實時準(zhǔn)確率達(dá)到99%。
中圖分類號: TP181
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,張榮芬,何倩倩,等. 機(jī)器視覺中的智能無人零售系統(tǒng)設(shè)計[J].電子技術(shù)應(yīng)用,2018,44(9):96-98,103.
英文引用格式: Lin Fuchun,Zhang Rongfen,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,2018,44(9):96-98,103.
Design of intelligent unmanned vending system in machine vision
Lin Fuchun,Zhang Rongfen,He Qianqian,Liu Yuhong
College of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China
Abstract: This paper proposes an intelligent automated vending system based on machine vision and deep learning. The embedded ARM9 and various sensors are used to form the front-end acquisition system. The trained convolutional neural network is used to detect and identify the goods dynamically and statically on the server. Then the identifying information will be fed back to the databases, and the databases will integrate all the information. Finally it will determine the order information of customers. This system uses front-end hardware to acquire images on the automated vending counter and test them on the server's Caffe framework, and the result shows that the accuracy of this system can reach 99% in real time.
Key words : new retail;machine vision;deep learning;convolutional neural network;Cortex-A9

0 引言

    零售行業(yè)是距離消費(fèi)者最近的行業(yè),也是對體驗和性能要求最高的行業(yè)。隨著人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,計算機(jī)視覺被廣泛應(yīng)用到各個領(lǐng)域。其中在無人零售中,計算機(jī)視覺將前端人貨關(guān)系重構(gòu)表現(xiàn)得淋漓盡致。傳統(tǒng)的無人售貨機(jī)只能銷售少量類別的商品,或者采用RFID技術(shù)為每件商品貼上標(biāo)簽,浪費(fèi)資源和人力物力[1]。除此之外,需要購買者彎腰去拿,對顧客很不尊重。而新型無人售貨機(jī)購物者可以開門自己拿想買的各種商品。在國內(nèi),阿里巴巴開設(shè)無人超市,人們隨意自由購物。繽果盒子無人超市內(nèi)置專業(yè)掃描識別機(jī)器,用于快速識別和結(jié)算,效率很高,但成本也很高[2]。市場上也有一些智能售貨柜企業(yè)以視覺方案切入,不過大多數(shù)產(chǎn)品都還停留在概念階段,并且產(chǎn)品成本非常高,無法解決零售的實際問題。

    本系統(tǒng)在無人售貨柜中裝有各種傳感器模塊組與攝像頭,攝像頭會對顧客的動作進(jìn)行捕捉,通過運(yùn)用人工智能(AI)圖像檢測和圖像處理技術(shù)識別出顧客拿走的商品,同時配合各種傳感器數(shù)據(jù)與服務(wù)器數(shù)據(jù)進(jìn)行比對,從而得出最終的結(jié)果。這種方式不僅可以大幅度地節(jié)省消費(fèi)者的購物時間,還可以根據(jù)不同場景快速變化銷售物品種類,解決了目前無人零售的痛點(diǎn)。在人工智能潮流的趨勢下,新零售行業(yè)被推到風(fēng)口浪尖。人工智能應(yīng)用在新零售行業(yè)是將來零售行業(yè)的大趨勢。

1 智能無人零售系統(tǒng)的總體設(shè)計

    整體無人零售系統(tǒng)工作流程:顧客掃描,服務(wù)器收到顧客開門通知,服務(wù)器通知前端硬件開門。顧客在無人零售柜自由選擇各種商品,顧客選擇完商品關(guān)門,同時前端采集商品圖像數(shù)據(jù),各種傳感器數(shù)據(jù)上傳服務(wù)器,服務(wù)器對圖像和數(shù)據(jù)進(jìn)行處理,并與后臺數(shù)據(jù)庫比對,得到顧客購買的商品,并進(jìn)行自動結(jié)算。

    本文主要介紹視覺系統(tǒng)部分設(shè)計,系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng)、遠(yuǎn)程云服務(wù)器識別與數(shù)據(jù)庫計算系統(tǒng)組成。前端硬件采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,搭載攝像頭模塊組、壓力傳感器模塊組、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構(gòu)建智無人零售系統(tǒng)的硬件平臺。攝像頭分別拍攝動態(tài)和靜態(tài)商品的圖像,由主控芯片用預(yù)先板載的壓縮算法對采集的圖像進(jìn)行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務(wù)器上[3]。采用云平臺服務(wù)器作為智能無人零售系統(tǒng)的數(shù)據(jù)處理中心,在服務(wù)器上同時對前端靜態(tài)和動態(tài)圖像進(jìn)行識別與分析,然后將結(jié)果返回給數(shù)據(jù)庫。智能無人零售系統(tǒng)的總體設(shè)計如圖1所示。

ck5-t1.gif

2 智能無人零售系統(tǒng)硬件系統(tǒng)設(shè)計

    本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實現(xiàn)對整個智能無人零售系統(tǒng)各個單元模塊上的數(shù)據(jù)信息進(jìn)行匯總分析和處理,對各個功能模塊發(fā)出控制指令,協(xié)調(diào)整個系統(tǒng)穩(wěn)定運(yùn)行。每個無人售貨柜的結(jié)構(gòu)分為4層2列共8個格子,每個格子放一類商品。在每個格子上方安裝一個500萬像素的CMOS攝像頭,用來靜態(tài)采集每個格子里商品的數(shù)量。每個格子下面各安裝一個壓力傳感器,用來判斷顧客拿走了哪一類商品,然后將這個格子的圖像傳到服務(wù)器進(jìn)行識別和計數(shù),以此來精確判斷顧客拿走了幾個商品。同時壓力傳感器的數(shù)據(jù)發(fā)送給服務(wù)器數(shù)據(jù)庫進(jìn)行分析比對。柜子內(nèi)部頂端安裝一個1 000萬像素攝像頭,用來動態(tài)采集商品種類。同時柜子每一層格子前方安裝兩對紅外傳感器,當(dāng)紅外傳感器檢測到顧客拿完商品之后,柜子頂端攝像頭對顧客手中的商品進(jìn)行動態(tài)拍攝,中央控制器對采集的圖像在前端進(jìn)行壓縮,通過WiFi或者4G模塊上傳到服務(wù)器。硬件系統(tǒng)流程圖如圖2所示。

ck5-t2.gif

3 智能無人零售系統(tǒng)軟件系統(tǒng)設(shè)計

    近幾年來,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法在圖像檢測、分割和識別上表現(xiàn)出越來越卓越的效果,因此,許多優(yōu)秀的深度學(xué)習(xí)算法被應(yīng)用在工業(yè)界。本系統(tǒng)軟件設(shè)計由兩部分組成,分別是對商品靜態(tài)識別和對商品動態(tài)識別。采用的是目前流行的深度學(xué)習(xí)框架——Caffe框架[4],主要采用C++/CUDA高級語言來實現(xiàn)對深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和圖像的識別。商品靜態(tài)識別算法基于經(jīng)典的YOLO(You Only Look Once)網(wǎng)絡(luò)模型優(yōu)化[5];商品動態(tài)識別算法基于典型的Alexlet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。

3.1 對商品進(jìn)行靜態(tài)識別

    靜態(tài)識別是服務(wù)器從每個格子得到壓力傳感器的數(shù)據(jù),通過數(shù)據(jù)分析質(zhì)量格子質(zhì)量變化,得到顧客取出的是哪個格子的那種物品。同時前端攝像頭拍攝這個格子的圖像,在前端處理后上傳到服務(wù)器。在服務(wù)器上通過深度學(xué)習(xí)算法(YOLO)對圖像進(jìn)行檢測、定位和識別。基于卷積神經(jīng)網(wǎng)絡(luò)的YOLO模型在2015年被提出,能夠?qū)崟r地對物體進(jìn)行檢測和識別,是對物體進(jìn)行位置檢測準(zhǔn)確率和識別準(zhǔn)確率綜合最好的網(wǎng)絡(luò)模型之一,同時也是實時性最好的網(wǎng)絡(luò)模型,模型采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。模型的卷積層提取圖像特征,全連接層預(yù)測輸出概率。模型結(jié)構(gòu)類似于GoogleNet網(wǎng)絡(luò)模型,最終輸出為其網(wǎng)絡(luò)模型,如圖3所示。本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,分別在其全連接層和卷積層進(jìn)行修改,減少卷積層和filter,最終輸出為7×7×18的tensor。其網(wǎng)絡(luò)模型如圖4所示。

ck5-t3.gif

ck5-t4.gif

3.2 對商品動態(tài)識別

    動態(tài)識別算法由兩部分組成,當(dāng)紅外傳感器檢測到信號,1 000萬像素攝像頭拍攝的圖像經(jīng)過壓縮上傳到服務(wù)器后,在OpenCV庫平臺下,先采用傳統(tǒng)視覺算法通過手勢識別裁剪出商品圖像,然后將圖像放入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,以此來提高這個系統(tǒng)識別準(zhǔn)確性。

    基于卷積神經(jīng)網(wǎng)絡(luò)的Alexlet網(wǎng)絡(luò)模型是2012年的Imagnet比賽的冠軍[6]。其網(wǎng)絡(luò)模型如圖5所示,本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,分別對其全連接層和卷積層進(jìn)行修改,為了減少過擬合,優(yōu)化Dropout值為0.5,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試[7]。其網(wǎng)絡(luò)模型如圖6所示。

ck5-t5.gif

ck5-t6.gif

4 系統(tǒng)測試

    在智能無人售貨系統(tǒng)中挑選日常生活中常見的可口可樂、加多寶、壓縮餅干、酸奶、香皂、泡面、洗衣液和茶杯8種商品,對其進(jìn)行數(shù)據(jù)集采集。靜態(tài)識別中多采用多個物品在一張圖片上,共80 000張圖片,其中10 000張圖片做測試集,70 000張圖片作為訓(xùn)練集。動態(tài)識別中采用每類10 000張圖片作為訓(xùn)練集,共80 000張圖片。每類1 000張圖片作為測試。在靜態(tài)測試中,運(yùn)用圖4網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,得到如圖7所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到27 000左右時,靜態(tài)測試準(zhǔn)確率達(dá)到99%的準(zhǔn)確率。同時在迭代次數(shù)達(dá)到31 000左右時,靜態(tài)測試值損失值減到最小,并且趨于穩(wěn)定。

ck5-t7.gif

    動態(tài)測試中,運(yùn)用圖6網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,得到如圖8所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到23 000左右時,動態(tài)測試準(zhǔn)確率達(dá)到99%。同時,在迭代次數(shù)達(dá)到30 000左右時,動態(tài)測試值損失值減到最小,并且趨于穩(wěn)定。

ck5-t8.gif

5 結(jié)論

    本文完成了智能無人零售視覺系統(tǒng)的軟件和硬件設(shè)計;實現(xiàn)了前端硬件攝像頭模塊組對圖像的靜態(tài)和動態(tài)拍攝、壓力傳感器組的數(shù)據(jù)傳輸、紅外傳感器組的數(shù)據(jù)采集以及各個模塊之間的通信;軟件上完成了神經(jīng)網(wǎng)絡(luò)對圖像的檢測定位與識別;通過與前端APP和后臺數(shù)據(jù)庫結(jié)合,可實現(xiàn)新的智能無人新零售系統(tǒng)。本文將人工智能視覺系統(tǒng)應(yīng)用到新零售行業(yè),能使顧客擁有掃描開門、自己取貨、關(guān)門自動結(jié)算的新體驗,方便了顧客,也節(jié)約了產(chǎn)品成本。未來智能無人新零售將取代傳統(tǒng)售貨機(jī),分布在城市的各個角落。

參考文獻(xiàn)

[1] 王汝傳,馬守明,葉寧,等.基于射頻識別標(biāo)簽和傳感器網(wǎng)絡(luò)的智能零售市場構(gòu)建方法:中國,CN 103714465 B[P].2014-04-09.

[2] 宋杰.無人智能零售店來了[J].中國經(jīng)濟(jì)周刊,2017(28):86-87.

[3] 何騰鵬,張榮芬,劉超,等.基于機(jī)器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].電子技術(shù)應(yīng)用,2017,43(4):58-61.

[4] JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,2014:675-678.

[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,2016:779-788.

[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,2012:1097-1105.

[7] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.




作者信息:

林付春,張榮芬,何倩倩,劉宇紅

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽550025)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。