文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,張榮芬,何倩倩,等. 機(jī)器視覺中的智能無人零售系統(tǒng)設(shè)計[J].電子技術(shù)應(yīng)用,2018,44(9):96-98,103.
英文引用格式: Lin Fuchun,Zhang Rongfen,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,2018,44(9):96-98,103.
0 引言
零售行業(yè)是距離消費(fèi)者最近的行業(yè),也是對體驗和性能要求最高的行業(yè)。隨著人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,計算機(jī)視覺被廣泛應(yīng)用到各個領(lǐng)域。其中在無人零售中,計算機(jī)視覺將前端人貨關(guān)系重構(gòu)表現(xiàn)得淋漓盡致。傳統(tǒng)的無人售貨機(jī)只能銷售少量類別的商品,或者采用RFID技術(shù)為每件商品貼上標(biāo)簽,浪費(fèi)資源和人力物力[1]。除此之外,需要購買者彎腰去拿,對顧客很不尊重。而新型無人售貨機(jī)購物者可以開門自己拿想買的各種商品。在國內(nèi),阿里巴巴開設(shè)無人超市,人們隨意自由購物。繽果盒子無人超市內(nèi)置專業(yè)掃描識別機(jī)器,用于快速識別和結(jié)算,效率很高,但成本也很高[2]。市場上也有一些智能售貨柜企業(yè)以視覺方案切入,不過大多數(shù)產(chǎn)品都還停留在概念階段,并且產(chǎn)品成本非常高,無法解決零售的實際問題。
本系統(tǒng)在無人售貨柜中裝有各種傳感器模塊組與攝像頭,攝像頭會對顧客的動作進(jìn)行捕捉,通過運(yùn)用人工智能(AI)圖像檢測和圖像處理技術(shù)識別出顧客拿走的商品,同時配合各種傳感器數(shù)據(jù)與服務(wù)器數(shù)據(jù)進(jìn)行比對,從而得出最終的結(jié)果。這種方式不僅可以大幅度地節(jié)省消費(fèi)者的購物時間,還可以根據(jù)不同場景快速變化銷售物品種類,解決了目前無人零售的痛點(diǎn)。在人工智能潮流的趨勢下,新零售行業(yè)被推到風(fēng)口浪尖。人工智能應(yīng)用在新零售行業(yè)是將來零售行業(yè)的大趨勢。
1 智能無人零售系統(tǒng)的總體設(shè)計
整體無人零售系統(tǒng)工作流程:顧客掃描,服務(wù)器收到顧客開門通知,服務(wù)器通知前端硬件開門。顧客在無人零售柜自由選擇各種商品,顧客選擇完商品關(guān)門,同時前端采集商品圖像數(shù)據(jù),各種傳感器數(shù)據(jù)上傳服務(wù)器,服務(wù)器對圖像和數(shù)據(jù)進(jìn)行處理,并與后臺數(shù)據(jù)庫比對,得到顧客購買的商品,并進(jìn)行自動結(jié)算。
本文主要介紹視覺系統(tǒng)部分設(shè)計,系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng)、遠(yuǎn)程云服務(wù)器識別與數(shù)據(jù)庫計算系統(tǒng)組成。前端硬件采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,搭載攝像頭模塊組、壓力傳感器模塊組、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構(gòu)建智無人零售系統(tǒng)的硬件平臺。攝像頭分別拍攝動態(tài)和靜態(tài)商品的圖像,由主控芯片用預(yù)先板載的壓縮算法對采集的圖像進(jìn)行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務(wù)器上[3]。采用云平臺服務(wù)器作為智能無人零售系統(tǒng)的數(shù)據(jù)處理中心,在服務(wù)器上同時對前端靜態(tài)和動態(tài)圖像進(jìn)行識別與分析,然后將結(jié)果返回給數(shù)據(jù)庫。智能無人零售系統(tǒng)的總體設(shè)計如圖1所示。
2 智能無人零售系統(tǒng)硬件系統(tǒng)設(shè)計
本系統(tǒng)硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實現(xiàn)對整個智能無人零售系統(tǒng)各個單元模塊上的數(shù)據(jù)信息進(jìn)行匯總分析和處理,對各個功能模塊發(fā)出控制指令,協(xié)調(diào)整個系統(tǒng)穩(wěn)定運(yùn)行。每個無人售貨柜的結(jié)構(gòu)分為4層2列共8個格子,每個格子放一類商品。在每個格子上方安裝一個500萬像素的CMOS攝像頭,用來靜態(tài)采集每個格子里商品的數(shù)量。每個格子下面各安裝一個壓力傳感器,用來判斷顧客拿走了哪一類商品,然后將這個格子的圖像傳到服務(wù)器進(jìn)行識別和計數(shù),以此來精確判斷顧客拿走了幾個商品。同時壓力傳感器的數(shù)據(jù)發(fā)送給服務(wù)器數(shù)據(jù)庫進(jìn)行分析比對。柜子內(nèi)部頂端安裝一個1 000萬像素攝像頭,用來動態(tài)采集商品種類。同時柜子每一層格子前方安裝兩對紅外傳感器,當(dāng)紅外傳感器檢測到顧客拿完商品之后,柜子頂端攝像頭對顧客手中的商品進(jìn)行動態(tài)拍攝,中央控制器對采集的圖像在前端進(jìn)行壓縮,通過WiFi或者4G模塊上傳到服務(wù)器。硬件系統(tǒng)流程圖如圖2所示。
3 智能無人零售系統(tǒng)軟件系統(tǒng)設(shè)計
近幾年來,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法在圖像檢測、分割和識別上表現(xiàn)出越來越卓越的效果,因此,許多優(yōu)秀的深度學(xué)習(xí)算法被應(yīng)用在工業(yè)界。本系統(tǒng)軟件設(shè)計由兩部分組成,分別是對商品靜態(tài)識別和對商品動態(tài)識別。采用的是目前流行的深度學(xué)習(xí)框架——Caffe框架[4],主要采用C++/CUDA高級語言來實現(xiàn)對深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和圖像的識別。商品靜態(tài)識別算法基于經(jīng)典的YOLO(You Only Look Once)網(wǎng)絡(luò)模型優(yōu)化[5];商品動態(tài)識別算法基于典型的Alexlet網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。
3.1 對商品進(jìn)行靜態(tài)識別
靜態(tài)識別是服務(wù)器從每個格子得到壓力傳感器的數(shù)據(jù),通過數(shù)據(jù)分析質(zhì)量格子質(zhì)量變化,得到顧客取出的是哪個格子的那種物品。同時前端攝像頭拍攝這個格子的圖像,在前端處理后上傳到服務(wù)器。在服務(wù)器上通過深度學(xué)習(xí)算法(YOLO)對圖像進(jìn)行檢測、定位和識別。基于卷積神經(jīng)網(wǎng)絡(luò)的YOLO模型在2015年被提出,能夠?qū)崟r地對物體進(jìn)行檢測和識別,是對物體進(jìn)行位置檢測準(zhǔn)確率和識別準(zhǔn)確率綜合最好的網(wǎng)絡(luò)模型之一,同時也是實時性最好的網(wǎng)絡(luò)模型,模型采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。模型的卷積層提取圖像特征,全連接層預(yù)測輸出概率。模型結(jié)構(gòu)類似于GoogleNet網(wǎng)絡(luò)模型,最終輸出為其網(wǎng)絡(luò)模型,如圖3所示。本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,分別在其全連接層和卷積層進(jìn)行修改,減少卷積層和filter,最終輸出為7×7×18的tensor。其網(wǎng)絡(luò)模型如圖4所示。
3.2 對商品動態(tài)識別
動態(tài)識別算法由兩部分組成,當(dāng)紅外傳感器檢測到信號,1 000萬像素攝像頭拍攝的圖像經(jīng)過壓縮上傳到服務(wù)器后,在OpenCV庫平臺下,先采用傳統(tǒng)視覺算法通過手勢識別裁剪出商品圖像,然后將圖像放入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,以此來提高這個系統(tǒng)識別準(zhǔn)確性。
基于卷積神經(jīng)網(wǎng)絡(luò)的Alexlet網(wǎng)絡(luò)模型是2012年的Imagnet比賽的冠軍[6]。其網(wǎng)絡(luò)模型如圖5所示,本系統(tǒng)在此網(wǎng)絡(luò)模型基礎(chǔ)上對其進(jìn)行優(yōu)化,分別對其全連接層和卷積層進(jìn)行修改,為了減少過擬合,優(yōu)化Dropout值為0.5,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試[7]。其網(wǎng)絡(luò)模型如圖6所示。
4 系統(tǒng)測試
在智能無人售貨系統(tǒng)中挑選日常生活中常見的可口可樂、加多寶、壓縮餅干、酸奶、香皂、泡面、洗衣液和茶杯8種商品,對其進(jìn)行數(shù)據(jù)集采集。靜態(tài)識別中多采用多個物品在一張圖片上,共80 000張圖片,其中10 000張圖片做測試集,70 000張圖片作為訓(xùn)練集。動態(tài)識別中采用每類10 000張圖片作為訓(xùn)練集,共80 000張圖片。每類1 000張圖片作為測試。在靜態(tài)測試中,運(yùn)用圖4網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,得到如圖7所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到27 000左右時,靜態(tài)測試準(zhǔn)確率達(dá)到99%的準(zhǔn)確率。同時在迭代次數(shù)達(dá)到31 000左右時,靜態(tài)測試值損失值減到最小,并且趨于穩(wěn)定。
動態(tài)測試中,運(yùn)用圖6網(wǎng)絡(luò)模型在Caffe框架上對其進(jìn)行訓(xùn)練和測試,得到如圖8所示的準(zhǔn)確率和loss值。當(dāng)?shù)螖?shù)達(dá)到23 000左右時,動態(tài)測試準(zhǔn)確率達(dá)到99%。同時,在迭代次數(shù)達(dá)到30 000左右時,動態(tài)測試值損失值減到最小,并且趨于穩(wěn)定。
5 結(jié)論
本文完成了智能無人零售視覺系統(tǒng)的軟件和硬件設(shè)計;實現(xiàn)了前端硬件攝像頭模塊組對圖像的靜態(tài)和動態(tài)拍攝、壓力傳感器組的數(shù)據(jù)傳輸、紅外傳感器組的數(shù)據(jù)采集以及各個模塊之間的通信;軟件上完成了神經(jīng)網(wǎng)絡(luò)對圖像的檢測定位與識別;通過與前端APP和后臺數(shù)據(jù)庫結(jié)合,可實現(xiàn)新的智能無人新零售系統(tǒng)。本文將人工智能視覺系統(tǒng)應(yīng)用到新零售行業(yè),能使顧客擁有掃描開門、自己取貨、關(guān)門自動結(jié)算的新體驗,方便了顧客,也節(jié)約了產(chǎn)品成本。未來智能無人新零售將取代傳統(tǒng)售貨機(jī),分布在城市的各個角落。
參考文獻(xiàn)
[1] 王汝傳,馬守明,葉寧,等.基于射頻識別標(biāo)簽和傳感器網(wǎng)絡(luò)的智能零售市場構(gòu)建方法:中國,CN 103714465 B[P].2014-04-09.
[2] 宋杰.無人智能零售店來了[J].中國經(jīng)濟(jì)周刊,2017(28):86-87.
[3] 何騰鵬,張榮芬,劉超,等.基于機(jī)器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].電子技術(shù)應(yīng)用,2017,43(4):58-61.
[4] JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,2014:675-678.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,2016:779-788.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,2012:1097-1105.
[7] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
作者信息:
林付春,張榮芬,何倩倩,劉宇紅
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽550025)