《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > 業(yè)界 | 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快

業(yè)界 | 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快

2018-08-09
關(guān)鍵詞: CNN 視覺模型 MnasNet

目前開發(fā)者可以使用非常多的移動端 CNN 架構(gòu),也可以在機(jī)器上訓(xùn)練新穎的視覺模型并部署到手機(jī)端。但各種各樣的移動端任務(wù)可能并不能借助已有的 CNN 架構(gòu)達(dá)到非常好的效果,因此谷歌近日將神經(jīng)架構(gòu)搜索方法引入了輕量級的 CNN 網(wǎng)絡(luò),并提出基于強(qiáng)化學(xué)習(xí)的 MnasNet 以自動設(shè)計移動端模型。


卷積神經(jīng)網(wǎng)絡(luò)(CNN)已被廣泛用于圖像分類、人臉識別、目標(biāo)檢測和其他領(lǐng)域。然而,為移動設(shè)備設(shè)計 CNN 是一項具有挑戰(zhàn)性的工作,因為移動端模型需要體積小、速度快,還要保持精準(zhǔn)。盡管人們已經(jīng)做了大量努力來設(shè)計和改進(jìn)移動端模型,如 MobileNet 和 MobileNetV2,但手動創(chuàng)建高效模型仍然是一項挑戰(zhàn),因為要考慮的因素太多。從最近 AutoML 神經(jīng)架構(gòu)搜索方面的進(jìn)展受到啟發(fā),我們在想移動端 CNN 模型的設(shè)計是否也能受益于 AutoML 方法。


在《MnasNet: Platform-Aware Neural Architecture Search for Mobile》一文中,我們探索了一種使用強(qiáng)化學(xué)習(xí)設(shè)計移動端模型的自動化神經(jīng)架構(gòu)搜索方法。為了處理移動端速度限制,我們明確地將速度信息納入搜索算法的主要獎勵函數(shù)中,以便搜索可以識別一個在準(zhǔn)確率和速度之間實現(xiàn)良好平衡的模型。如此,MnasNet 能夠找到運(yùn)行速度比 MobileNet V2(手工制造的最先進(jìn)水平)快 1.5 倍、比 NASNet 快 2.4 倍的型號,同時達(dá)到同樣的 ImageNet top-1 準(zhǔn)確率。


不同于以前的架構(gòu)搜索方法,在這種方法中,模型速度是通過另一個替代品(如 FLOPS)來考慮的。我們的方法通過在特定平臺上執(zhí)行模型來直接測量模型速度,例如本研究中使用的 Pixel 手機(jī)。通過這種方式,我們可以直接測量現(xiàn)實世界中可以實現(xiàn)的指標(biāo),因為每種類型的移動設(shè)備都有自己的軟件和硬件特性,并且可能需要不同的架構(gòu)來在準(zhǔn)確率和速度之間做出最佳權(quán)衡。


我們方法的總體流程主要包括三個部分:一個基于 RNN 的學(xué)習(xí)和采樣模型架構(gòu)控制器,一個建立和訓(xùn)練模型以獲得準(zhǔn)確率的訓(xùn)練器,以及一個使用 TensorFlow Lite 測量真實手機(jī)上模型速度的推理引擎。我們制定了一個多目標(biāo)優(yōu)化問題,旨在實現(xiàn)高準(zhǔn)確率和高速,并利用帶有定制獎勵函數(shù)的強(qiáng)化學(xué)習(xí)算法來尋找帕累托最優(yōu)解 (例如,具有最高準(zhǔn)確率但速度不變的模型)。

微信圖片_20180809213013.jpg


移動端自動神經(jīng)架構(gòu)搜索方法的整體流程圖


為了在搜索靈活性與搜索空間大小之間取得適當(dāng)?shù)钠胶?,我們提出了一種新型因子化的層級搜索空間,它將卷積神經(jīng)網(wǎng)絡(luò)分解為一個由模塊組成的序列,然后使用層級搜索空間決定每一個模塊的層級結(jié)構(gòu)。通過這種方式,我們的方法允許不同的層級使用不同的運(yùn)算與連接。同時,我們強(qiáng)制每一個模塊共享相同的結(jié)構(gòu),因此與逐層搜索相比搜索空間要顯著地小幾個數(shù)量級。

微信圖片_20180809213036.jpg


我們的 MnasNet 網(wǎng)絡(luò)從新型因子化層級搜索空間中采樣,上圖展示了網(wǎng)絡(luò)架構(gòu)中的不同層級。


我們在 ImageNet 分類和 COCO 目標(biāo)檢測任務(wù)上測試了該方法的有效性。我們的實驗在典型的移動端資源下實現(xiàn)了新的當(dāng)前最優(yōu)準(zhǔn)確度。特別地,下圖展示了該網(wǎng)絡(luò)在 ImageNet 上的結(jié)果。

微信圖片_20180809213059.jpg

ImageNet 準(zhǔn)確率和推理延遲的對比。


在相同的準(zhǔn)確率下,MnasNet 模型的速度比手工調(diào)參得到的當(dāng)前最佳模型 MobileNet V2 快 1.5 倍,并且比 NASNet 快 2.4 倍,它也是使用架構(gòu)搜索的算法。在應(yīng)用壓縮和激活(squeeze-and-excitation)優(yōu)化方法后,MnasNet+SE 模型獲得了 76.1% 的 ResNet 級別的 top-1 準(zhǔn)確率,其中參數(shù)數(shù)量是 ResNet 的 1/19,且乘法-加法運(yùn)算量是它的 1/10。在 COCO 目標(biāo)檢測任務(wù)上,我們的模型族獲得了比 MobileNet 更快的速度和更高的準(zhǔn)確率,并在 1/35 的計算成本下獲得了和 SSD300 相當(dāng)?shù)臏?zhǔn)確率。


我們很高興看到該自動化架構(gòu)搜索方法可以在多個復(fù)雜移動設(shè)備視覺任務(wù)上取得當(dāng)前最佳性能。在未來,我們計劃把更多的運(yùn)算和優(yōu)化方法整合到搜索空間中,并將其應(yīng)用到更多的移動設(shè)備視覺任務(wù)上,例如語義分割。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。