《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 新·知丨自動駕駛傳感器那點事 之 攝像頭深度學習視覺技術

新·知丨自動駕駛傳感器那點事 之 攝像頭深度學習視覺技術

2021-05-26
來源:四維圖新NavInfo

  引言

  攝像頭傳統(tǒng)視覺技術在算法上相對容易實現(xiàn),因此已被現(xiàn)有大部分車廠用于輔助駕駛功能。但是隨著自動駕駛技術的發(fā)展,基于深度學習的算法開始興起,本期小編就來說說深度視覺算法相關技術方面的資料,讓我們一起來學習一下吧。

forward (10).jpg

  01、深度學習概述

  深度學習(DL,Deep Learning)是一類模式分析方法的統(tǒng)稱,屬于機器學習(ML,MachineLearning)領域中一個新的研究方向。深度學習通過學習樣本數(shù)據(jù)的內在規(guī)律和表示層次,能夠讓機器像人一樣具有分析、學習能力,可識別文字、圖像和聲音等數(shù)據(jù),從而實現(xiàn)人工智能(AI,Artificial Intelligence)。

forward (9).jpg

  圖為:(人工智能、機器學習、深度學習)關系圖

  02、深度學習意義

  很多小伙伴們可能了解汽車想要實現(xiàn)自動駕駛,感知、決策與控制這三大系統(tǒng)是缺一不可的。其中,感知被我們放在了首位,因為車輛首先需要實時了解自車與現(xiàn)實世界三維變化的關系,即精準了解自車與周圍人、車、障礙物及道路要素等位置關系和變化。深度學習算法有效提升了攝像頭、激光雷達等傳感器的“智能”水平,這很大程度上也決定了自動駕駛汽車在復雜路況上的可靠度,因此深度學習的應用便成為了關鍵所在。另外汽車的感知傳感器雖然有多種,但是攝像頭是唯一一個通過圖像可以感知現(xiàn)實世界的傳感器,通過深度學習可以快速提升圖像的識別能力,讓我們的行駛更加安全。

  03、攝像頭傳統(tǒng)視覺算法與深度學習算法區(qū)別

  有看過小編上期寫的關于攝像頭傳統(tǒng)視覺算法的小伙伴們就要問了,既然傳統(tǒng)攝像頭視覺算法已經(jīng)可以使用,為什么還要研究深度學習算法呢?

  因為傳統(tǒng)視覺算法有著自身的一些瓶頸,無論單目攝像頭還是多目攝像頭,傳統(tǒng)視覺算法都是基于人為特征提取得到樣本特征庫去識別計算。當自動駕駛車輛行駛過程中如發(fā)現(xiàn)特征庫沒有該樣本或特征庫樣本不準確,都會導致傳統(tǒng)視覺算法無法識別,另外傳統(tǒng)視覺算法還有在復雜場景下分割不佳等情況。因此,基于人為特征提取的傳統(tǒng)視覺算法具有性能瓶頸,無法完全滿足自動駕駛的目標檢測。

forward (8).jpg

  圖片來源:論文《DeepLearning vs. Traditional Computer Vision》

  而攝像頭深度學習視覺算法的特征提取優(yōu)勢是基于神經(jīng)網(wǎng)絡算法,它模擬人的神經(jīng)網(wǎng)絡,可將自動駕駛上攝像頭輸入的圖像(甚至激光雷達的點云)等信息進行語義分割,有效解決了傳統(tǒng)視覺算法對復雜的實際場景分割或樣本特征庫不佳的情況,讓圖像分類、語義分割、目標檢測和同步定位與地圖構建(SLAM)等任務上獲得更高的準確度。

  接下來為了便于大家理解,小編先講講深度學習的神經(jīng)網(wǎng)絡是什么?它是如何幫助攝像頭完成圖像識別等視覺計算的。它比傳統(tǒng)攝像頭的視覺算法又好在哪里?

  04、深度學習之神經(jīng)網(wǎng)絡

  深度學習大家看字面就很容易發(fā)現(xiàn)它是由“深度”+“學習”來完成的?!吧疃取本褪悄7麓竽X的神經(jīng)元之間傳遞處理信息的模式,其模型結構包括輸入層(inputlayer),隱藏層(Hiddenlayer)和輸出層(outputlayer),其中輸入層和輸出層一般只有1層,而隱藏層(或中間層)它往往有5層、6層,甚至更多層,多層隱層(中間層)節(jié)點被稱為深度學習里的“深度”;“學習”就是進行“特征學習”(featurelearning)或“表示學習”(representationlearning),也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,利用大數(shù)據(jù)來學習和調優(yōu),建立起適量的神經(jīng)元計算節(jié)點和多層運算層次結構,盡可能的逼近現(xiàn)實的關聯(lián)關系,從而使特征分類或預測更容易。

forward (7).jpg

  圖為:神經(jīng)網(wǎng)絡結構示意圖

  上面的內容太抽象了,簡單來講神經(jīng)網(wǎng)絡有三層:

  輸入:輸入層每個神經(jīng)元對應一個變量特征,輸入層的神經(jīng)元相當于裝有數(shù)字的容器

  輸出:輸出層,回歸問題為一個神經(jīng)元,分類問題為多個神經(jīng)元

  參數(shù):網(wǎng)絡中所有的參數(shù),即中間層(或隱藏層)神經(jīng)元的權重和偏置,每一個神經(jīng)元代表該層神經(jīng)網(wǎng)絡學習到的特征

  這里大家只需要記住神經(jīng)網(wǎng)絡不管規(guī)模的大小,都是由一個一個單神經(jīng)元網(wǎng)絡堆疊起來的。

  不好理解也沒有關系,下面小編舉個例子來說明一下吧。

  假設我們要買房子,那么買房子我們所能承受的最終成交價格就是輸出層;

  輸入層可能會有很多原始特征(即購房因素,如房屋面積,房間個數(shù),附近學校個數(shù),學校教育質量,公共交通,停車位);

  中間層(或隱藏層)的神經(jīng)元就是我們可以學習到的特征,如家庭人數(shù),教育質量,出行

forward (6).jpg

  我們搜集的輸入特征數(shù)據(jù)越多,就能得到一個更為精細的神經(jīng)網(wǎng)絡。而且隨著輸入層的原始特征神經(jīng)元個數(shù)的增多,中間層就能從原始特征中學到足夠多的、更為細致的不同含義組合特征,比如房屋面積和房間數(shù)量能表示容納家庭人數(shù),學校數(shù)量和學校質量表示教育質量。通過每個神經(jīng)元對應的特征分類、統(tǒng)計和計算,最終得到我們想要輸出層“房價”。

  那么對于攝像頭的深度學習來說,輸入層為攝像頭獲取的圖像,圖像對于攝像頭深度學習算法來說可以看成是一堆數(shù)據(jù)流,那么這些數(shù)據(jù)流還可以分成更多原始特征,如圖像各像素點的稀疏和密集、語義和幾何信息,還包括顏色、明暗、灰度等;中間層將這些輸入層的原始特征信息分類計算后,可識別出圖像中包含的物體有哪些(如車道線、障礙物、人、車、紅綠燈等),最終輸出與自動駕駛車有關的物體的實時距離、大小、形狀、紅綠燈顏色等要素,幫助自動駕駛車輛完成實時感知周圍環(huán)境識別、測距等功能。

forward (5).jpg

  圖為:四維圖新-攝像頭視覺識別樣例

forward (4).jpg

  圖為:四維圖新-地下車庫建圖和實時重定位系統(tǒng)

  以上我們可以看出,基于神經(jīng)網(wǎng)絡的攝像頭視覺深度學習算法比基于人為特征提取的傳統(tǒng)攝像頭視覺算法要好用的多。因此目前主流的攝像頭視覺算法,都會使用深度學習去解決自動駕駛車對于圖像分類、圖像分割,對象檢測、多目標跟蹤、語義分割、可行駛區(qū)域、目標檢測和同步定位與地圖構建(SLAM)、場景分析等任務的準確率、識別率及圖像處理速度等,深度學習視覺算法也讓自動駕駛車快速量產(chǎn)落地成為可能。

  05、攝像頭深度學習算法

  自動駕駛攝像頭傳感器所使用的深度學習視覺算法常用的有以下三種:

 ?。?)基于卷積運算的神經(jīng)網(wǎng)絡系統(tǒng),即卷積神經(jīng)網(wǎng)絡(CNN,ConvolutionalNeural Network)。在圖像識別中應用廣泛。

 ?。?)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡,包括自編碼(Autoencoder)以及近年來受到廣泛關注的稀疏編碼(SparseCoding)。

  (3)以多層自編碼神經(jīng)網(wǎng)絡的方式進行預訓練,進而結合鑒別信息進一步優(yōu)化神經(jīng)網(wǎng)絡權值的深度置信網(wǎng)絡(DBN,DeepBelief Networks)。

forward (3).jpg

  圖為:深度學習一般流程

  06、深度學習是一個黑箱

  雖然講了這么多,究竟基于神經(jīng)網(wǎng)絡的深度學習算法是如何獲得輸入輸出的,其實上面的案例和算法分類也只是幫助我們去簡單理解深度學習的神經(jīng)網(wǎng)絡,事實上深度學習是一個“黑箱”?!昂谙洹币馕吨疃葘W習的中間過程不可知,深度學習產(chǎn)生的結果不可控。實際上程序員們編程后的神經(jīng)網(wǎng)絡到底是如何學習,程序員們也不知道,只知道最終輸出結果是利用“萬能近似定理”(Universal approximation theorem)盡可能準確的擬合出輸入數(shù)據(jù)和輸出結果間的關系。

  所以,很多時候深度學習能很好的完成學習識別等任務,可是我們并不知道它學習到了什么,也不知道它為什么做出了特定的選擇。知其然而不知其所以然,這可以看作是深度學習的常態(tài),也是深度學習工作中的一大挑戰(zhàn)。盡管如此,深度學習還是很好用滴!

  當然,深度學習算法不僅僅可以用于自動駕駛攝像頭方面的視覺感知,還可以用于語音識別、交通、醫(yī)療、生物信息等領域。

  這里順帶說一句,作為四維圖新而言,攝像頭不僅是四維圖新自動駕駛解決方案里的重要傳感器,也是四維圖新高精度地圖采集的主要工具。而且在高精度地圖采集和制圖標注過程中,不僅為四維圖新自動駕駛深度學習提供了海量的標注數(shù)據(jù),還建立了四維圖新自動駕駛各類場景仿真庫,讓四維圖新基于深度學習的自動駕駛算法獲得的結果更為準確、高效。

  四維圖新通過高精度地圖采集車上搭載的高清攝像頭、激光雷達等傳感器,將采集到的數(shù)據(jù)加以處理,并通過高度的自動化平臺進行繪制,從而為自動駕駛車感知、定位、規(guī)劃、決策等模塊提供重要支持。

  目前四維圖新高精度地圖已經(jīng)覆蓋國內32萬+公里高速公路以及10000+公里城市道路。

  在自動駕駛仿真方面,依托大規(guī)模數(shù)據(jù)資源,形成參數(shù)化的場景模板,并具備靜態(tài)場景生成與動態(tài)場景制作的場景庫構建能力,為自動駕駛提供完備的仿真云平臺能力和商用分析平臺能力。

forward (2).jpg

  圖為:四維圖新-高速道路HD Map

forward (1).jpg

  圖為:四維圖新-城市道路HD Map

forward.jpg

  圖為:四維圖新-自動駕駛仿真標準場景庫

  結語:

  相信通過這幾期的車載攝像頭以及相應視覺算法的介紹,讓大家對攝像頭視覺傳感器有了一定的了解。眾所周知,攝像頭雖然可以實現(xiàn)很多功能,但是在逆光、光線昏暗和攝像頭遮擋等某些特定環(huán)境下,攝像頭的使用效果也會大打折扣,因此我們需要汽車其他傳感器的冗余及各傳感器數(shù)據(jù)融合計算來保障我們的自動駕駛車更加安全。而我們四維圖新一直在致力于成為更值得客戶信賴的智能出行科技公司,也希望我們的自動駕駛相關產(chǎn)品為小伙伴們帶來更加安全、放心、舒心的自動駕駛體驗。

  那么下期,小編繼續(xù)為大家整理其他傳感器相關方面的資料,讓大家對自動駕駛更為了解,敬請期待吧!




mmexport1621241704608.jpg


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。