【摘要】 1. 3D視覺技術(shù)2D視覺技術(shù)借助強大的計算機視覺和深度學(xué)習(xí)算法取得了超越人類認(rèn)知的成就,而3D視覺則因為算法建模和環(huán)境依賴等問題,一直處于正在研究的前沿。3D視覺同樣為傳統(tǒng)研究領(lǐng)域,但最近5年內(nèi)得到快速發(fā)展。與深度學(xué)習(xí)算法結(jié)合,在智能制造/機器人、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別等領(lǐng)域取得了優(yōu)異的效果。3D視覺主要研究內(nèi)容包括:l 3D感知:點云獲…
1.3D視覺技術(shù)
2D視覺技術(shù)借助強大的計算機視覺和深度學(xué)習(xí)算法取得了超越人類認(rèn)知的成就,而3D視覺則因為算法建模和環(huán)境依賴等問題,一直處于正在研究的前沿。
3D視覺同樣為傳統(tǒng)研究領(lǐng)域,但最近5年內(nèi)得到快速發(fā)展。與深度學(xué)習(xí)算法結(jié)合,在智能制造/機器人、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別等領(lǐng)域取得了優(yōu)異的效果。
3D視覺主要研究內(nèi)容包括:
3D感知:點云獲取及處理,應(yīng)用于機器人/機械臂、自動駕駛、無人機等場景。
位姿估計(視覺SLAM):應(yīng)用于機器人定位導(dǎo)航、VPS等場景。
3D重建:
大規(guī)模場景的3D重建、動態(tài)實景融合和3D理解(與3D感知趨于一致等),應(yīng)用于數(shù)字城市/園區(qū)、數(shù)字文旅、混合現(xiàn)實等場景。
人臉、人體、手部3D重建和關(guān)鍵點檢測識別,應(yīng)用于游戲娛樂、動漫影視內(nèi)容制作等領(lǐng)域。
近年來,學(xué)術(shù)界和工業(yè)界推出了一系列優(yōu)秀的算法和產(chǎn)品,被廣泛應(yīng)用到各個領(lǐng)域。
學(xué)術(shù)界:
CVPR、ECCV、ICCV三大頂會每年和3D視覺相關(guān)主題的文章數(shù)量保持在十分之一左右,且呈增加趨勢。3D視覺技術(shù)主要包括:3D點云識別與分割、3D物體檢測、單目圖像深度圖的生成、語義SLAM、三維重建、光場計算等。
工業(yè)界:
3D視覺廣泛應(yīng)用到人臉識別、智能機器人、自動駕駛、ARVR等領(lǐng)域;比如,OPPO、華為和蘋果等公司推出的3D+AI識別功能,通過掃描人臉三維結(jié)構(gòu)完成手機解鎖;自動駕駛領(lǐng)域通過分析3D人臉信息,判斷司機駕駛時的情緒狀態(tài);SLAM方式通過重建周邊環(huán)境,完成建圖與感知;AR領(lǐng)域通過三維重建技術(shù)完成目標(biāo)的重現(xiàn),等等。
2.3D傳感器" target="_blank">視覺傳感器/相機
傳感器/相機作為3D視覺的眼睛,其在3D技術(shù)演進及落地應(yīng)用過程中所占的位置十分重要,甚至一定程度上決定了3D視覺技術(shù)的發(fā)展了應(yīng)用。本文概要分析3D傳感器/相機技術(shù),并對當(dāng)前業(yè)界硬件廠商和產(chǎn)品進行簡單介紹。
3D傳感器/相機,不僅能夠獲得平面圖像,還可以獲得拍攝對象的深度信息,即三維位置及尺寸等。3D傳感器/相機通常有多個攝像頭+深度傳感器組成??梢詫崿F(xiàn)三維信息采集,且三維數(shù)據(jù)可以轉(zhuǎn)成點云。
根據(jù)基礎(chǔ)原理的不同,目前市面上的3D傳感器主要包括以下幾種:
?。?)雙目相機
雙目視覺是機器視覺的一種重要形式,基于視差原理并利用成像設(shè)備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應(yīng)點間的位置偏差,來獲取物體三維幾何信息的方法。目前有主動雙目,被動雙目之分,被動雙目就是采用可見光,好處是不需要額外光源,但是晚上無法使用,主動雙目就是主動發(fā)射紅外激光做補光,光線暗的場景也能正常使用。
雙目相機優(yōu)缺點:
硬件要求和成本低,普通CMOS相機即可。
可適用室內(nèi)外場景。
對環(huán)境光照非常敏感。光線變化導(dǎo)致圖像偏差大,進而會導(dǎo)致匹配失敗或精度低。
不適用單調(diào)缺乏紋理的場景。雙目視覺根據(jù)視覺特征進行圖像匹配,沒有特征會導(dǎo)致匹配失敗。
計算復(fù)雜度高。純視覺的方法對算法要求高,計算量較大。
基線限制了測量范圍。測量范圍和基線(兩個攝像頭間距)成正比,導(dǎo)致無法小型化。
?。?)結(jié)構(gòu)光
結(jié)構(gòu)光(Structured light):通常采用特定波長的不可見的紅外激光作為光源,發(fā)射出來的光經(jīng)過一定的編碼投影在物體上,通過一定算法來計算返回的編碼圖案的畸變來得到物體的位置和深度信息。
根據(jù)編碼圖案不同,機構(gòu)光相機可分為:
一般有條紋結(jié)構(gòu)光---enshape
編碼結(jié)構(gòu)光---Mantis Vision, Real sense(F200)
散斑結(jié)構(gòu)光--apple(prime sense)
等
結(jié)構(gòu)光相機優(yōu)缺點包括:
方案成熟,相機基線可以做的比較小,方便小型化。
資源消耗較低,單幀IR圖即可計算深度信息,功耗低。
主動光源,暗光線場景也可使用。
在一定范圍內(nèi)精度高,分辨率高,分辨率可達1280x1024,幀率可達到60FPS。
容易受環(huán)境光干擾,室外體驗差。
隨檢測距離增加,精度會變差。
(3)ToF相機
不同于使用2D圖像來推算3D資訊,ToF是透過紅外光在空氣中的飛行時間,計算出目標(biāo)體的距離。ToF技術(shù)也是機器視覺工業(yè)的重要里程碑,因其只需要使用低成本的CMOS傳感器和主動光源技術(shù)就能提供3D場景的距離景深資訊。
此外,不同于單點逐點掃描方式,ToF是每個圖元都能測量對應(yīng)目標(biāo)體的亮度和反射回來的到達時間,從而計算出該點對應(yīng)的距離景深。ToF提供了視角范圍內(nèi)場景的整個分辨率的距離景深資料。該技術(shù)結(jié)構(gòu)簡單,容易使用,不依賴環(huán)境光,且兼具高精度和高幀率。
TOF法根據(jù)調(diào)制方法的不同,一般可以分為兩種:脈沖調(diào)制(Pulsed Modulation)和連續(xù)波調(diào)制(Continuous Wave Modulation)。脈沖調(diào)制需要非常高精度時鐘進行測量,且需要發(fā)出高頻高強度激光,目前大多采用檢測相位偏移辦法來實現(xiàn)TOF功能。
下面圖片描述了TOF相機(連續(xù)波)的基本原理,實際應(yīng)用中,通常采用的是正弦波調(diào)制。由于接收端和發(fā)射端正弦波的相位偏移和物體距離攝像頭的距離成正比,因此可以利用相位偏移來測量距離。
TOF的優(yōu)缺點包括:
檢測距離遠(yuǎn)。在激光能量夠的情況下可達幾十米。
受環(huán)境光干擾比較小。
對設(shè)備要求高,特別是時間測量模塊。
資源消耗大。該方案在檢測相位偏移時需要多次采樣積分,運算量大。
邊緣精度低。
限于資源消耗和濾波,幀率和分辨率都沒辦法做到較高。目前消費類最大也就VGA。
除了上述視覺傳感器(相機)外,3D視覺相關(guān)的數(shù)據(jù)采集設(shè)備還包括:毫米波雷達、激光雷達等,廣泛用于機器人、自動駕駛等應(yīng)用場景。
毫米波是指波長在1mm到10mm之間的電磁波,換算成頻率后,毫米波的頻率位于30GHz到300GHz之間。毫米波的波長介于厘米波和光波之間,因此毫米波兼有微波制導(dǎo)和光電制導(dǎo)的優(yōu)點。
激光雷達(Light Detection And Ranging,LiDAR),即光探測與測量,是一種集激光、全球定位系統(tǒng)(GPS)和慣性測量設(shè)備(IMU)于一身的系統(tǒng),用于獲得數(shù)據(jù)并生成精確的DEM(數(shù)字高程模型)。LiDAR可以高度準(zhǔn)確地定位激光束打在物體上的光斑,測距精度可達厘米級,其優(yōu)勢包括“精準(zhǔn)”、“快速”。下圖為自動駕駛領(lǐng)域常用的Velodyne LiDAR。
近幾年,無人駕駛技術(shù)興起并快速發(fā)展。無人駕駛技術(shù)研發(fā)公司,包括谷歌、百度、Uber等主流無人駕駛汽車研發(fā)團隊,都在使用激光雷達作為傳感器之一,與圖像識別等技術(shù)搭配使用,實現(xiàn)三維環(huán)境感知,為自動駕駛保駕護航。
LiDAR系統(tǒng)通過發(fā)射一束激光,測量光在物體表面反射而返回來的信號,信號傳輸所需的時間提供了一種直接測量LiDAR系統(tǒng)與物體之間的距離的手段。關(guān)于物體的額外的信息,比如它的速率或材料成分,也可以通過測量反射回來的信號中的某些特性而得以確定,這些特性包括誘導(dǎo)多普勒頻移,從而創(chuàng)建出完整的3D模型。
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<