麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員稱,可以通過觸摸學(xué)習(xí)視覺的機(jī)器人觸手可及。
在將于下周在加州長(zhǎng)灘舉行的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議上發(fā)表的一篇論文中,他們描述了一個(gè)人工智能系統(tǒng),該系統(tǒng)能夠根據(jù)觸覺信號(hào)生成物體的視覺表征,并從視覺數(shù)據(jù)片段預(yù)測(cè)觸覺。
“通過觀察場(chǎng)景,我們的模型可以想象觸摸平面或鋒利邊緣的感覺,”該研究的主要作者、CSAIL博士生李云柱(音譯)說。他與麻省理工學(xué)院教授拉斯·特德雷克(Russ Tedrake)、安東尼奧·托拉爾巴(Antonio Torralba)以及麻省理工學(xué)院博士后朱俊彥(Jun-Yan Zhu)共同撰寫了這篇論文?!巴ㄟ^觸摸周圍,我們的(人工智能)模型可以純粹從觸覺來預(yù)測(cè)與環(huán)境的互動(dòng)。把這兩種感覺結(jié)合起來,可以增強(qiáng)機(jī)器人的能力,減少我們?cè)诓僮骱妥ト∥矬w時(shí)可能需要的數(shù)據(jù)?!?/p>
該團(tuán)隊(duì)的系統(tǒng)使用了GANs——由生成樣本的生成器和試圖區(qū)分生成的樣本和真實(shí)樣本的識(shí)別器組成的兩部分神經(jīng)網(wǎng)絡(luò)來基于觸覺數(shù)據(jù)拼湊視覺圖像。他們從 VisGel獲取樣本數(shù)據(jù),該數(shù)據(jù)庫包含300多萬對(duì)視覺/觸覺數(shù)據(jù)對(duì),其中包括近200個(gè)物體(如工具、織物和家用產(chǎn)品)的1.2萬個(gè)視頻剪輯。它推斷出接觸位置的形狀和材質(zhì),并回頭看參考圖像來“想象”相互作用。
例如,給定鞋子的觸覺數(shù)據(jù),該模型可以確定鞋子最可能被觸碰的位置。
參考圖像有助于對(duì)對(duì)象和環(huán)境的細(xì)節(jié)進(jìn)行編碼,使機(jī)器學(xué)習(xí)模型能夠自我改進(jìn)。它被安裝在一個(gè)Kuka機(jī)器人手臂上,帶有一個(gè)觸覺GelSight傳感器(由麻省理工學(xué)院的另一個(gè)團(tuán)隊(duì)設(shè)計(jì)),它將當(dāng)前幀與參考圖像進(jìn)行比較,以確定觸摸的位置和規(guī)模。
研究人員指出,目前的數(shù)據(jù)集只有在受控環(huán)境中進(jìn)行交互的例子,他們說,一些細(xì)節(jié),比如物體的顏色和柔軟度,仍然很難讓系統(tǒng)推斷出來。不過,他們說,他們的方法可以為在制造環(huán)境中實(shí)現(xiàn)更無縫的人機(jī)一體化奠定基礎(chǔ),特別是在缺少視覺數(shù)據(jù)的任務(wù)中,比如關(guān)燈或工人盲目地把手伸進(jìn)容器時(shí)。
“這是第一種能夠令人信服地在視覺和觸覺信號(hào)之間進(jìn)行轉(zhuǎn)換的方法,”加州大學(xué)伯克利分校(University of California at Berkeley)博士后研究員安德魯?歐文斯(Andrew Owens)表示。“當(dāng)有諸如‘這個(gè)物體是硬的還是軟的?’或者‘如果我提起這個(gè)杯子的把手,我的握力會(huì)有多少?’這些問題時(shí),像這樣的方法有可能對(duì)機(jī)器人非常有用,這是一個(gè)非常具有挑戰(zhàn)性的問題,因?yàn)樾盘?hào)是如此不同,而這個(gè)模型已經(jīng)顯示出了巨大的能力?!?/p>