本文近日發(fā)表在 PNAS 上,討論了深度學(xué)習(xí)取得的成就、推動(dòng)條件和廣泛存在的問題,并從「補(bǔ)充」而不是「推翻」的論點(diǎn)探討了如何改進(jìn)人工智能研究方法的方向。文中引用了大量的 DeepMind 發(fā)表過的論文,基本思想是提倡延續(xù)上世紀(jì) 80 年代的符號(hào) AI 方法論,將深度學(xué)習(xí)結(jié)合圖網(wǎng)絡(luò)等實(shí)現(xiàn)完整的類人智能。
本文作者 M. Mitchell Waldrop 是威斯康星大學(xué)基本粒子物理學(xué)博士,曾擔(dān)任 Nature、Science 等頂級(jí)期刊撰稿人、編輯,出版過《復(fù)雜》等科學(xué)著作。
上圖中是一根香蕉,然而人工智能卻將其識(shí)別為烤面包機(jī),即使它使用了在自動(dòng)駕駛、語音理解和多種 AI 應(yīng)用中表現(xiàn)出色的強(qiáng)大深度學(xué)習(xí)技術(shù)。這意味著 AI 已經(jīng)見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的物體,然后對(duì)新輸入的圖像預(yù)測(cè)其中物體的類別。然而這種系統(tǒng)很容易被誤導(dǎo),圖像中只是多了一張貼紙,就讓系統(tǒng)的預(yù)測(cè)產(chǎn)生嚴(yán)重偏離。
深度學(xué)習(xí)方法中的明顯缺點(diǎn)引起了研究員和大眾的關(guān)注,如無人駕駛汽車等技術(shù),它們使用深度學(xué)習(xí)技術(shù)進(jìn)行導(dǎo)航,帶來了廣為人知的災(zāi)難事件。圖片來源:Shutterstock.com/MONOPOLY919。
上述這個(gè)被深度學(xué)習(xí)研究者稱之為「對(duì)抗攻擊」的案例是由谷歌大腦提出的,它暗示著 AI 在達(dá)到人類智能上仍有很長的路要走。「我最初認(rèn)為對(duì)抗樣本只是一個(gè)小煩惱,」多倫多大學(xué)的計(jì)算機(jī)科學(xué)家、深度學(xué)習(xí)先驅(qū)之一 Geoffrey Hinton 說:「但我現(xiàn)在認(rèn)為這個(gè)問題可能非常重要,它告訴我們,我們到底做錯(cuò)了什么。」
這是很多人工智能從業(yè)者的同感,任何人都可以輕易說出一長串深度學(xué)習(xí)的弊端。例如,除了易受欺騙之外,深度學(xué)習(xí)還存在嚴(yán)重的低效率問題?!缸屢粋€(gè)孩子學(xué)會(huì)認(rèn)識(shí)一頭母牛,」Hinton 說,「他們的母親不需要說'牛'一萬次」,但深度學(xué)習(xí)系統(tǒng)學(xué)習(xí)『?!粫r(shí)需要這么多次。人類通常僅從一兩個(gè)例子中就能學(xué)習(xí)新概念。
然后是不透明問題。深度學(xué)習(xí)系統(tǒng)訓(xùn)練好之后,我們無法確定它是如何做出決定的。「在許多情況下,這是不可接受的,即使它得到了正確的答案,」計(jì)算神經(jīng)科學(xué)家、負(fù)責(zé)劍橋 MIT-IBM Watson AI 實(shí)驗(yàn)室的 David Cox 說。假設(shè)一家銀行使用人工智能來評(píng)估你的信譽(yù),然后拒絕給你一筆貸款,「美國多個(gè)州的法律都規(guī)定必須解釋其中的原因,」他說。
也許這里面最重要的就是缺乏常識(shí)的問題了。深度學(xué)習(xí)系統(tǒng)可能在識(shí)別像素分布的模式上很擅長,但是它們無法理解模式的含義,更不用說理解模式背后的原因了。「在我看來,當(dāng)前的系統(tǒng)還不知道沙發(fā)和椅子是用來坐的,」DeepMind 的 AI 研究員 Greg Wayne 說。
深度學(xué)習(xí)暴露的越來越多的弱點(diǎn)正在引起公眾對(duì)人工智能的關(guān)注。特別是在無人駕駛汽車領(lǐng)域,它們使用類似的深度學(xué)習(xí)技術(shù)進(jìn)行導(dǎo)航,曾經(jīng)導(dǎo)致了廣為人知的災(zāi)難和死亡事故。
盡管如此,無可否認(rèn),深度學(xué)習(xí)是一種非常強(qiáng)大的工具。深度學(xué)習(xí)使得部署應(yīng)用程序(例如面部識(shí)別和語音識(shí)別)變得非常常見,這些應(yīng)用程序在十年前幾乎不可能完成。「所以我很難想象深度學(xué)習(xí)會(huì)在這種時(shí)候被拋棄,」Cox 說?!父蟮目赡苁菍?duì)深度學(xué)習(xí)方法進(jìn)行修改或增強(qiáng)?!?/p>
大腦戰(zhàn)爭
今天的深度學(xué)習(xí)革命的根源在于 20 世紀(jì) 80 年代的「大腦戰(zhàn)爭」,當(dāng)時(shí)兩種不同的人工智能流派相互爭執(zhí)不休。
一種方法現(xiàn)在被稱為「老式的 AI」,自 20 世紀(jì) 50 年代以來一直占據(jù)著該領(lǐng)域的主導(dǎo)地位,也被稱為符號(hào) AI,它使用數(shù)學(xué)符號(hào)來表示對(duì)象和對(duì)象之間的關(guān)系。加上由人類建立的廣泛的知識(shí)庫,這些系統(tǒng)被證明在推理方面非常擅長。但是到了 20 世紀(jì) 80 年代,人們?cè)絹碓角宄卣J(rèn)識(shí)到,符號(hào) AI 在處理現(xiàn)實(shí)生活中的符號(hào)、概念和推理的動(dòng)態(tài)時(shí)表現(xiàn)得非常糟糕。
為了應(yīng)對(duì)這些缺點(diǎn),另一派研究人員開始倡導(dǎo)人工神經(jīng)網(wǎng)絡(luò)或連接人工智能,他們是當(dāng)今深度學(xué)習(xí)系統(tǒng)的先驅(qū)。這種系統(tǒng)的基本思想是通過傳播模擬節(jié)點(diǎn)(人腦中神經(jīng)元的類似物)網(wǎng)絡(luò)中的信號(hào)來對(duì)其進(jìn)行處理。信號(hào)沿著連接(突觸的類似物)從節(jié)點(diǎn)傳遞到節(jié)點(diǎn)。類似于真實(shí)的大腦,學(xué)習(xí)是調(diào)整可放大或抑制每個(gè)連接所攜帶信號(hào)的「權(quán)重」的問題。
在實(shí)踐中,大多數(shù)網(wǎng)絡(luò)將節(jié)點(diǎn)排列為一系列層,這些層大致類似于皮層中的不同處理中心。因此,專門用于圖像的網(wǎng)絡(luò)將具有一層輸入節(jié)點(diǎn),這些節(jié)點(diǎn)對(duì)單個(gè)像素做出響應(yīng),就像視桿細(xì)胞和視錐細(xì)胞對(duì)光線照射視網(wǎng)膜做出響應(yīng)一樣。一旦被激活,這些節(jié)點(diǎn)通過加權(quán)連接將其激活級(jí)別傳播到下一級(jí)別的其它節(jié)點(diǎn),這些節(jié)點(diǎn)組合輸入信號(hào)并依次激活(或不激活)。這個(gè)過程一直持續(xù)到信號(hào)到達(dá)節(jié)點(diǎn)的輸出層,其中激活模式提供最終預(yù)測(cè)。例如,輸入圖像是數(shù)字「9」。如果答案是錯(cuò)誤的,例如說輸入圖像是一個(gè)「0」。網(wǎng)絡(luò)會(huì)執(zhí)行反向傳播算法在層中向下運(yùn)行,調(diào)整權(quán)重以便下次獲得更好的結(jié)果。
到 20 世紀(jì) 80 年代末,在處理嘈雜或模糊的輸入時(shí),神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明比符號(hào) AI 好得多。然而,這兩種方法之間的對(duì)峙仍未得到解決,主要是因?yàn)楫?dāng)時(shí)計(jì)算機(jī)能擬合的人工智能系統(tǒng)非常有限。無法確切知道這些系統(tǒng)能夠做什么。
AI 的「神經(jīng)網(wǎng)絡(luò)」模型通過類似于神經(jīng)元的節(jié)點(diǎn)網(wǎng)絡(luò)發(fā)送信號(hào)。信號(hào)沿著連接傳遞到節(jié)點(diǎn)?!笇W(xué)習(xí)」會(huì)通過調(diào)整放大或抑制每個(gè)連接所承載信號(hào)的權(quán)重來改善結(jié)果。節(jié)點(diǎn)通常以一系列層排列,這些層大致類似于皮質(zhì)中的不同處理中心。今天的計(jì)算機(jī)可以處理數(shù)十層的「深度學(xué)習(xí)」網(wǎng)絡(luò)。圖片來源:Lucy Reading-Ikkanda。
算力革命
這種理解在 21 世紀(jì)得到變革,隨著數(shù)量級(jí)計(jì)算機(jī)的出現(xiàn),功能更加強(qiáng)大的社交媒體網(wǎng)站提供源源不斷的圖像、聲音和其它訓(xùn)練數(shù)據(jù)。
Hinton 是反向傳播算法的聯(lián)合提出者,也是 20 世紀(jì) 80 年代連接主義運(yùn)動(dòng)的領(lǐng)導(dǎo)者。他和他的學(xué)生們不斷嘗試訓(xùn)練比以前更大的網(wǎng)絡(luò),層數(shù)從一個(gè)或兩個(gè)增加到大約六個(gè)(今天的商業(yè)網(wǎng)絡(luò)通常使用超過 100 層的網(wǎng)絡(luò))。
2009 年,Hinton 和他的兩名研究生表示,這種「深度學(xué)習(xí)」在語音識(shí)別上能夠超越任何其它已知的方法。2012 年,Hinton 和另外兩名學(xué)生發(fā)表了論文,表明深度神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上可能比標(biāo)準(zhǔn)視覺系統(tǒng)好得多。「我們幾乎將誤差率減半,」他說。在這之后,深度學(xué)習(xí)應(yīng)用的革命開始了。
研究人員早期更加關(guān)注擴(kuò)展深度學(xué)習(xí)系統(tǒng)的訓(xùn)練方式,Matthew Botvinick 說。他在 2015 年從普林斯頓的神經(jīng)科學(xué)小組離開,學(xué)術(shù)休假一年,進(jìn)入 DeepMind,從那時(shí)起一直沒有離開。語音和圖像識(shí)別系統(tǒng)都使用了監(jiān)督學(xué)習(xí),他說:「這意味著每張圖片都有一個(gè)正確的答案,比如貓的圖像的類別必須是'貓'。如果網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤,你就告訴它什么是正確的答案?!谷缓缶W(wǎng)絡(luò)使用反向傳播算法來改進(jìn)其下一個(gè)猜測(cè)。
Botvinick 說,如果有精心標(biāo)記的訓(xùn)練樣例,監(jiān)督學(xué)習(xí)的效果會(huì)很好。但一般而言,情況并非如此。它根本不適用于諸如玩視頻游戲等沒有正確或錯(cuò)誤答案的任務(wù),其中僅有成功或失敗的策略。
Botvinick 解釋說,對(duì)于那些情況(事實(shí)上,在現(xiàn)實(shí)世界的生活中),你需要強(qiáng)化學(xué)習(xí)。例如,玩視頻游戲的強(qiáng)化學(xué)習(xí)系統(tǒng)學(xué)會(huì)尋求獎(jiǎng)勵(lì),并避免懲罰。
2015 年,當(dāng) DeepMind 的一個(gè)小組訓(xùn)練網(wǎng)絡(luò)玩經(jīng)典的 Atari 2600 街機(jī)游戲時(shí),首次成功實(shí)現(xiàn)了深度強(qiáng)化學(xué)習(xí)?!妇W(wǎng)絡(luò)將在游戲中接收屏幕圖像作為輸入,」隨后加入該公司的 Botvinick 說,「在輸出端有指定動(dòng)作的圖層,比如如何移動(dòng)操縱桿。」該網(wǎng)絡(luò)的表現(xiàn)達(dá)到甚至超過了人類 Atari 玩家。2016 年,DeepMind 研究人員使用掌握了相同網(wǎng)絡(luò)的更精細(xì)版本的 AlphaGo 在圍棋上擊敗了人類世界冠軍。
深度學(xué)習(xí)之外
不幸的是,這些里程碑式的成就都沒有解決深度學(xué)習(xí)的根本問題。以 Atari 系統(tǒng)為例,智能體必須玩上千輪才能掌握多數(shù)人類幾分鐘之內(nèi)就能學(xué)會(huì)的游戲。即便如此,網(wǎng)絡(luò)也無法理解或解釋屏幕上的拍子等物體。因此 Hinton 的問題也可以用在這里:到底哪里還沒做好?
也許沒有哪里沒做好。也許我們需要的只是更多的連接、更多的層以及更加復(fù)雜的訓(xùn)練方法。畢竟,正如 Botvinick 所指出的,神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上等同于一臺(tái)通用計(jì)算機(jī),也就是說只要你能找到正確的連接權(quán)重,就沒有神經(jīng)網(wǎng)絡(luò)處理不了的計(jì)算——至少理論上是這樣。
但在實(shí)踐中,出現(xiàn)的錯(cuò)誤卻可能是致命的——這也是為什么人們?cè)桨l(fā)感覺深度學(xué)習(xí)的劣勢(shì)需要從根本上解決。
擴(kuò)展訓(xùn)練數(shù)據(jù)的范圍是一種簡單的解決方法。例如,在 2018 年 5 月發(fā)表的一篇論文中,Botvinick 的 DeepMind 團(tuán)隊(duì)研究了神經(jīng)網(wǎng)絡(luò)在多個(gè)任務(wù)上訓(xùn)練時(shí)發(fā)生了什么。他們發(fā)現(xiàn),只要有足夠的從后面的層往前傳遞(這一特性可以讓網(wǎng)絡(luò)隨時(shí)記住自己在做什么)的「循環(huán)」連接,網(wǎng)絡(luò)就能自動(dòng)從前面的任務(wù)中學(xué)習(xí),從而加速后續(xù)任務(wù)的學(xué)習(xí)速度。這至少是人類「元學(xué)習(xí)」(學(xué)習(xí)如何學(xué)習(xí))的一種雛形,而元學(xué)習(xí)是人類能夠快速學(xué)習(xí)的一大原因。
一種更激進(jìn)的可能性是,放棄只訓(xùn)練一個(gè)大的網(wǎng)絡(luò)來解決問題的做法,轉(zhuǎn)而讓多個(gè)網(wǎng)絡(luò)協(xié)同工作。2018 年 6 月,DeepMind 團(tuán)隊(duì)發(fā)表了一種新方法——生成查詢網(wǎng)絡(luò)(Generative Query Network)架構(gòu),該架構(gòu)利用兩個(gè)不同的網(wǎng)絡(luò),在沒有人工輸入的復(fù)雜虛擬環(huán)境中學(xué)習(xí)。一個(gè)是表征網(wǎng)絡(luò),本質(zhì)上是利用標(biāo)準(zhǔn)的圖像識(shí)別學(xué)習(xí)來識(shí)別在任何給定時(shí)刻 AI 能看到的東西。與此同時(shí),生成網(wǎng)絡(luò)學(xué)習(xí)獲取第一個(gè)網(wǎng)絡(luò)的輸出,并生成整個(gè)環(huán)境的 3D 模型——實(shí)際上是對(duì) AI 看不到的對(duì)象和特征進(jìn)行預(yù)測(cè)。例如,如果一張桌子只有三條腿可見,上述 3D 模型將生成同樣大小、形狀及顏色的第四條腿。
Botvinick 表示,這些預(yù)測(cè)反過來又能讓系統(tǒng)比使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法更快地學(xué)習(xí)。「一個(gè)試圖預(yù)測(cè)事物的智能體會(huì)在每一個(gè)時(shí)間步上自動(dòng)得到反饋,因?yàn)樗梢钥吹阶约旱念A(yù)測(cè)結(jié)果如何。」因此,智能體可以不斷更新、優(yōu)化模型。更妙的是,這種學(xué)習(xí)是自監(jiān)督的:研究者不必標(biāo)記環(huán)境中任何事物,甚至也不用提供獎(jiǎng)勵(lì)或懲罰。
一種更徹底的方法是不要再讓網(wǎng)絡(luò)在每一個(gè)問題中都從頭開始學(xué)習(xí)?!赴装濉梗╞lank-slate)方法的確可以讓網(wǎng)絡(luò)自由地發(fā)現(xiàn)研究者從未想過的對(duì)象、動(dòng)作的表征方式,也有可能發(fā)現(xiàn)一些完全出人意料的玩游戲策略。但人類從來不會(huì)從 0 開始:無論如何,人類至少會(huì)利用從之前經(jīng)歷中學(xué)到的或在進(jìn)化過程中留在大腦中的先驗(yàn)知識(shí)。
例如,嬰兒似乎生來就有許多固有的「歸納偏置」,使他們能夠以驚人的速度吸收某些核心概念。到了 2 個(gè)月大的時(shí)候,他們就已經(jīng)開始掌握一些直觀的物理規(guī)律,包括物體存在的概念,這些物體傾向于沿著連續(xù)的路徑移動(dòng),當(dāng)它們接觸時(shí),不會(huì)互相穿過。這些嬰兒也開始擁有一些基礎(chǔ)的心理直覺,包括識(shí)別面孔的能力,以及認(rèn)識(shí)到世界上存在其他自主行動(dòng)的智能體。
擁有這種內(nèi)置的直覺偏置可能會(huì)幫助深層神經(jīng)網(wǎng)絡(luò)以同樣的速度快速學(xué)習(xí),因此該領(lǐng)域的許多研究人員優(yōu)先考慮這種思路。實(shí)際上,僅僅在過去的 1 到 2 年里,一種名為圖網(wǎng)絡(luò)的方法就在社區(qū)內(nèi)引起了不小的轟動(dòng),這是一種頗有前景的方法。Botvinick 表示,「這種深度學(xué)習(xí)系統(tǒng)擁有固有偏置,傾向于將事物表征為對(duì)象和關(guān)系。」例如,某些物體(如爪子、尾巴、胡須)可能都屬于一個(gè)稍大的對(duì)象(貓),它們之間的關(guān)系是「A 是 B 的一部分」。同樣地,「球 A 和方塊 B」之間的關(guān)系可能是「相鄰」,「地球」繞著「太陽」轉(zhuǎn)……通過大量其他示例——其中任何示例都可以表征為一個(gè)抽象圖,其中的節(jié)點(diǎn)對(duì)應(yīng)于對(duì)象,連接對(duì)應(yīng)于關(guān)系。
圖網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò),它將圖作為輸入(而不是原始像素或聲波),然后學(xué)會(huì)推理和預(yù)測(cè)對(duì)象及其關(guān)系如何隨時(shí)間演變。(某些應(yīng)用程序可能會(huì)使用獨(dú)立的標(biāo)準(zhǔn)圖像識(shí)別網(wǎng)絡(luò)來分析場(chǎng)景并預(yù)先挑選出對(duì)象。)
圖網(wǎng)絡(luò)方法已經(jīng)被證明在各種應(yīng)用程序上都可以快速學(xué)習(xí)和達(dá)到人類級(jí)別的性能,包括復(fù)雜的視頻游戲。如果它繼續(xù)像研究人員所希望的那樣發(fā)展,它就可以通過提高訓(xùn)練速度和效率來緩解深度學(xué)習(xí)的巨量數(shù)據(jù)需求問題,并且可以使網(wǎng)絡(luò)更不容易受到對(duì)抗性攻擊。因?yàn)橄到y(tǒng)表征的是物體,而不是像素的模式,這使得其不會(huì)被少量噪音或無關(guān)的雜物輕易誤導(dǎo)。
Botvinick 坦言,任何領(lǐng)域都不會(huì)輕易或快速地取得根本性進(jìn)展。但即便如此,他還是堅(jiān)信:「這些挑戰(zhàn)是真實(shí)存在的,但并非死路一條?!?/p>