作為 AI 大神,賈揚清讓人印象深刻的可能是他寫的AI框架Caffe ,那已經(jīng)是六年前的事了。經(jīng)過多年的沉淀,成為「阿里新人」的他,對人工智能又有何看法?最近,賈揚清在阿里內(nèi)部分享了他的思考與洞察,歡迎共同探討、交流。
賈揚清,浙江上虞人,畢業(yè)于清華大學自動化系,在加州大學 Berkeley 分校獲得計算機博士學位,目前擔任阿里計算平臺掌門人。
最近幾年深度學習的流行,大家一般認為是從2012年 AlexNet 在圖像識別領(lǐng)域的成功作為一個里程碑。AlexNet 提升了整個業(yè)界對機器學習的接受程度:以前很多機器學習算法都處在“差不多能做 demo ”的程度,但是 AlexNet 的效果跨過了很多應用的門檻,造成了應用領(lǐng)域井噴式的興趣。
當然,任何事情都不是一蹴而就的,在2012年以前,很多成功的因素已經(jīng)開始逐漸顯現(xiàn):2009年的 ImageNet 數(shù)據(jù)庫奠定了大量標注數(shù)據(jù)的基礎(chǔ);2010年開始,IDSIA 的 Dan Ciresan 首次用 GPGPU 進行物體識別;2011年,北京的 ICDAR 大會上,神經(jīng)網(wǎng)絡(luò)在中文離線識別上大放異彩。就算是 AlexNet 中用到的ReLU層,早在2001年神經(jīng)科學的文獻中就有提及過。所以,一定程度上說,神經(jīng)網(wǎng)絡(luò)的成功也是一個水到渠成的過程。2012年以后的事情,大家可以讀到很多,這里就不再贅述。
成功與局限
在看待神經(jīng)網(wǎng)絡(luò)成功的同時,我們也要進一步深挖其背后的理論背景和工程背景,為什么神經(jīng)網(wǎng)絡(luò)和深度學習在幾十年前失敗,但是現(xiàn)在卻成功了?它成功的原因是什么?而它的局限又在什么地方?我們這里只能片面地說幾個重點:
成功的原因,一點是大數(shù)據(jù),一點是高性能計算。
局限的原因,一點是結(jié)構(gòu)化的理解,一點是小數(shù)據(jù)上的有效學習算法。
大量的數(shù)據(jù),比如說移動互聯(lián)網(wǎng)的興起,以及 AWS 這樣低成本獲得標注數(shù)據(jù)的平臺,使機器學習算法得以打破數(shù)據(jù)的限制;由于 GPGPU 等高性能運算的興起,又使得我們可以在可以控制的時間內(nèi)(以天為單位甚至更短)進行 exaflop 級別的計算,從而使得訓練復雜網(wǎng)絡(luò)變得可能。要注意的是,高性能計算并不僅限于 GPU ,在 CPU 上的大量向量化計算,分布式計算中的 MPI 抽象,這些都和60年代就開始興起的 HPC 領(lǐng)域的研究成果密不可分。
但是,我們也要看到深度學習的局限性。今天,很多深度學習的算法還是在感知這個層面上形成了突破,可以從語音、圖像,這些非結(jié)構(gòu)化的數(shù)據(jù)中進行識別的工作。在面對更加結(jié)構(gòu)化的問題的時候,簡單地套用深度學習算法可能并不能達到很好的效果。有的同學可能會問為什么 AlphaGo 和 Starcraft 這樣的算法可以成功, 一方面,深度學習解決了感知的問題,另一方面,我們也要看到還有很多傳統(tǒng)的非深度學習算法,比如說 Q-learning 和其他增強學習的算法,一起支撐起了整個系統(tǒng)。而且,在數(shù)據(jù)量非常小的時候,深度學習的復雜網(wǎng)絡(luò)往往無法取得很好的效果,但是很多領(lǐng)域,特別是類似醫(yī)療這樣的領(lǐng)域,數(shù)據(jù)是非常難獲得的,這可能是接下去的一個很有意義的科研方向。
接下去,深度學習或者更廣泛地說,AI 這個方向會怎么走?我個人的感覺,雖然大家前幾年一直關(guān)注AI框架,但是近年來框架的同質(zhì)化說明了它不再是一個需要花大精力解決的問題,TensorFlow 這樣的框架在工業(yè)界的廣泛應用,以及各種框架利用 Python 在建模領(lǐng)域的優(yōu)秀表現(xiàn),已經(jīng)可以幫助我們解決很多以前需要自己編程實現(xiàn)的問題,因此,作為 AI 工程師,我們應該跳出框架的桎梏,往更廣泛的領(lǐng)域?qū)ふ覂r值。
挑戰(zhàn)
往上走,我們會遇到產(chǎn)品和科研的很多新挑戰(zhàn),比如說:
傳統(tǒng)的深度學習應用,比如說語音、圖像等等,應該如何輸出產(chǎn)品和價值?比如說,計算機視覺現(xiàn)在基本還是停留在安防這個層面上,如何深入到醫(yī)療、傳統(tǒng)工業(yè),甚至社會關(guān)愛(如何幫助盲人看見這個世界?)這些領(lǐng)域,是不僅需要技術(shù),還需要產(chǎn)品的思考的。
除了語音和圖像之外,如何解決更多問題。在阿里和很多互聯(lián)網(wǎng)企業(yè)中有一個“沉默的大多數(shù)”的應用,就是推薦系統(tǒng):它常常占據(jù)了超過80%甚至90%的機器學習算力,如何將深度學習和傳統(tǒng)推薦系統(tǒng)進一步整合,如何尋找新的模型,如何對搜索和推薦的效果建模,這些可能沒有像語音和圖像那么為人所知,卻是公司不可缺少的技能。
即使在科研方向,我們的挑戰(zhàn)也剛剛開始:Berkeley 的教授 Jitendra Malik 曾經(jīng)說,“我們以前是手工調(diào)算法,現(xiàn)在是手工調(diào)網(wǎng)絡(luò)架構(gòu),如果囿于這種模式,那人工智能無法進步”。如何走出手工調(diào)參的老路,用智能提升智能,是個非常有意思的問題。最開始的 AutoML 系統(tǒng)依然停留在用大量算力暴力搜索模型結(jié)構(gòu)的層面上,但是現(xiàn)在各種更高效的 AutoML 技術(shù)開始產(chǎn)生,這是值得關(guān)注的。
機會
往下走,我們會發(fā)現(xiàn)傳統(tǒng)的系統(tǒng)、體系結(jié)構(gòu)等知識,計算機軟件工程的實踐,會給 AI 帶來很多新的機會,比如說:
傳統(tǒng)的 AI 框架都是手寫高性能代碼,但是模型如此多變,新的硬件平臺層出不窮,我們應該如何進一步提升軟件效率?我們已經(jīng)看到有通過編譯器技術(shù)和傳統(tǒng)的人工智能搜索方法來反過來優(yōu)化AI框架,比如 Google 的 XLA 和華盛頓大學的 TVM,這些項目雖然處于早期,但是已經(jīng)展現(xiàn)出它們的潛力。
平臺如何提升整合能力。在開源領(lǐng)域,大家的做法是一個人,一臺機器,幾個 GPU ,訓練比較學院派的模型。但是在大規(guī)模應用中,我們的數(shù)據(jù)量非常大,模型非常復雜,集群還會出現(xiàn)各種調(diào)度的挑戰(zhàn)(能不能一下子就要求256個 GPU ?計算資源是否可以彈性調(diào)度?),這些對于我們自己的機器學習平臺,以及云上向客戶提供的服務(wù),都提出了非常多的挑戰(zhàn)。
如何進行軟硬件的協(xié)同設(shè)計。在深度學習的計算模式開始逐漸固化的時候(比如說 CNN ),新硬件和特殊硬件(比如 ASIC )的優(yōu)勢就開始體現(xiàn)出來了。如何實現(xiàn)軟硬件的協(xié)同設(shè)計,防止“硬件出來了,不知道怎么寫程序”或者“模型已經(jīng)變了,硬件一出來就過時了”這樣的問題,會是將來幾年中很大的方向。
人工智能是一個日新月異的領(lǐng)域,我們有一個笑話說,2012年的科研成果,現(xiàn)在說起來都已經(jīng)是上古時代的故事了??焖俚牡鷰淼拇罅繖C遇和挑戰(zhàn)是非常令人興奮的,無論是有經(jīng)驗的研究者還是新學 AI 的工程師,在當今云化,智能化的年代,如果能快速學習并刷新算法和工程的各種挑戰(zhàn),就可以通過算法創(chuàng)新引領(lǐng)并且賦能社會各個領(lǐng)域。這方面,人工智能領(lǐng)域開源開放的各種代碼,科研文章和平臺給大家創(chuàng)造了比以前更容易的入門門檻,機遇都掌握在我們自己手中。