《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動態(tài) > 深度學(xué)習(xí)芯片大戰(zhàn)升溫 英偉達(dá) 英特爾各出奇招

深度學(xué)習(xí)芯片大戰(zhàn)升溫 英偉達(dá) 英特爾各出奇招

2016-08-19

  英特爾IDF近日召開,深度學(xué)習(xí)成為一大重點。不料,英偉達(dá)掐準(zhǔn)時間,在IDF舉行同時發(fā)表官方博文,指出英特爾在宣傳其最新 Xeon Phi 處理器加速深度學(xué)習(xí)性能時使用過時的數(shù)據(jù),有意誤導(dǎo)消費(fèi)者,沒有給GPU性能一個公正的評價。兩大芯片巨頭針對深度學(xué)習(xí),矛盾凸顯。華為傳感器應(yīng)用實驗室首席科學(xué)家丁險峰認(rèn)為,加速深度學(xué)習(xí)的能力是當(dāng)前考察服務(wù)器綜合性能的關(guān)鍵指標(biāo)和最大賣點,長遠(yuǎn)看英特爾更具優(yōu)勢。

  近日,英特爾開發(fā)者大會 IDF 在舊金山召開。昨天的會議 Intel Analytics Summit 幾乎成了機(jī)器學(xué)習(xí)的主場。開幕主旨演講中,英特爾執(zhí)行副總裁 Diane Bryant 表示,如今數(shù)據(jù)正在成為制勝關(guān)鍵,“機(jī)器到機(jī)器之間交換的數(shù)據(jù)不斷增多,我們必須應(yīng)對擁有更多數(shù)據(jù)的未來”。

  英特爾集團(tuán)副總裁、數(shù)據(jù)中心解決方案團(tuán)隊總經(jīng)理 Jason Waxman 介紹了 Penn Medicine 使用英特爾的 TAP 開放分析平臺,提升病患的就醫(yī)體驗。頂級公司如今都在使用機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中挖掘洞見。大會邀請嘉賓、埃森哲技術(shù)實驗室的首席數(shù)據(jù)科學(xué)家 Saghamitra Deb 在演講中介紹了如何使用人工智能閱讀并批注文件,特別是醫(yī)療文件。

  在小型討論會上,英特爾 Fellow、主持人 Pradeep Dubey 回答記者提問時表示,機(jī)器學(xué)習(xí)的未來就是要多多關(guān)注深度學(xué)習(xí),因為深度學(xué)習(xí)已經(jīng)展現(xiàn)出強(qiáng)大的實力。《主算法》作者、華盛頓大學(xué)教授 Pedro Domingos 也應(yīng)邀發(fā)表講話,介紹了深度學(xué)習(xí)的歷史。

  近來,英特爾一直在持續(xù)推進(jìn)數(shù)據(jù)中心和云計算方面的業(yè)務(wù),當(dāng)然也有物聯(lián)網(wǎng)相關(guān)的芯片業(yè)務(wù)。但是,表現(xiàn)卻沒有如預(yù)期般順利。為了獲得更多訂單,英特爾向死敵低頭,與競爭對手 ARM 達(dá)成代工協(xié)議,英特爾未來將生產(chǎn) ARM 設(shè)計的芯片,也將向第三方開放自家的芯片工廠,包括其10納米生產(chǎn)線,制造基于ARM的智能機(jī)芯片。

  可以看出,英特爾在 IDF 上正在全面擁抱深度學(xué)習(xí)。就在上周,英特爾宣布收購深度學(xué)習(xí)初創(chuàng)公司 Nervana Systems,也開始在深度學(xué)習(xí)專用芯片上布局。

  然而,就在這個時候,英偉達(dá)在官方博客發(fā)表了一篇分析文章,直言英特爾在深度學(xué)習(xí)基準(zhǔn)上面弄不清事實。

  英偉達(dá)博文指出,“英特爾也開始做深度學(xué)習(xí)是好事,深度學(xué)習(xí)是人工智能時代最重要的計算革命,任何人都無法忽視深度學(xué)習(xí)。但是,他們應(yīng)該把事實先弄清?!?/p>

  有外媒評論,“或許英偉達(dá)在英特爾 IDF 舉辦同時點下‘發(fā)布’按鈕并非巧合”,這家媒體還表示自己會拿著爆米花坐等后續(xù)。

  這場論戰(zhàn)究竟是怎么回事呢?

  英特爾的挑釁

  先把英特爾和英偉達(dá)的爭論放一邊,要說訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),GPU 是時下主流的選擇,相信這一點應(yīng)該不會有多少異議。

  GPU 支持并行運(yùn)算,而且計算精度沒有 CPU 那么低——至于 GPU 將來是否會被其他處理器取代,暫時跟本文討論的議題沒有關(guān)系。

  過去 5 年來,英偉達(dá)一直在深度學(xué)習(xí)領(lǐng)域默默投入,用 CEO 黃仁勛的話說,“把一切都賭在了深度學(xué)習(xí)上面”。

  英偉達(dá)不僅針對深度學(xué)習(xí)優(yōu)化 GPU,還開發(fā)了軟件,讓用戶更加方便快速地訓(xùn)練神經(jīng)網(wǎng)絡(luò)。而這一點,也是大多數(shù)人用機(jī)器學(xué)習(xí)便首先選擇英偉達(dá)而不是 AMD 的原因。

  英偉達(dá)方面曾表示,與 Kepler 時代相比,Pascal 的配套軟件讓機(jī)器學(xué)習(xí)的性能提升了整整一個數(shù)量級。

  不過,GPU 并非競技場中唯一的玩家。在針對深度學(xué)習(xí)進(jìn)行優(yōu)化的硬件方面,有專注用 FPGA 加速深度學(xué)習(xí)的,也有像谷歌、CEVA 和 Movidius 那樣,自己開發(fā)專用深度學(xué)習(xí)芯片的——至于英特爾,就選擇把 Xeon Phi 里的十幾個小核心(Bay Trail-T),由 Pentium 架構(gòu)升級為 Atom 架構(gòu),從而與 GPU 相競爭(同時保持 Xeon Phi 的品牌不變)。

  英特爾最近發(fā)表了關(guān)于 Xeon Phi 基準(zhǔn)的一些數(shù)據(jù),號稱其“Many Integrated Core”(MIC)Phi 架構(gòu)加速深度學(xué)習(xí)性能比 GPU 高出很多。

  下面是英特爾的報告:

2001.jpg

2002.jpg

  來源:英特爾報告 Fuel Your Insight

  在發(fā)表的報告中,英特爾稱:

  4 個 Knights Landing Xeon Phi 芯片比“4 個 GPU”快 2.3 倍;

  Xeon Phi 芯片在多個結(jié)點上最高可擴(kuò)展率為 38%,而且最多可達(dá) 128 個結(jié)點(英特爾還指出,這對于 GPU 來說是不可能的);

  用 128 個 Xeon Phi 處理器構(gòu)成的系統(tǒng)比單個的 Xeon Phi 速度快 50 倍(言下之意是說 Xeon Phi 處理器擴(kuò)展性很好)。

  此外,這份報告中還指出,使用英特爾優(yōu)化過的版本運(yùn)行 Caffe 深度學(xué)習(xí)框架時,Xeon Phi 芯片比標(biāo)準(zhǔn) Caffe 硬件要快 30 倍。

  英偉達(dá)的回?fù)?/strong>

  英偉達(dá)的論點主要在基準(zhǔn)上面。英偉達(dá)在官方博客發(fā)表的文章中表示,英特爾報告中使用的數(shù)據(jù)來自過去的基準(zhǔn),在與 GPU 進(jìn)行比較時,容易產(chǎn)生誤導(dǎo),因為英偉達(dá)的 GPU 從 28 納米平面工藝升級為 16 納米 FinFET 之后,在性能上有很大提高。不僅如此,英偉達(dá)在過去幾年也針對不同的軟件框架做了 GPU 的優(yōu)化。

  英偉達(dá)表示,英特爾使用的是18個月以前的 Caffe AlexNet 數(shù)據(jù),比較的是 4 個 Maxwell GPU 和 4 個 Xeon Phi 處理器。如果英特爾使用更新一些的數(shù)據(jù),就會發(fā)現(xiàn) 4 個 Maxwell GPU 比 4 個 Xeon Phi 處理器的速度快 30%。

  不僅如此,英偉達(dá)還進(jìn)一步指出,根據(jù)新的數(shù)據(jù),由 4 個 Pascal 架構(gòu)組成的 TITAN X GPU,速度是 4 個 Xeon Phi 處理器的 5 倍多。

2003.jpg

  英偉達(dá)的回應(yīng):根據(jù)新的數(shù)據(jù),由 4 個 Pascal 架構(gòu)組成的 TITAN X GPU,速度是 4 個 Xeon Phi 處理器的 5 倍多。

  針對擴(kuò)展性,英偉達(dá)指出,英特爾在比較時,給自己用的是最新的數(shù)據(jù)、最新的技術(shù),而拿來比較的卻是 4 年前推出的 Titan X 系統(tǒng)。

  英偉達(dá)援引百度的數(shù)據(jù),稱語音訓(xùn)練在 128 Maxwell GPU 上擴(kuò)展性能更好,幾乎呈直線提升。

2004.jpg

  此外,英偉達(dá)在博客文章中還指出,對于深度學(xué)習(xí)訓(xùn)練,使用強(qiáng)的結(jié)點,哪怕數(shù)量少一些,也比使用很多個弱的結(jié)點效果要好。英偉達(dá)補(bǔ)充,其最新的 DGX-1 超級計算機(jī)的速度比 21 個 Xeon Phi 處理器都要快,是 4 個 Xeon Phi 處理器的 5.3 倍。

  考慮到 OpenAI 上周才成為首家使用 DGX-1 系統(tǒng)的用戶,英特爾在發(fā)布報告時沒有使用 DGX-1 的數(shù)據(jù)也情有可原。但話說回來,Maxwell 系統(tǒng)確實挺老的了,英特爾使用最新的 Xeon Phi 處理器與隔了幾代的 Maxwell 相比,其用意何在,細(xì)思……不得其解。

  深度學(xué)習(xí)芯片大戰(zhàn)升溫

2005.jpg

  英偉達(dá)博客文章下讀者評論:“究竟信誰的好?”

  目前根據(jù)各種數(shù)據(jù)看,英特爾的 Xeon Phi 處理器在性能和軟件支持方面,應(yīng)該比 GPU 稍微弱一點。

  不過,若真像英偉達(dá)自己所說的那樣,一臺 DGX-1 只比 21 個英特爾 Xeon Phi 快一點點,至少從價格上看,英特爾的 Xeon Phi 處理器顯然更具有優(yōu)勢。

2006.jpg

  DGX-1 目前售價 12.9 萬美元一臺,而 Xeon Phi 處理器費(fèi)用大約在 2500 到 6300 美元之間。即使用上了 21 臺英特爾 Xeon Phi,按 6000 美元/臺計算,整體價格也比買一臺 DGX-1 更有競爭力。

  英特爾前協(xié)處理器首席架構(gòu)師、現(xiàn)華為傳感器應(yīng)用實驗室首席科學(xué)家丁險峰認(rèn)為,由于效益可觀,加速深度學(xué)習(xí)的能力是當(dāng)前考察服務(wù)器綜合性能的關(guān)鍵性指標(biāo)和最大賣點。

  “目前,在深度學(xué)習(xí)加速這個單項上英偉達(dá)有很大的領(lǐng)先,在生態(tài)系統(tǒng)的布局已經(jīng)有很多年,很多學(xué)者、數(shù)據(jù)科學(xué)家也非常熟悉英偉達(dá)的產(chǎn)品。英特爾能不能搶的一席之地,主要看英特爾能否搭建相同的開發(fā)環(huán)境?!倍‰U峰在接受新智元采訪時表示。

  “英特爾和英偉達(dá)兩家公司未來會在分布式計算架構(gòu),內(nèi)存與Cache之間吞吐能力,加速器與主CPU之間的鏈接這幾個方向不斷挖掘前進(jìn),在數(shù)據(jù)面、控制面、可擴(kuò)展能力、編譯器,多種算法的API等多方面展開軍備競賽。”

  不過,丁險峰指出,“從長遠(yuǎn)看,英特爾的芯片架構(gòu)設(shè)計與制程肯定領(lǐng)先,另外數(shù)據(jù)連接也可以實現(xiàn)在芯片內(nèi)部,不需要板級連接,大大加強(qiáng)CPU與MIC的數(shù)據(jù)鏈接能力。”


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。