近年來AI技術飛速發(fā)展,被看作是改變人類未來生活方式的主要技術之一。與此同時,AI熱潮正在推動AI芯片市場快速增長。根據Gartner估計,AI芯片在2020年預計達到146億的市場規(guī)模。超過百億美元的AI芯片市場一方面驅動著傳統(tǒng)芯片公司的技術轉型,一方面又催生出一大批初創(chuàng)公司加入。
這一波AI潮有多猛,僅看國內市場就可初見端倪。根據6月28日發(fā)布的《北京人工智能產業(yè)發(fā)展白皮書(2019年)》數據顯示,截至2019年4月,我國人工智能企業(yè)4084家,僅北京市人工智能相關企業(yè)數量就達1084家。
縱觀全球市場, AI芯片公司中如今英偉達的位居榜首,英特爾、IBM等公司實力也相當雄厚,而成立于2016年的一家以色列AI芯片公司Habana Labs聲稱要做未來AI芯片領域的領導者,究竟有何“底牌”?
“Habana的團隊成員主要是來自于處理器、DSP、系統(tǒng)設計以及網絡設計等領域的知名公司,擁有豐富的軟硬件設計研發(fā)經驗。Habana在AI領域已經發(fā)布了若干款產品,主要分推理和訓練兩個不同的產品線。去年我們率先發(fā)布了Goya,主要是用于推理和預測;最近發(fā)布的Gaudi主要用于訓練。”Habana Labs首席商務官Eitan Medina介紹。
Habana Labs首席商務官Eitan Medina
AI推理處理器Goya,發(fā)布九個月性能依舊領先
2018年9月,Habana推出首個AI處理器Goya,是一款基于PCIE的雙槽位處理器,用于傳統(tǒng)服務器,提供推理和預測。
Goya相對于CPU和GPU有絕對的性能優(yōu)勢。根據當時在ResNet-50模型上的測試顯示,Goya的圖片處理性能比英偉達的GPU Tesla T4高3倍,比普通CPU高10倍之多。能耗比上,Goya比GPU有兩倍的優(yōu)勢。在實時處理上,Goya延遲也比GPU要低很多,幾乎可以做到實時處理圖片。
ResNet-50上的推理性能測試
美國著名的處理器評論雜志Microprocessor Report給出了Goya和目前市場上已有的最主要的推理和訓練產品的比較,圖上顯示Goya在性能上比其他產品有3倍的優(yōu)勢。
Microprocessor Report報道Goya性能優(yōu)勢
Eitan Medina介紹,到目前為止經過了9個月時間,Goya這款產品仍然是在市場上性能最領先的產品。
從數據中心的角度看,Goya可以提供更高的性能、更低的延遲以及更好的能耗比。英偉達的GPU 8片V100卡性能上等同于169片傳統(tǒng)的CPU,而Habana 3片Goya卡就可以達到8片V100的效果。
數據中心角度的性能對比
為什么Goya能夠實現這么高的性能呢?“主要是在于架構上,Habana的工程師從最早、最基礎的層面就開始對芯片的架構進行了設計。” Eitan Medina介紹道,“GPU和CPU是面對通用的計算,或者是常用的圖形處理,從架構上來講并不適合于做人工智能這方面的計算工作。但是Goya是完全針對于人工智能的需求來設計的?!?/p>
Goya擁有獨特的架構Tensor Processor Core,也就是張量處理核心,里面有一個矩陣單元GEMM,通過這種方式可以提供更好的性價比。因為這種架構可以讓Goya支持不同神經網絡的結構,因此也可以處理不同類型的數據。
Goya可以實現Batch Size等于1,這意味著一次可以處理一張單一圖片,在一張圖片之下,都可以實現到一秒鐘處理7000多張的性能,因此在一些高性能的領域,包括自動駕駛領域,Goya具有很大的優(yōu)勢。
此外,Habana 還提供了一套Synapse AI軟件開發(fā)環(huán)境,這款軟件包括一個豐富的內核庫,其工具鏈是開放的,供客戶添加專有內核。這款軟件可與 TensorFlow 和 ONNX 等頗受歡迎的深度學習神經網絡框架無縫交互。以往在CPU或GPU上完成的工作可以快速地、準確地部署到新的平臺當中。Synapse AI直接支持各種各樣的框架結構,客戶在框架上實現的工作可以直接簡單地部署在Goya處理器中。
為方便客戶做一些定制化的工作,Habana還提供很多工具,支持客戶去做定制化的函數庫。
Eitan Medina表示,Habana通常不會公開客戶信息,不過Facebook已經通過其官網公開了與Habana的合作。Facebook開發(fā)了一套機器學習編譯環(huán)境Glow,Facebook在其官網明確表示 ,Goya是他們現在第一款支持Glow這個編譯環(huán)境的產品。Habana和Facebook配合開源了Goya的產品。
AI訓練處理器Gaudi,提供無線擴展可能
欲做AI芯片領域的領導者,除了推理的產品之外,訓練的產品當然也不能少。近期,Habana推出了第一款人工智能訓練平臺Gaudi,也是目前業(yè)界性能最高的一款訓練產品。Gaudi是一款完全可編程且可定制的處理器,搭載第二代Tensor處理核并集成開發(fā)工具、庫和編譯器,共同提供全面而靈活的解決方案。
Gaudi在ResNet-50上可以提供每秒1650張圖片的處理能力,同時他還能在很小的Batch Size情況下實現很好的性能。下面是Gaudi和英偉達最主要的訓練產品V100的性能對比,可見相同數量的Gaudi計算能力大概是V100的4倍。
ResNet-50上訓練性能對比
Eitan Medina介紹,Gaudi單卡可以處理1600多張圖片且功耗更低,V100處理600多張圖片的功耗達到了300瓦,而Gaudi處理1600多張圖片的功耗只有150瓦左右。
Gaudi芯片中集成了RDMA over Converged Ethernet (RoCE v2) 功能,擁有10個100 GbE以太網端口,每個以太網端口都支持RoCE v2,因此可以用標準的以太網環(huán)境進行擴展。相比目前市場上其他的訓練和擴展環(huán)境都是用一些專有的網絡協議,Gaudi用的是通用的以太網協議,在速度和端口數方面可提供幾乎無限的可擴展性。
Gaudi處理器配備32GB HBM-2內存,目前提供兩種規(guī)格:(1)HL-200 - PCIe卡,設有8個100 Gb以太網端口;(2)HL-205 - 基于OCP-OAM標準的子卡,設有10個100Gb以太網端口或20個50 Gb以太網端口。
在AI訓練環(huán)境中,客戶可能要選擇不同種類的CPU來實現不同AI訓練的效果。對此,Habana推出了一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個HL-205子卡、PCIe外部主機連接器和24個用于連接現有以太網交換機的100Gbps以太網端口,讓客戶能夠通過在19英寸標準機柜中部署多個HLS-1系統(tǒng)實現性能擴展。HLS-1中沒有服務器,客戶可以靈活地選擇自己所希望的CPU服務器,只要通過PCIE線即可與HLS-1系統(tǒng)實現對接。
這里,每個芯片上有10個100Gbps的以太網口,其中7個網口用于與其他的7顆芯片相互的通訊,3個網口對外連接。這樣可以保證在系統(tǒng)內部所有的8個芯片之間無堵塞的數據傳輸。對外可以通過不同的形式,在機架內可以一層層疊加,通過一個簡單的以太網的交換機就可以把所有的設備連接到一起;機架與機架之間也通過彼此之間的以太網交換機的互聯構成一個更大的規(guī)模。
據介紹,Gaudi系統(tǒng)相比英偉達DGX-1的優(yōu)勢在于:(1)DGX-1采用專有的協議NVLink來實現芯片之間的互聯,只能實現兩個片之間的互聯,不同的片之間要借一個跳的過程,而Gaudi系統(tǒng)中,任何一個芯片之間都可以直接實現數據的交換;(2)DGX-1的擴展依賴于4個100G的以太網端口,而Gaudi系統(tǒng)對外支持24個100G的端口,在擴展的性能和帶寬上比DGX-1高很多;(3)DGX-1在系統(tǒng)管理和數據通訊時,在PCIE的一個總線上復用,傳輸性能上會有一定的損失,而在Gaudi上數據傳輸和管理總線上沒有任何的復用,所以在總線效率上也是最高的。
雖然是初創(chuàng)企業(yè),但Habana出手就是“王炸”,產品組合涵蓋AI推理到AI訓練,將處理器的能力、網絡計算能力、系統(tǒng)設計能力、軟件平臺能力集于一體,提供一個非常靈活和完整的系統(tǒng)。據悉,Habana在繼去年11月獲得英特爾領投的7500萬美元的B輪投資后,融資達到1.2億美元,這一資金也將繼續(xù)支持針對推理和訓練解決方案的產品發(fā)展藍圖。