国产乱子伦一级在线观看,国产风韵犹存在线视精品

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來源：半導(dǎo)體行業(yè)觀察

關(guān)鍵詞： 人工智能 ASIC 云端

　　當(dāng)下，人工智能（AI）產(chǎn)業(yè)正處于從起步向成熟階段的過渡時期，相關(guān)應(yīng)用也處于探索階段，因此，各種專用的AI芯片層出不窮。然而，如果要針對某一個應(yīng)用場景做ASIC化的產(chǎn)品，可能做出來的瞬間就已經(jīng)落后了。另外，因應(yīng)用所處環(huán)節(jié)不同，ASIC化并非完全不可行，例如在端側(cè)的一個固定應(yīng)用場景中，場景很明確就可通過ASIC的方式來做產(chǎn)品，但是，越靠近云端，應(yīng)用變化越大，在這樣的變化下很難部署某一ASIC化的處理器。無論是云端還是云邊端，或者企業(yè)應(yīng)用市場，都對算力要求非常高，因此，通用AI處理器就成為了更加合理的選擇。

　　與專用AI芯片相比，通用型AI處理器的應(yīng)用范圍更加廣闊，更代表著AI硬件的發(fā)展方向，在這一領(lǐng)域，當(dāng)下最為流行的便是GPU和CPU了。

　　隨著應(yīng)用需求向更廣和更深層面拓展，GPU在AI領(lǐng)域的應(yīng)用遇到了越來越明顯的瓶頸，首先，GPU和CPU屬于傳統(tǒng)處理器，并不是為AI計算專門設(shè)計的，在AI發(fā)展的初期階段，它們能夠勝任，但在接下來的第二、第三……發(fā)展階段，在更為復(fù)雜的模型和技術(shù)面前，其計算架構(gòu)局限性開始逐步體現(xiàn)出來。

　　正是在這種背景下，IPU出現(xiàn)了。該處理器是由英國初創(chuàng)企業(yè)Graphcore發(fā)明的，旨在支持機(jī)器智能的新計算需求。其第一代IPU中的1200多個處理器內(nèi)核可以分別處理完全獨立的任務(wù)，并且能夠彼此通信以支持完整的多指令多數(shù)據(jù)并行操作。而這些正是下一代機(jī)器智能的基本要求。

　　日前在中關(guān)村論壇上，Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon和Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤受邀出席，并分別在中關(guān)村論壇云上論壇和全球科技青年論壇上發(fā)表演講。

　　據(jù)Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon介紹，IPU在訓(xùn)練和部署中都可以支持具備高效稀疏計算的大型模型。IPU不僅可以推動創(chuàng)新開發(fā)，還可以有效部署這些新模型，更高效的計算可以降低系統(tǒng)總成本。用戶可以在訓(xùn)練和推理中使用相同的IPU硬件，并且可以靈活更改每個CPU所調(diào)用的IPU數(shù)量。

　　總體來看，Graphcore的業(yè)務(wù)主要分為三部分：一，專為AI從零設(shè)計的IPU處理器；二 Poplar SDK和開發(fā)工具；三，IPU平臺，例如IPU-Machine、可以通過浪潮和戴爾購買的IPU服務(wù)器，以及可大規(guī)模橫向擴(kuò)展的IPU-Pod64。

　　今年7月，Graphcore發(fā)布了第二代 IPU（Mk2 IPU），Mk2 IPU是一個基于臺積電7nm制程技術(shù)的AI處理器，在823平方毫米的芯片上集成了594億個晶體管。Mk2 IPU擁有250 TFLOPS的AI算力，以及900MB的處理器內(nèi)存儲容量。這樣一個處理器里具有1472個獨立的處理器核心以及將近9000個獨立的并行處理器線程，相對于第一代IPU（Mk1 IPU），系統(tǒng)級性能提高了8倍以上。

　　該公司還新推出了IPU-Machine: M2000（IPU-M2000），這是一款纖巧的數(shù)據(jù)中心刀片，能夠提供1 PFLOP的AI計算能力，并通過專用IPU內(nèi)置了AI橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu)IPU-Fabric。無論您是僅需要一臺IPU-M2000的初創(chuàng)公司，還是希望將數(shù)千臺IPU-M2000連接在一起的云公司，IPU-Machine：M2000（IPU-M2000）都可以滿足您的需求。

　　技術(shù)亮點

　　與競品相比，IPU在存儲、通用性、軟件支持和生態(tài)方面有諸多亮點。

　　在存儲方面，GPU在進(jìn)行AI計算時，使用的是HBM，它能夠?qū)崿F(xiàn)每秒1.6 TB的帶寬和40 GB的容量。Graphcore則提出了一個創(chuàng)新的概念：IPU Exchange Memory。據(jù)Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤（Jason Lu）介紹：IPU Exchange Memory包含了片上存儲和流存儲，一個IPU-Machine：M2000的系統(tǒng)能提供每秒180 TB的帶寬以及450 GB的容量，與GPU相比，在帶寬和容量上都有非常大的提升。

　　具體來看，Graphcore提出的IPU Exchange Memory由兩種存儲構(gòu)成，一種是處理器內(nèi)存儲（In-Processor Memory），就是片上存儲，另外一種是流存儲（Streaming Memory）。Mk2 IPU集成了900 MB的片上存儲，而主流CPU的每個芯片上存儲可能只有幾十M。

　　與DDR或HBM相比，充足的片上存儲能夠提供50~100倍的帶寬提升和時延的降低，Mk2 IPU中，存儲和計算之間的距離大大縮短了。900 MB的片上存儲和流存儲使得大規(guī)模擴(kuò)展成為可能。

　　CPU系統(tǒng)里面有一個MMU（內(nèi)存管理單元，Memory Management Unit），其中有一個很重要的單位是TLB，TLB和外存之間能夠進(jìn)行Pageant操作。因為Mk2 IPU擁有900 MB的片上存儲，可以通過遠(yuǎn)端的流存儲來擴(kuò)展幾百GB的存儲空間。而不需要像GPU或CPU那樣，32 MB或者64 MB的片上存儲需要不停地跟DDR，HBM做數(shù)據(jù)交互。

　　通過Mk2 IPU內(nèi)片上存儲和流存儲技術(shù)相結(jié)合，IPU-M2000可獲得總共450 GB的容量，片上存儲帶寬也獲得了較大的提升。

　　對于與競品的對比，盧濤提到了一個IPU的亮點，他表示：“NVIDIA聲稱他們構(gòu)建的新數(shù)據(jù)格式TF32可以提高FP32算力。我們則認(rèn)為，最標(biāo)準(zhǔn)的事情是最開放的，例如FP32是IEEE規(guī)定的數(shù)據(jù)格式，開發(fā)者能夠基于FP32用GPU、IPU、CPU來進(jìn)行計算，但如果開發(fā)者使用NVIDIA的TF32數(shù)據(jù)格式，就把自己困住了?！?/p>

　　在性價比比方面，IPU也有優(yōu)勢。盧濤用EfficientNet-B4的訓(xùn)練做了一個對比，如希望達(dá)到EfficientNet-B4在8個IPU-M2000的訓(xùn)練吞吐量，需要投資16個DGX A100，也就是超過300萬美金的費用，外加相應(yīng)的電費等其它花費。也就是說，如果使用DGX A100，為獲取8個IPU-M2000的EfficientNet-B4計算性能，需要投入10倍以上的花費。

　　在軟件和開發(fā)環(huán)境支持方面，Graphcore從零設(shè)計了以計算圖（Graph）為核心的Poplar SDK，能夠方便用戶不論是使用單個IPU-M2000，還是單張PCIe卡，乃至1000個，甚至上萬個IPU，都能獲得完全一致的用戶體驗。Poplar SDK向上對接TensorFlow、PyTorch、ONNX、PaddlePaddle等行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架。

　　今年7月，Graphcore開放了PopLibs源代碼。盧濤表示：“Graphcore精神的一部分是將權(quán)力交給AI開發(fā)人員，方便他們自己進(jìn)行修改、優(yōu)化、創(chuàng)新。同時，Graphcore也在大力發(fā)展IPU開發(fā)者社區(qū)，其中很重要的一部分是已經(jīng)在中國上線的IPU開發(fā)者云，可提供浪潮IPU服務(wù)器NF5568M5、戴爾IPU服務(wù)器DSS8440、以及IPU-Pod64等不同機(jī)型。IPU開發(fā)者云目前已經(jīng)開放申請使用了。

　　開發(fā)者能夠非常便捷地獲取IPU，主要有兩種方式：一是通過云，目前可以通過微軟Azure和金山云來獲取IPU；二是通過戴爾或浪潮的IPU服務(wù)器構(gòu)建用戶自己的私有云或自己預(yù)置的計算資源。

　　談到開放性和創(chuàng)新性，盧濤表示：”Graphcore的IPU平臺，無論IPU-M2000還是IPU-Pod64，在設(shè)計過程中都考慮到了芯片、系統(tǒng)、集群及軟硬件結(jié)合的問題。Graphcore致力于賦能AI創(chuàng)新者進(jìn)行新突破，如果僅僅沿著GPU的路線走，只能通過有限的方式來進(jìn)行一些嘗試。所以，為創(chuàng)新者、開發(fā)者、研究者提供支持是Graphcore研發(fā)的重要動力。如果是由于硬件桎梏導(dǎo)致您的優(yōu)秀作品無法達(dá)到理想性能，Graphcore歡迎開發(fā)者在IPU上進(jìn)行探索和嘗試?！?/p>

　　客戶

　　談到IPU的應(yīng)用，盧濤表示，目前，IPU在超大規(guī)模數(shù)據(jù)中心與互聯(lián)網(wǎng)、高校及研究機(jī)構(gòu)、醫(yī)療及生命科學(xué)、金融、汽車這五大領(lǐng)域中發(fā)展較快，也受到了很多關(guān)注。到目前為止，Graphcore共發(fā)貨IPU處理器超過一萬顆，服務(wù)全球100多家不同機(jī)構(gòu)。

　　”我們的一位早期客戶，Carmot Capital在使用我們的產(chǎn)品訓(xùn)練其金融市場預(yù)測模型時，性能提升了26倍。“盧濤說，”微軟在使用IPU幫助診斷肺炎和COVID-19的胸部X光影像時，速度提高了10倍，且準(zhǔn)確性大大超過GPU。“

　　微軟是Graphcore的早期的合作者，他們不僅將IPU技術(shù)用于其內(nèi)部AI工作負(fù)載，還在2019年11月將IPU提供給其Azure云計算平臺的用戶使用，從而加速了AI創(chuàng)新者的工作。

　　另外，微軟、寶馬、博世、戴爾和三星等許多了解創(chuàng)新與應(yīng)用之間關(guān)系的公司，都對Graphcore進(jìn)行了投資。

　　中國業(yè)務(wù)

　　對于中國市場，Nigel Toon直言：”新技術(shù)的最直接需求就在中國。中國在人工智能領(lǐng)域處于領(lǐng)先地位，中國認(rèn)識到，人工智能創(chuàng)新與長遠(yuǎn)經(jīng)濟(jì)發(fā)展密不可分。目前，Graphcore的技術(shù)已經(jīng)開始為一些非常成功的中國公司提供支持，并將助力推動中國那些發(fā)展最快、最具創(chuàng)新性的AI初創(chuàng)企業(yè)。不久以后，我們將能夠更多地談?wù)撘恍〨raphcore在中國的合作伙伴，并分享我們合作的細(xì)節(jié)?！?/p>

　　Graphcore的中文名定為”擬未“，該公司正在壯大中國團(tuán)隊，以便為客戶提供完全本地化的響應(yīng)和支持。Nigel Toon表示：”我們的目標(biāo)是將擬未打造成一家重要的中國公司?！?/p>

　　中國高校合作方面，在IPU開發(fā)者云上線之后，Graphcore大概收到了三、四十所高校的頂尖AI實驗室和研究機(jī)構(gòu)的使用申請。Graphcore已開始與一部分機(jī)構(gòu)探討合作，有一些機(jī)構(gòu)已在IPU開發(fā)者云上開展工作。

　　應(yīng)用場景方面，盧濤認(rèn)為中國市場在自然語言處理相關(guān)的應(yīng)用方面發(fā)展非常迅速，且潛力巨大，對訓(xùn)練的算力要求也非常高，這對IPU而言非常重要。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來源：半導(dǎo)體行業(yè)觀察

相關(guān)內(nèi)容