以布里斯托市A38路旁的噴泉池為起始點,你需要花用不到20分鐘時間,就可以騎自行車“沖”出這座英國西南部城市的CBD,進入幾乎只有成排英式平房、灌木叢和河道的郊外。
沒錯,即便布里斯托(Bristol)是名副其實的英國西南部中心,但從城市規(guī)模來看,但它依然被很多中國留學(xué)生起了一個非常清新脫俗的名字——“布村”。( “除了倫敦,其他都是村兒”。)
然而,如今接觸芯片產(chǎn)業(yè)后,我們才恍然發(fā)現(xiàn),這座古老的英國小城,竟然藏著英國最強大的半導(dǎo)體產(chǎn)業(yè)集群之一。
圖為英偉達(dá)在布里斯托的研發(fā)中心。2011年收購英國半導(dǎo)體公司 Icera 后,英偉達(dá)便在布里斯托扎根,并在這里投資上千萬英鎊建立新工廠和實驗室
1972年,硅谷大名鼎鼎的仙童半導(dǎo)體(英特爾、AMD的創(chuàng)始人們都是從這家公司出來的)為進入歐洲市場做出了一個重要決策——在布里斯托設(shè)立一個辦事處。自此,便打開了這座英國西部小城面向半導(dǎo)體產(chǎn)業(yè)的全球視野。
而6年后,誕生于布里斯托,并在80年代占據(jù)全球SRAM市場60%份額的微處理器公司Inmos,接受了卡拉漢政府與撒切爾政府高達(dá)2億英鎊的投資,才終于創(chuàng)造出以布里斯托核心的英國半導(dǎo)體基礎(chǔ)設(shè)施與生態(tài)系統(tǒng),召集了大批像XMOS 半導(dǎo)體創(chuàng)始人、英國著名計算機科學(xué)家David May這樣的半導(dǎo)體超級精英。
“其實布里斯托一直都是英國的IT重鎮(zhèn)。它與周圍的斯溫頓、格洛斯特組成一個三角地帶,被稱為歐洲的‘硅谷’。半導(dǎo)體公司如果在歐洲設(shè)立研發(fā)中心,布里斯托通常是首選。譬如英偉達(dá)、惠普、博通、高通等世界級巨頭都在布里斯托設(shè)有辦事處?!?/p>
一位了解歐洲半導(dǎo)體產(chǎn)業(yè)的從業(yè)者告訴虎嗅,很多人因為ARM對劍橋印象深刻,但從歷史來看,實際上布里斯托才是英國的芯片設(shè)計中心。
“華為也在布里斯托也有研發(fā)中心?!?/p>
就像上世紀(jì)50年代,8位天才“叛徒”離開仙童半導(dǎo)體創(chuàng)立英特爾、AMD、泰瑞達(dá)等公司,才成就了如今的硅谷一樣,布里斯托才華橫溢的工程師們也不甘于停留在“過去”——在摩爾定律失效爭議進入高潮,人工智能、計算結(jié)構(gòu)發(fā)生異變的“臨界點”上,沒有人不渴望能夠成為那個改變時代的領(lǐng)導(dǎo)者。
一位名叫 Simon Knowles 的工程師從劍橋大學(xué)畢業(yè)后,在1989年第一次踏上布里斯托的土地,接受了存儲器企業(yè)Inmos的一份芯片設(shè)計工作。
在此后近20年里,從Inmos內(nèi)部一個專用處理器團隊的領(lǐng)導(dǎo)者,再到兩家半導(dǎo)體企業(yè)Element 14與 Icera的創(chuàng)始人之一,Knowles幾乎見證了摩爾定律達(dá)到巔峰和走向衰落的全過程。而幸運的是,Knowles參與創(chuàng)立的這兩家總估值超過10億美元的公司,分別在2000年和2011年被博通和英偉達(dá)收購。
沒有任何意外,這位天才半導(dǎo)體設(shè)計師與連續(xù)創(chuàng)業(yè)者,又繼續(xù)在2016年另起爐灶,與另一位天才半導(dǎo)體工程師Nigel Toon創(chuàng)立了一家新的半導(dǎo)體設(shè)計公司,主動迎擊人工智能市場需求觸發(fā)的芯片架構(gòu)創(chuàng)新機會。
沒錯,這家公司就是剛在2020年12月29日宣布完成2.22億融資(這筆融資也讓公司的資產(chǎn)負(fù)債表上擁有4.4億美元現(xiàn)金),估值已高達(dá)27.7億美元,被外媒稱為英偉達(dá)最大對手之一的人工智能加速處理器設(shè)計商Graphcore。
需要注意,它也是目前西方AI芯片領(lǐng)域唯一的獨角獸。
圖片為Graphcore的IPU處理器
西方私募與風(fēng)投對待半導(dǎo)體這種項目一直非常謹(jǐn)慎,因為它們資金高度密集且無法預(yù)估前期投資回報。正如Knowles在一次采訪時承認(rèn):“與能夠小規(guī)模嘗試、不成功再換一個坑的軟件產(chǎn)業(yè)相比,如果一枚芯片設(shè)計失敗,除了花光所有錢,公司幾乎無路可選?!?/p>
因此,直到2018年以后,隨著人工智能商業(yè)化的可能性被持續(xù)鼓吹和放大,投資者們才確定可以從“人工智能大規(guī)模運算驅(qū)動芯片結(jié)構(gòu)變革”的趨勢中看到回報前景。
于是,在2017年獲得了超過8000萬美元投資后的Graphcore,又接連在2018年與2020年分別獲得2億與1.5億美元風(fēng)險投資。
需要注意的是,除了博世、三星從A輪就開始參投,紅杉資本是Graphcore的C輪領(lǐng)投方,而微軟與寶馬i風(fēng)投則成為其D輪融資領(lǐng)投方;
而E輪融資的主要參與者,則是非產(chǎn)業(yè)基金——加拿大安大略省教師養(yǎng)老金計劃委員會領(lǐng)投,富達(dá)國際與施羅德集團也加入了這輪融資。
你可以從投資方看出,Graphcore的產(chǎn)業(yè)投資方基本分為三個產(chǎn)業(yè)方向——云計算(數(shù)據(jù)中心)、移動設(shè)備(手機)與汽車(自動駕駛)。沒錯,這是三個最早被人工智能技術(shù)“入侵”的產(chǎn)業(yè)。
圖片來自Crunchbase
工業(yè)界們似乎越來越達(dá)成這樣一個共識,未來需要有一家像ARM主導(dǎo)移動設(shè)備時代一樣的底層創(chuàng)新企業(yè),除了有希望賣出上億塊芯片的同時,也能推動人工智能與各個產(chǎn)業(yè)的深度整合,最終觸達(dá)到上百億普通消費者。
從產(chǎn)品的角度來看,Graphcore 在2020年拿出了相對引人注目的作品——推出第二代 IPU-M2000芯片,該芯片搭載在一個名為IPU Machine platform的計算平臺上。另外,其芯片配套的軟件棧工具Poplar也有同步更新。
“教計算機如何學(xué)習(xí),與教計算機做數(shù)學(xué)題,是完全不同的兩件事。提升一臺機器的‘理解力’,底層驅(qū)動注重的是效率,而不是速度?!?Graphcore CEO Nigel Toon 將新一代AI芯片的開發(fā)工作視為一個“千載難逢的機會”。
“任何公司能做到這一點,都能分享對未來幾十年人工智能技術(shù)創(chuàng)新和商業(yè)化的決定權(quán)。”
切中英偉達(dá)的“軟肋”
沒有一家AI芯片設(shè)計公司不想干掉市值高達(dá)3394億美元的英偉達(dá)?;蛘哒f,沒有一家公司不想做出比GPU更好的人工智能加速器產(chǎn)品。
因此,近5年來,大大小小的芯片設(shè)計公司都傾向于在PPT上,用英偉達(dá)的T4、V100,甚至是近期發(fā)布的“最強產(chǎn)品”A100與自己的企業(yè)級芯片產(chǎn)品做比較,證明自己的處理器擁有更好的運算效率。
Graphcore也沒有例外。
他們同樣認(rèn)為,由于上一代的微處理器——譬如中央處理器(CPU)和圖形處理單元(GPU)并不是為人工智能相關(guān)工作而專門設(shè)計,工業(yè)界需要一種全新的芯片架構(gòu),來迎合全新的數(shù)據(jù)處理方式。
當(dāng)然,這樣的說法并不是利益相關(guān)者們的單純臆想。
我們無法忽視來自學(xué)術(shù)界與產(chǎn)業(yè)界對GPU越來越多的雜音——隨著人工智能算法訓(xùn)練與推理模型多樣性的迅速增加,在誕生之初并不是為了人工智能而設(shè)計的GPU暴露出了自己“不擅長”的領(lǐng)域。
“如果你做的只是深度學(xué)習(xí)里的卷積神經(jīng)網(wǎng)絡(luò)(CNN),那么GPU是一個很好的解決方案,但網(wǎng)絡(luò)已經(jīng)越‘長’越復(fù)雜,GPU已經(jīng)難以滿足AI開發(fā)者們越來越大的胃口?!?/p>
一位算法工程師向虎嗅指出,GPU之所以快,是因為它天生就能并行處理任務(wù)(GPU的釋義和特點可以看《干掉英偉達(dá)》這篇文章)。如果數(shù)據(jù)存在“順序”,無法并行,那么還得用回CPU。
“很多時候既然硬件是固定的,我們會想辦法從軟件層,把存在順序的數(shù)據(jù),變?yōu)椴⑿械臄?shù)據(jù)。譬如語言模型中,文字是連續(xù)的,靠一種‘導(dǎo)師驅(qū)動’的訓(xùn)練模式就可以轉(zhuǎn)換為并行訓(xùn)練。
但肯定不是所有模型都可以這么做,譬如深度學(xué)習(xí)中的‘強化學(xué)習(xí)’不太適合用GPU,而且也很難找到并行方式?!?/p>
由此來看,學(xué)術(shù)圈不少人甚至喊出“GPU阻礙了人工智能的創(chuàng)新”這句話,并不是聳人聽聞。
深度學(xué)習(xí)的4個發(fā)展脈絡(luò),制圖:宇多田
“深度學(xué)習(xí)”,這個近10年來機器學(xué)習(xí)領(lǐng)域發(fā)展最快的一個分支,其神經(jīng)網(wǎng)絡(luò)模型發(fā)展之快、類型之廣,只靠GPU這塊硬件的“一己之力”是很難追上其復(fù)雜運算腳步的。
Graphcore 回復(fù)了虎嗅一份更為詳盡的答案。他們認(rèn)為,對于深度學(xué)習(xí)中除去CNNs的另外幾個分支,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與強化學(xué)習(xí)(RL),讓很多開發(fā)者的研究領(lǐng)域受到了限制。
譬如,用強化學(xué)習(xí)做出了阿爾法狗的英國AI公司 Deepmind,很早就因為GPU的計算局限問題而關(guān)注Graphcore,其創(chuàng)始人Demis Hassabis最后成為了Graphcore的投資人。
“很多企業(yè)產(chǎn)品部門的開發(fā)者把需求(特別是延時和吞吐量的數(shù)據(jù)指標(biāo))交給算力平臺部門時,他們通常會拒絕說 ‘GPU 目前不夠支持這么低的延時和這么高的吞吐量’。
主要原因就在于,GPU的架構(gòu)更適用于‘靜態(tài)圖像分類與識別’等擁有高稠密數(shù)據(jù)量的計算機視覺(CV)任務(wù),但對數(shù)據(jù)稀疏的模型訓(xùn)練并不是最好的選擇。
而跟文字相關(guān)的“自然語言處理”(NLP)等領(lǐng)域的算法,一方面數(shù)據(jù)沒那么多(稀疏),另一方面,這類算法在訓(xùn)練過程中需要多次傳遞數(shù)據(jù),并迅速給出階段性反饋,以便為下一步訓(xùn)練提供一個便于理解上下文的語境?!?/p>
換句話說,這是一個數(shù)據(jù)在持續(xù)流動和循環(huán)的訓(xùn)練過程。
就像淘寶界面的“猜你喜歡”,在第一天在“學(xué)習(xí)”了你的瀏覽和訂單數(shù)據(jù)后,把不太多的經(jīng)驗反饋給算法進行修正,第二天、第三天以及未來的每一天不斷學(xué)習(xí)不斷反饋,才會變得愈加了解你的產(chǎn)品喜好。
而這類任務(wù),譬如谷歌為更好優(yōu)化用戶搜索在2018年提出的BERT模型,便是優(yōu)秀且影響深遠(yuǎn)的RNN模型之一,也是Graphcore提到的“GPU非常不擅長的一類任務(wù)”。為了解決這類問題,仍然有很多公司在使用大量CPU進行訓(xùn)練。
CPU與GPU架構(gòu)對比
從根本上看,這其實是由當(dāng)下芯片運行系統(tǒng)最大的瓶頸之一決定的——如何在一塊處理器上,將數(shù)據(jù)盡可能快地從內(nèi)存模塊傳送到邏輯操作單元,且不費那么多功耗。在進入數(shù)據(jù)爆炸時代后,解鎖這個瓶頸便愈加迫在眉睫。
舉個例子,2018年10月 BERT-Large 的模型體量還是3.3 億個參數(shù),到2019年,GPT2的模型體量已達(dá)到15.5億(兩個均屬于自然語言處理模型)??梢哉f,數(shù)據(jù)量對從系統(tǒng)底層硬件到上層SaaS服務(wù)的影響已經(jīng)不可小覷。
而一塊傳統(tǒng)的GPU或CPU,當(dāng)然可以執(zhí)行連續(xù)多個操作,但它需要“先訪問寄存器或共享內(nèi)存,再讀取和存儲中間計算結(jié)果”。這就像先去室外地窖拿儲存的食材,然后再回到室內(nèi)廚房進行處理,來來回回,無疑會影響系統(tǒng)的整體效率和功耗。
因此,很多半導(dǎo)體新興企業(yè)的產(chǎn)品架構(gòu)核心思路,便是讓“內(nèi)存更接近處理任務(wù),以加快系統(tǒng)的速度”——近存算一體。這個概念其實并不新鮮,但能做出真東西的公司少之又少。
而Graphcore到底做到了什么?簡單來說,便是“改變了內(nèi)存在處理器上的部署方式”。
在一塊差不多像小號蘇打餅一樣大的IPU處理器上,除了集成有1216塊被稱為IPU-Core的處理單元,其與GPU和CPU最大的不同,便是大規(guī)模部署了“片上存儲器”。
簡言之,便是將SRAM(靜態(tài)隨機存儲器)分散集成在運算單元旁,拋棄了外接存儲,最大程度減少數(shù)據(jù)的搬移量。而這種方法的目標(biāo),就是想通過減少負(fù)載和存儲數(shù)量來突破內(nèi)存帶寬瓶頸,大大減少數(shù)據(jù)傳輸延遲,同時降低功耗。
IPU架構(gòu)
也正因為如此,在一些特定算法的訓(xùn)練任務(wù)中,由于所有模型都可以保存在處理器中,經(jīng)過測試,IPU的速度的確可以達(dá)到GPU的20~30倍。
舉個例子,在計算機視覺領(lǐng)域,除了大名鼎鼎且應(yīng)用廣泛的殘差網(wǎng)絡(luò)模型ResNets(與GPU很契合),基于分組卷積與深度卷積方向的圖像分類模型 EfficientNet 和 ResNeXt 模型也是逐漸興起的研究領(lǐng)域。
而“分組卷積”有個特點,就是數(shù)據(jù)不夠稠密。
因此,微軟機器學(xué)習(xí)科學(xué)家 Sujeeth 用Graphcore的IPU做了一次基于EfficientNet模型的圖像分類訓(xùn)練。最后的結(jié)果是,IPU用30分鐘的時間完成了一次新冠肺炎胸部X光樣片的圖像分析,而這個工作量,通常需要傳統(tǒng) GPU 用5個小時來完成。
重重考驗
但是,就像GPU的大熱與計算機視覺領(lǐng)域的主流算法模型ResNets的廣泛應(yīng)用的相輔相成,決定Graphcore成功還是失敗的關(guān)鍵,也在于“特定”。
就像Graphcore銷售副總裁兼中國區(qū)總經(jīng)理在接受虎嗅采訪時指出:
一方面,他們的產(chǎn)品的確更適用于訓(xùn)練市場中數(shù)據(jù)較為稀疏,精度要求較高的深度學(xué)習(xí)任務(wù),譬如與自然語言處理相關(guān)的推薦任務(wù),這也是阿里云與百度愿意與之達(dá)成合作的重要原因之一。
另一方面,計算機視覺領(lǐng)域剛流行起來的新模型,是IPU在努力“攻克”的方向,而之前很多模型,還是GPU最應(yīng)手。
此外,GPU創(chuàng)造的強大軟件生態(tài)Cuda,比硬件更不容易被破壞(關(guān)于Cuda,也在《干掉英偉達(dá)》這篇文章里有詳細(xì)解釋),而這層圍墻恰恰是開辟產(chǎn)業(yè)影響力的關(guān)鍵。
毫無疑問,Graphocore在這方面根基尚淺,因此除了常規(guī)操作,他們選擇基于編程軟件Poplar,做一些相對大膽的嘗試。
譬如,他們在自己的開發(fā)者社區(qū)開放計算圖庫PopLibs的源代碼,讓開發(fā)者去嘗試描述一種新的卷積網(wǎng)絡(luò)層。這一層對標(biāo)的是GPU的cnDNN和cuBLAS,而英偉達(dá)并沒有開放它們。
為了向開源社區(qū)致敬,Poplar v1.4增加了對 PyTorch 的全面支持。這一聰明的舉動將有助于簡化人們的接受程度,有助于吸引更廣泛的社區(qū)參與。
此外,為了能夠盡快打開市場,Graphcore并沒有走“打比賽來提升產(chǎn)業(yè)知名度”的實驗室銷售路線,而是將IPU直接推入了產(chǎn)業(yè)界,去逐個敲開服務(wù)器集成商、云廠商等客戶的大門。
“AI這個行業(yè)本身,不管是算法的迭代還是模型的變化,其實都是非??斓摹S性茝S商曾抱怨,說某家處理器跑某一種模型性能非常好,但模型稍微改一改,跑出來的性能就大跌眼鏡?!?/p>
Graphcore中國區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭認(rèn)為,盡管市場在大量鼓吹A(chǔ)SIC(專用芯片)和FPGA(可編程芯片),但通用性,仍然是產(chǎn)業(yè)界考慮芯片的首要條件,尤其是互聯(lián)網(wǎng)廠商。
“互聯(lián)網(wǎng)廠商應(yīng)用非常多,每個應(yīng)用都會有不同的適用模型。如果一個處理器只能適配一個模型,那客戶是無法引入這個處理器做大量推廣的。”
而“編程環(huán)境是否友好”,也就是英偉達(dá)Cuda貢獻的那種力量,是第二個關(guān)鍵的采購指標(biāo)。
“現(xiàn)在客戶一般都是用AI框架來設(shè)計模型,比如谷歌的TensorFlow、Facebook的PyTorch等等。他們會考慮這枚處理器的上層SDK是否能夠輕松接入到框架里,以及編程模型是否好用。
客戶可能會有一些算子級別的優(yōu)化,需要做一些自定義算子。自定義算子開發(fā)起來是否方便其實也是取決于編程友好性如何?!?/p>
如果說客戶還在乎什么,當(dāng)然是產(chǎn)品性能。
無論是云廠商、服務(wù)器廠商還是通過云服務(wù)購買算力的開發(fā)者,都會測試多種模型跑在芯片上的性能表現(xiàn)。
“如果他們主要看重NLP(自然語言處理)模型,那在性能測試時就可能重點測一下BERT。如果他們看重計算機視覺,那在性能測試時就可能重點測試一些計算機視覺的經(jīng)典模型。
總的來說,客戶需要從以上幾個維度綜合評估下來,才能決定到底要不要使用這個處理器,或者說,必須確定這個處理器能給他們帶來多大的收益。”
而在這個方面,無論是英偉達(dá),還是Graphcore的IPU或其他廠商的專用芯片,都是有自己最擅長的模型,只能說是“各有千秋”,絕對不能以偏概全。
贏家通吃,將不復(fù)存在
從Graphcore給出的產(chǎn)品基準(zhǔn)測試指標(biāo)與宣傳重點來看,這家公司正在拿著錘子找釘子,努力擴展IPU擅長的應(yīng)用場景,以便讓IPU架構(gòu)能夠發(fā)揮最大效率。
換句話說,Graphcore或許會分英偉達(dá)的一杯羹,但永遠(yuǎn)不可能取代它們。
正如“特定”這個詞的含義所限,人工智能訓(xùn)練與推理芯片市場,因模型的多樣性與復(fù)雜性,一定能夠容納包括英偉達(dá)、Graphcore在內(nèi)更多的芯片企業(yè)。
Nigel Toon也承認(rèn),人工智能計算將孕育出三個芯片垂直市場:
相對簡單的小型專用加速器市場,譬如手機、攝像頭以及其他智能設(shè)備里的某個IP核;
再譬如適用于數(shù)據(jù)中心某幾個功能的ASIC芯片,具體問題具體解決,超大規(guī)模數(shù)據(jù)中心運營商(云廠商)將在這個市場中有大量機會;
最后一個是可編程的AI處理器,也就是GPU所在的市場。這個市場一定會有更多企業(yè),同時未來更多的創(chuàng)新也一定會產(chǎn)生更大的份額。
CPU會持續(xù)存在,GPU也會持續(xù)創(chuàng)新,他們在某些AI計算任務(wù)上都是不可或缺的,或者說是最好的選擇。但是摩爾定律失效、AI計算和數(shù)據(jù)爆炸等趨勢催生出的新市場,一定是巨大且多樣性的。正是因為多樣性,所以才給了更多專用芯片公司新的機會。
因此,像Cerebras、Groq、 SambaNova Systems 、Mythic AI 這樣的芯片創(chuàng)業(yè)公司才得以籌集到數(shù)億美元資金,英特爾也在今年投資了革新AI芯片架構(gòu)的Untether AI。已經(jīng)有不少人給出這樣的預(yù)測——新一代的‘蘋果’與‘英特爾’可能會在人工智能計算市場中誕生。
在軟件還沒有跟上硬件步伐的當(dāng)下,這意味著激烈的競爭才剛剛開始。