阿里第一顆芯片誕生!
剛剛,云棲大會(huì)現(xiàn)場(chǎng),阿里巴巴集團(tuán)CTO、達(dá)摩院院長(zhǎng)張建鋒向全場(chǎng)展示了含光800——阿里第一款AI芯片。
為了這款芯片,阿里一年前放下狠話,但誰(shuí)也沒(méi)想到一年后即亮相:不僅完成流片,還已在阿里云上正式上線。
這也是阿里平頭哥成立以來(lái)首款硬件產(chǎn)品,是阿里20年發(fā)展史上首款自主研發(fā)、流片量產(chǎn)的芯片。
在芯片行業(yè)時(shí)代變革轉(zhuǎn)關(guān)之際,阿里好風(fēng)憑借力、快速取得突破,掌握下一階段擂臺(tái)主動(dòng)權(quán),意義和價(jià)值,或許將遠(yuǎn)超芯片本身。
不過(guò)發(fā)布現(xiàn)場(chǎng),張建鋒更想強(qiáng)調(diào)的是敬畏之心。
他說(shuō):“在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬(wàn)里長(zhǎng)征第一步,我們還有很長(zhǎng)的路要走。”
含光800究竟如何?
含光之名,依然沿襲平頭哥傳統(tǒng),取自神兵寶劍。
“含光”本是上古三大神劍之一,含而不露,光而不耀,正如含光芯片作用方式——無(wú)形卻強(qiáng)勁的算力。
具體來(lái)說(shuō),這是一款云端AI芯片,主打推理,重點(diǎn)應(yīng)用于視覺(jué)場(chǎng)景。
性能方面,打破現(xiàn)有AI芯片記錄,性能及能效比全球第一。
芯片制程12nm,晶體管數(shù)量高達(dá)170億個(gè)。
在業(yè)界標(biāo)準(zhǔn)的ResNet-50測(cè)試中,含光800推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍。
能效比500 IPS/W,是第二名的3.3倍。
以數(shù)據(jù)橫向?qū)Ρ?,含?00展現(xiàn)性能,是英偉達(dá)最新T415倍,是應(yīng)用最廣的英偉達(dá)P4的46倍——超過(guò)去年設(shè)計(jì)之初吹下的“?!?。
目前,含光800已經(jīng)率先在阿里內(nèi)部多個(gè)業(yè)務(wù)場(chǎng)景開(kāi)啟大規(guī)模應(yīng)用。
從視頻圖像識(shí)別、分類(lèi)、搜索,到城市大腦等,未來(lái)還可應(yīng)用于醫(yī)療影像、自動(dòng)駕駛等領(lǐng)域。
大會(huì)現(xiàn)場(chǎng),張建鋒展示了這款芯片的強(qiáng)大性能。
每天新增10億商品圖片的拍立淘商品庫(kù),使用含光800識(shí)別效率可提升12倍,時(shí)間從傳統(tǒng)通用GPU的1小時(shí)縮減至5分鐘。
還有城市大腦。在城市大腦中實(shí)時(shí)處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時(shí)為300ms,使用含光800僅需4顆,延時(shí)降至150ms。
阿里方面稱(chēng),含光800會(huì)首先在阿里內(nèi)部場(chǎng)景業(yè)務(wù)服役,同時(shí)含光800的AI云服務(wù)也正式上線,通過(guò)阿里云對(duì)外提供AI算力,但不會(huì)直接以芯片的形式對(duì)外售賣(mài)。
此前,阿里平頭哥連戰(zhàn)連捷,過(guò)去兩個(gè)月已經(jīng)發(fā)布了無(wú)劍SoC平臺(tái)和玄鐵處理器IP,“讓天下沒(méi)有難造的芯片”,幫助企業(yè)降低芯片設(shè)計(jì)門(mén)檻。
現(xiàn)在,作為首款硬件,也是最硬核產(chǎn)品,含光800依然承載平頭哥之志,希望通過(guò)阿里云AI云服務(wù),讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算。
而且也意味著阿里平頭哥成立一年來(lái),走過(guò)了軟件架構(gòu)(處理器IP、SoC平臺(tái))到硬件流片的完整流程。
這是阿里造芯,標(biāo)志性的“交作業(yè)”時(shí)刻。
阿里造芯這一年
阿里布局AI芯片,最早曝光于2018年4月。
其后9月云棲大會(huì),阿里宣布成立平頭哥,并且先將“狠話”放下,正在打造一款NPU,架構(gòu)設(shè)計(jì)上,性能成果就要比業(yè)內(nèi)最好的AI處理器強(qiáng)大40倍。
此言一出,語(yǔ)驚四座。
然而一年之后的現(xiàn)在——成績(jī)單時(shí)刻——阿里平頭哥確實(shí)沒(méi)有食言。含光800,性能46倍于P4,甚至比最新一代英偉達(dá)T4,也有15倍領(lǐng)先。
雖然過(guò)程并非完全順風(fēng)順?biāo)?,但過(guò)去一年,“含光”團(tuán)隊(duì)不僅完成了從無(wú)到有的跨越,更是超越了所有人的預(yù)期。
整個(gè)過(guò)程中,含光800團(tuán)隊(duì)在軟硬件設(shè)計(jì)上都做了大量工作,例如做架構(gòu)創(chuàng)新,軟件編譯器、框架、工具鏈等,后期還針對(duì)INT8數(shù)據(jù)類(lèi)型進(jìn)行了大量?jī)?yōu)化。
含光800芯片負(fù)責(zé)人驕旸透露,這款芯片采用自研架構(gòu),針對(duì)深度學(xué)習(xí)中使用的大量權(quán)重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎(chǔ)上,通過(guò)獨(dú)特設(shè)計(jì)的數(shù)據(jù)訪存與流水線處理技術(shù),大大減低了I/O需求和數(shù)據(jù)的搬移。
芯片同時(shí)深度優(yōu)化了卷積、矩陣乘、向量計(jì)算和各種激活函數(shù),通過(guò)高有效的硬件資源調(diào)度和全并行的數(shù)據(jù)流處理,把AI運(yùn)算的性能和能效雙雙推向極致。
另外,還集成了達(dá)摩院算法。針對(duì)CNN及視覺(jué)類(lèi)算法深度優(yōu)化計(jì)算、存儲(chǔ)密度,可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。
更難能可貴的是,平頭哥團(tuán)隊(duì)攻克了一系列挑戰(zhàn)。
例如如何兼顧性能、良率、功耗等。平頭哥在軟硬件上充分考慮了這些問(wèn)題,用最短的時(shí)間完成了芯片的設(shè)計(jì)、流片整個(gè)過(guò)程,7個(gè)月完成前端設(shè)計(jì),之后僅了3個(gè)月就成功流片。
驕旸感慨,從傳統(tǒng)造芯角度來(lái)看,幾乎是一個(gè)不可能完成的任務(wù)。但最終,阿里AI芯片團(tuán)隊(duì),還是創(chuàng)下紀(jì)錄,完成挑戰(zhàn),把不可能變?yōu)榭赡堋?/p>
這其中,自然有“007”們?nèi)杖找挂沟目喙?,不過(guò)也不容忽視乘風(fēng)起勢(shì)的大趨勢(shì)作用。
正所謂時(shí)來(lái)天地同協(xié)力,AI時(shí)代的專(zhuān)芯專(zhuān)用需求,阿里業(yè)務(wù)場(chǎng)景加持優(yōu)勢(shì),都是不得不說(shuō)的核心原因。
NPU:芯片的iPhone時(shí)刻
首先,AI時(shí)代的專(zhuān)芯專(zhuān)用需求。
顧名思義,NPU——神經(jīng)網(wǎng)絡(luò)處理器就是專(zhuān)門(mén)處理深度神經(jīng)網(wǎng)絡(luò)算法的芯片,而深度神經(jīng)網(wǎng)絡(luò)算法,核心是模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),并且最基本特征就是模仿大腦神經(jīng)元之間傳遞模式,并對(duì)輸入的信息進(jìn)行快速處理。
然而傳統(tǒng)通用處理器基于馮諾依曼結(jié)構(gòu),其存儲(chǔ)和運(yùn)算處理相互分離,如果處理深度神經(jīng)網(wǎng)絡(luò),需要大量讀寫(xiě)運(yùn)行操作,會(huì)受到帶寬限制,效率較低。
因此以含光800為代表的神經(jīng)網(wǎng)絡(luò)芯片,根據(jù)神經(jīng)網(wǎng)絡(luò)推理運(yùn)算特征,會(huì)設(shè)計(jì)特定的硬件神經(jīng)元、高速連接的存儲(chǔ)結(jié)構(gòu)以及專(zhuān)用指令集,對(duì)內(nèi)存和計(jì)算單元實(shí)現(xiàn)高效組織管理,實(shí)現(xiàn)單條指令完成多個(gè)操作,提高計(jì)算效率和內(nèi)存訪問(wèn)效率。
簡(jiǎn)而言之,專(zhuān)芯專(zhuān)用,效率更高、成本更低,相應(yīng)效益也會(huì)更好。
而且另一方面,因?yàn)樾枨竺鞔_,應(yīng)用場(chǎng)景有針對(duì)性,相比打造CPU和GPU,打造AI芯片的門(mén)檻要低很多。
于是整個(gè)行業(yè)都在來(lái)到一個(gè)“iPhone時(shí)刻”——軟件重新定義硬件,場(chǎng)景需求重新定義芯片。
然后過(guò)程中最好還能與應(yīng)用的業(yè)務(wù)場(chǎng)景結(jié)合,不斷驗(yàn)證、反饋,迭代,最后在達(dá)到目標(biāo)效果后流片、完成物理實(shí)現(xiàn)。
所以當(dāng)今之勢(shì),不僅AI造芯初創(chuàng)公司形成小高潮,而且互聯(lián)網(wǎng)巨頭也紛紛跨界變硬,啟動(dòng)自主AI芯片打造。
但想不想造、有沒(méi)有能力造,最后造的結(jié)果如何……完全是好幾個(gè)層次,完全是綜合實(shí)力的比拼。
這也就是為什么,阿里的業(yè)務(wù)場(chǎng)景優(yōu)勢(shì),會(huì)給平頭哥首款A(yù)I芯片帶來(lái)加速,也是阿里手握新時(shí)代芯片競(jìng)爭(zhēng)“天命”的原因。
何以一年造出AI芯?
實(shí)際上,雖然速度快、成果驚人,但阿里AI芯片并非完全“從0開(kāi)始”。
平頭哥創(chuàng)立一年,不過(guò)達(dá)摩院和阿里各大業(yè)務(wù),已在AI算法和軟件方面積累很長(zhǎng)時(shí)間。
含光800團(tuán)隊(duì)透露,基于阿里達(dá)摩院的算法以及阿里巴巴集團(tuán)硬件基礎(chǔ)設(shè)施多年技術(shù)沉淀,是含光800重構(gòu)芯片軟硬件技術(shù)棧的秘訣所在。
由于AI芯片的差異化設(shè)計(jì)主要體現(xiàn)在硬件架構(gòu)和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價(jià)值。
算法方面,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室過(guò)去兩年構(gòu)建了完整的算法體系,涵蓋語(yǔ)音智能、語(yǔ)言技術(shù)、機(jī)器視覺(jué)、決策智能等方向,并且取得多個(gè)世界領(lǐng)先水平的成果。
硬件方面,阿里巴巴此前已在服務(wù)器、FPGA以及存儲(chǔ)等領(lǐng)域擁有多年經(jīng)驗(yàn),平頭哥團(tuán)隊(duì)也在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲(chǔ)備。
基于這些能力,平頭哥完成了算法和硬件之間鴻溝的快速突破。在算法能力之上,自研芯片架構(gòu),并且設(shè)計(jì)了完整軟件棧。
而且如此設(shè)計(jì)理念,效果也立竿見(jiàn)影。例如功耗是AI芯片行業(yè)通病,但平頭哥自研架構(gòu)可大幅減少對(duì)內(nèi)存的訪問(wèn),在保證極致性能的情況下,能把芯片功耗降到最低水平。
另外,新入局也有新入局的優(yōu)勢(shì)。
帶隊(duì)打造含光800的驕旸感慨,半導(dǎo)體巨頭搞AI芯片,會(huì)有既有開(kāi)發(fā)者生態(tài)的包袱,但阿里平頭哥團(tuán)隊(duì)目標(biāo)專(zhuān)一,就是要實(shí)現(xiàn)最強(qiáng)算力,把硬件能力完全釋放,以構(gòu)建更大的生態(tài)。
過(guò)程中也無(wú)時(shí)不刻展現(xiàn)著阿里業(yè)務(wù)場(chǎng)景優(yōu)勢(shì)、以及組織凝聚力。
而平頭哥在架構(gòu)設(shè)計(jì)之初,業(yè)務(wù)場(chǎng)景同事就從需求和經(jīng)驗(yàn)層面給出了全面反饋,直接幫助厘清了需求。
然后算法加持和驗(yàn)證迭代階段,達(dá)摩院和業(yè)務(wù)場(chǎng)景也不厭其煩幫助測(cè)試、反饋,提交迭代,共同完成了流片前的最后保障。
所以雖然阿里造芯,專(zhuān)門(mén)成立了平頭哥半導(dǎo)體,但“含光800”從無(wú)到有,不光是一個(gè)人、一支團(tuán)隊(duì)在戰(zhàn)斗。
如果你問(wèn)阿里AI造芯的優(yōu)勢(shì)究竟有哪些?
除了有“生死看淡不服就干”的決心,真金白銀的投入,業(yè)內(nèi)全球資深人才的招攬……
平頭哥首席科學(xué)家、阿里巴巴高級(jí)研究員元尊,會(huì)將具體優(yōu)勢(shì)歸結(jié)為“ABCDE”。
A:Algorithm,算法,阿里本身的技術(shù)儲(chǔ)備和AI實(shí)力,在算法方面有世界領(lǐng)先的積累。
B:Big Data,大數(shù)據(jù),龐大的生態(tài)場(chǎng)景和覆蓋方方面面的業(yè)務(wù),在數(shù)據(jù)質(zhì)和量方面都有優(yōu)勢(shì)。
C:Computing,安全穩(wěn)定的計(jì)算力,阿里云的市場(chǎng)龍頭和領(lǐng)先地位,就已能說(shuō)明一切。
D:Domain knowledge,專(zhuān)業(yè)領(lǐng)域知識(shí),阿里本身并非只是一家一業(yè)的公司,而是幾十家公司的集合體、經(jīng)濟(jì)體,有各種各樣的全面應(yīng)用場(chǎng)景,對(duì)于各項(xiàng)最新技術(shù)和產(chǎn)品,有最天然的應(yīng)用基礎(chǔ)。
E:Ecosystem,生態(tài)。比起傳統(tǒng)芯片半導(dǎo)體公司,阿里生態(tài)涵蓋之廣泛、能力之多元和應(yīng)用前景,都是綜合實(shí)力的體現(xiàn)。
元尊認(rèn)為,擁有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。
而且這種“ABCDE”,一方面幫助造芯,另一方面還幫助用芯。
阿里AI芯片商業(yè)模式
在阿里內(nèi)部,因?yàn)樨S富的場(chǎng)景需求和業(yè)務(wù)體量,對(duì)高性能AI算力的需求已非一日。
電商場(chǎng)景中,拍立淘等新興購(gòu)物方式涉及的圖片搜索,需要AI芯片。
還有文娛場(chǎng)景,優(yōu)酷視頻修復(fù)、分析,也需要AI實(shí)現(xiàn)。
還有阿里正在大規(guī)模落地推進(jìn)的城市大腦等,如各類(lèi)車(chē)輛進(jìn)行檢測(cè)、跟蹤、特征提取、屬性檢測(cè)等,也都離不開(kāi)更強(qiáng)算力加持。
未來(lái),在醫(yī)療和自動(dòng)駕駛等重要垂直領(lǐng)域,更是空間廣闊、商業(yè)前景潛力十足。
單自主芯片自用,就已效益顯著。
更何況阿里云的地位和實(shí)力,也能讓AI算力通過(guò)阿里云賦能更多領(lǐng)域、更多企業(yè)。
所以此次含光800芯片選擇云服務(wù)的商業(yè)模式,也在情理之中。
阿里方面,則更樂(lè)于強(qiáng)調(diào)首款A(yù)I芯片的商業(yè)模式背后,一以貫之的普惠性——平頭哥創(chuàng)辦的核心理念。
今年早先推出的無(wú)劍SoC平臺(tái)和玄鐵處理器IP,都選擇了直接開(kāi)放授權(quán),幫助企業(yè)降低芯片設(shè)計(jì)門(mén)檻。
而含光800的普惠性,則體現(xiàn)在通過(guò)阿里云AI云服務(wù)的形式,讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算服務(wù)。
平頭哥下一步
在杭州云棲大會(huì)期間,也談到了阿里芯片的下一步。
隨著含光800發(fā)布,平頭哥已集齊了全棧芯片家族:
基礎(chǔ)單元處理器IP,C-Sky系列、玄鐵系列,為AIoT終端芯片提供高性價(jià)比IP;
一站式芯片設(shè)計(jì)平臺(tái),無(wú)劍SoC平臺(tái)集成CPU、GPU、NPU等,降低芯片設(shè)計(jì)門(mén)檻;
AI芯片,含光800通過(guò)AI云服務(wù)為AI場(chǎng)景提供高性能算力。
這三大產(chǎn)品系列,初步完成了平頭哥端云一體的芯片生態(tài)。
而接下來(lái),平頭哥產(chǎn)品形態(tài),重點(diǎn)將是云端AI訓(xùn)練芯片、端上推理芯片,以及用于阿里云神龍服務(wù)器的SoC專(zhuān)用芯片,以滿足更多場(chǎng)景的算力需求。
此外,平頭哥芯片初步軟硬件閉環(huán)實(shí)現(xiàn),阿里巴巴在芯片、云和AI三大業(yè)務(wù)之間的協(xié)同關(guān)系,也雛形初現(xiàn)。
從時(shí)代趨勢(shì)而言,三者原本就是三位一體。
AI算法逐漸集成到芯片,集成算法的專(zhuān)用芯片能為云服務(wù)提供了更強(qiáng)的性能,而云計(jì)算本身則加速了AI應(yīng)用的大規(guī)模落地。
過(guò)去十年,阿里集中推進(jìn)、展現(xiàn)成果的是AI和云計(jì)算。
現(xiàn)在,平頭哥補(bǔ)齊芯片一環(huán),阿里在計(jì)算版圖中的鐵三角形成。
不過(guò)中國(guó)科技互聯(lián)網(wǎng)巨頭,自然還有野心更大的宏偉藍(lán)圖——行業(yè)生態(tài)和開(kāi)發(fā)者生態(tài)。
此前,玄鐵910發(fā)布,阿里也明確解釋過(guò),平頭哥目標(biāo)就是打造AIoT時(shí)代的基礎(chǔ)設(shè)施平臺(tái),延續(xù)從阿里巴巴B2B淘寶支付寶,到阿里云和菜鳥(niǎo)等延續(xù)承襲的阿里之道。
在此次云棲大會(huì),基于RISC-V架構(gòu)的玄鐵處理器、以及無(wú)劍SoC平臺(tái)也有開(kāi)發(fā)者案例——如人工智能獨(dú)角獸云天勵(lì)飛、老牌芯片商炬芯科技,以及可重構(gòu)計(jì)算芯片領(lǐng)軍企業(yè)清微智能,都將現(xiàn)場(chǎng)亮相。
當(dāng)然,既然AI芯片是一次軟硬件一體化的完全重構(gòu),那么在軟件棧和模型框架方面,阿里必然也不會(huì)袖手旁觀。
最明顯的信號(hào),莫過(guò)于重磅引入的Caffe之父賈揚(yáng)清。
One more thing:含光
最后,阿里首款A(yù)I芯片,取名依然寓寄深遠(yuǎn)。
“含光”之名,來(lái)自《列子·湯問(wèn)》,是上古名劍,也是商天子三劍之首。
“視不可見(jiàn),運(yùn)之不知其所觸,泯然無(wú)際,經(jīng)物而物不覺(jué)?!?/p>
這把劍隱隱發(fā)光,如光如影如風(fēng),快到看不見(jiàn),無(wú)形、無(wú)處不在,無(wú)往不利。
平頭哥團(tuán)隊(duì)解釋說(shuō),這是含光800團(tuán)隊(duì)內(nèi)部投票的結(jié)果。
既希望傳達(dá)該款NPU的能力,也展現(xiàn)平頭哥首款硬件初入芯片領(lǐng)域的心態(tài)——在英特爾和英偉達(dá)等巨頭面前,還是“年輕人”,造芯重器,心懷敬畏。
不過(guò),含光800面世,依然是阿里和平頭哥歷史性的重要一步。
阿里剛剛度過(guò)了20周歲生日,這一個(gè)20年完成了“讓天下沒(méi)有難做的生意”。
接下來(lái)20年,能實(shí)現(xiàn)“讓天下沒(méi)有難造的芯片”的大膽夢(mèng)想嗎?
不知道。
眼下只知道含光初立,一劍光寒十四州,邁出萬(wàn)里長(zhǎng)征第一步。