《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 阿里平頭哥首款A(yù)I芯片發(fā)布!46倍于英偉達(dá)P4,刷新全球推理性能最高紀(jì)錄

阿里平頭哥首款A(yù)I芯片發(fā)布!46倍于英偉達(dá)P4,刷新全球推理性能最高紀(jì)錄

2019-09-26
關(guān)鍵詞: AI芯片 阿里平頭哥

  阿里第一顆芯片誕生!

  剛剛,云棲大會(huì)現(xiàn)場(chǎng),阿里巴巴集團(tuán)CTO、達(dá)摩院院長(zhǎng)張建鋒向全場(chǎng)展示了含光800——阿里第一款AI芯片。

640 (1).gif

  為了這款芯片,阿里一年前放下狠話,但誰(shuí)也沒(méi)想到一年后即亮相:不僅完成流片,還已在阿里云上正式上線。

  這也是阿里平頭哥成立以來(lái)首款硬件產(chǎn)品,是阿里20年發(fā)展史上首款自主研發(fā)、流片量產(chǎn)的芯片。

  在芯片行業(yè)時(shí)代變革轉(zhuǎn)關(guān)之際,阿里好風(fēng)憑借力、快速取得突破,掌握下一階段擂臺(tái)主動(dòng)權(quán),意義和價(jià)值,或許將遠(yuǎn)超芯片本身。

  不過(guò)發(fā)布現(xiàn)場(chǎng),張建鋒更想強(qiáng)調(diào)的是敬畏之心。

  他說(shuō):“在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬(wàn)里長(zhǎng)征第一步,我們還有很長(zhǎng)的路要走。”

  含光800究竟如何?

640.webp (29).jpg

  含光之名,依然沿襲平頭哥傳統(tǒng),取自神兵寶劍。

  “含光”本是上古三大神劍之一,含而不露,光而不耀,正如含光芯片作用方式——無(wú)形卻強(qiáng)勁的算力。

  具體來(lái)說(shuō),這是一款云端AI芯片,主打推理,重點(diǎn)應(yīng)用于視覺(jué)場(chǎng)景。

  性能方面,打破現(xiàn)有AI芯片記錄,性能及能效比全球第一。

  芯片制程12nm,晶體管數(shù)量高達(dá)170億個(gè)。

640.webp (28).jpg

  在業(yè)界標(biāo)準(zhǔn)的ResNet-50測(cè)試中,含光800推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍。

640.webp (30).jpg

  能效比500 IPS/W,是第二名的3.3倍。

  以數(shù)據(jù)橫向?qū)Ρ?,含?00展現(xiàn)性能,是英偉達(dá)最新T415倍,是應(yīng)用最廣的英偉達(dá)P4的46倍——超過(guò)去年設(shè)計(jì)之初吹下的“?!?。

  目前,含光800已經(jīng)率先在阿里內(nèi)部多個(gè)業(yè)務(wù)場(chǎng)景開(kāi)啟大規(guī)模應(yīng)用。

  從視頻圖像識(shí)別、分類(lèi)、搜索,到城市大腦等,未來(lái)還可應(yīng)用于醫(yī)療影像、自動(dòng)駕駛等領(lǐng)域。

  大會(huì)現(xiàn)場(chǎng),張建鋒展示了這款芯片的強(qiáng)大性能。

  每天新增10億商品圖片的拍立淘商品庫(kù),使用含光800識(shí)別效率可提升12倍,時(shí)間從傳統(tǒng)通用GPU的1小時(shí)縮減至5分鐘。

640.webp (26).jpg

  還有城市大腦。在城市大腦中實(shí)時(shí)處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時(shí)為300ms,使用含光800僅需4顆,延時(shí)降至150ms。

640.webp (25).jpg

  阿里方面稱(chēng),含光800會(huì)首先在阿里內(nèi)部場(chǎng)景業(yè)務(wù)服役,同時(shí)含光800的AI云服務(wù)也正式上線,通過(guò)阿里云對(duì)外提供AI算力,但不會(huì)直接以芯片的形式對(duì)外售賣(mài)。

640.webp (24).jpg

  此前,阿里平頭哥連戰(zhàn)連捷,過(guò)去兩個(gè)月已經(jīng)發(fā)布了無(wú)劍SoC平臺(tái)和玄鐵處理器IP,“讓天下沒(méi)有難造的芯片”,幫助企業(yè)降低芯片設(shè)計(jì)門(mén)檻。

  現(xiàn)在,作為首款硬件,也是最硬核產(chǎn)品,含光800依然承載平頭哥之志,希望通過(guò)阿里云AI云服務(wù),讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算。

  而且也意味著阿里平頭哥成立一年來(lái),走過(guò)了軟件架構(gòu)(處理器IP、SoC平臺(tái))到硬件流片的完整流程。

  這是阿里造芯,標(biāo)志性的“交作業(yè)”時(shí)刻。

  阿里造芯這一年

  阿里布局AI芯片,最早曝光于2018年4月。

  其后9月云棲大會(huì),阿里宣布成立平頭哥,并且先將“狠話”放下,正在打造一款NPU,架構(gòu)設(shè)計(jì)上,性能成果就要比業(yè)內(nèi)最好的AI處理器強(qiáng)大40倍。

  此言一出,語(yǔ)驚四座。

  然而一年之后的現(xiàn)在——成績(jī)單時(shí)刻——阿里平頭哥確實(shí)沒(méi)有食言。含光800,性能46倍于P4,甚至比最新一代英偉達(dá)T4,也有15倍領(lǐng)先。

640.webp (23).jpg

  雖然過(guò)程并非完全順風(fēng)順?biāo)?,但過(guò)去一年,“含光”團(tuán)隊(duì)不僅完成了從無(wú)到有的跨越,更是超越了所有人的預(yù)期。

  整個(gè)過(guò)程中,含光800團(tuán)隊(duì)在軟硬件設(shè)計(jì)上都做了大量工作,例如做架構(gòu)創(chuàng)新,軟件編譯器、框架、工具鏈等,后期還針對(duì)INT8數(shù)據(jù)類(lèi)型進(jìn)行了大量?jī)?yōu)化。

  含光800芯片負(fù)責(zé)人驕旸透露,這款芯片采用自研架構(gòu),針對(duì)深度學(xué)習(xí)中使用的大量權(quán)重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎(chǔ)上,通過(guò)獨(dú)特設(shè)計(jì)的數(shù)據(jù)訪存與流水線處理技術(shù),大大減低了I/O需求和數(shù)據(jù)的搬移。

  芯片同時(shí)深度優(yōu)化了卷積、矩陣乘、向量計(jì)算和各種激活函數(shù),通過(guò)高有效的硬件資源調(diào)度和全并行的數(shù)據(jù)流處理,把AI運(yùn)算的性能和能效雙雙推向極致。

  另外,還集成了達(dá)摩院算法。針對(duì)CNN及視覺(jué)類(lèi)算法深度優(yōu)化計(jì)算、存儲(chǔ)密度,可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。

640.webp (22).jpg

  更難能可貴的是,平頭哥團(tuán)隊(duì)攻克了一系列挑戰(zhàn)。

  例如如何兼顧性能、良率、功耗等。平頭哥在軟硬件上充分考慮了這些問(wèn)題,用最短的時(shí)間完成了芯片的設(shè)計(jì)、流片整個(gè)過(guò)程,7個(gè)月完成前端設(shè)計(jì),之后僅了3個(gè)月就成功流片。

  驕旸感慨,從傳統(tǒng)造芯角度來(lái)看,幾乎是一個(gè)不可能完成的任務(wù)。但最終,阿里AI芯片團(tuán)隊(duì),還是創(chuàng)下紀(jì)錄,完成挑戰(zhàn),把不可能變?yōu)榭赡堋?/p>

  這其中,自然有“007”們?nèi)杖找挂沟目喙?,不過(guò)也不容忽視乘風(fēng)起勢(shì)的大趨勢(shì)作用。

  正所謂時(shí)來(lái)天地同協(xié)力,AI時(shí)代的專(zhuān)芯專(zhuān)用需求,阿里業(yè)務(wù)場(chǎng)景加持優(yōu)勢(shì),都是不得不說(shuō)的核心原因。

  NPU:芯片的iPhone時(shí)刻

  首先,AI時(shí)代的專(zhuān)芯專(zhuān)用需求。

  顧名思義,NPU——神經(jīng)網(wǎng)絡(luò)處理器就是專(zhuān)門(mén)處理深度神經(jīng)網(wǎng)絡(luò)算法的芯片,而深度神經(jīng)網(wǎng)絡(luò)算法,核心是模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),并且最基本特征就是模仿大腦神經(jīng)元之間傳遞模式,并對(duì)輸入的信息進(jìn)行快速處理。

  然而傳統(tǒng)通用處理器基于馮諾依曼結(jié)構(gòu),其存儲(chǔ)和運(yùn)算處理相互分離,如果處理深度神經(jīng)網(wǎng)絡(luò),需要大量讀寫(xiě)運(yùn)行操作,會(huì)受到帶寬限制,效率較低。

  因此以含光800為代表的神經(jīng)網(wǎng)絡(luò)芯片,根據(jù)神經(jīng)網(wǎng)絡(luò)推理運(yùn)算特征,會(huì)設(shè)計(jì)特定的硬件神經(jīng)元、高速連接的存儲(chǔ)結(jié)構(gòu)以及專(zhuān)用指令集,對(duì)內(nèi)存和計(jì)算單元實(shí)現(xiàn)高效組織管理,實(shí)現(xiàn)單條指令完成多個(gè)操作,提高計(jì)算效率和內(nèi)存訪問(wèn)效率。

640.webp (20).jpg

  簡(jiǎn)而言之,專(zhuān)芯專(zhuān)用,效率更高、成本更低,相應(yīng)效益也會(huì)更好。

  而且另一方面,因?yàn)樾枨竺鞔_,應(yīng)用場(chǎng)景有針對(duì)性,相比打造CPU和GPU,打造AI芯片的門(mén)檻要低很多。

  于是整個(gè)行業(yè)都在來(lái)到一個(gè)“iPhone時(shí)刻”——軟件重新定義硬件,場(chǎng)景需求重新定義芯片。

  然后過(guò)程中最好還能與應(yīng)用的業(yè)務(wù)場(chǎng)景結(jié)合,不斷驗(yàn)證、反饋,迭代,最后在達(dá)到目標(biāo)效果后流片、完成物理實(shí)現(xiàn)。

  所以當(dāng)今之勢(shì),不僅AI造芯初創(chuàng)公司形成小高潮,而且互聯(lián)網(wǎng)巨頭也紛紛跨界變硬,啟動(dòng)自主AI芯片打造。

  但想不想造、有沒(méi)有能力造,最后造的結(jié)果如何……完全是好幾個(gè)層次,完全是綜合實(shí)力的比拼。

  這也就是為什么,阿里的業(yè)務(wù)場(chǎng)景優(yōu)勢(shì),會(huì)給平頭哥首款A(yù)I芯片帶來(lái)加速,也是阿里手握新時(shí)代芯片競(jìng)爭(zhēng)“天命”的原因。

640.webp (19).jpg

  何以一年造出AI芯?

  實(shí)際上,雖然速度快、成果驚人,但阿里AI芯片并非完全“從0開(kāi)始”。

  平頭哥創(chuàng)立一年,不過(guò)達(dá)摩院和阿里各大業(yè)務(wù),已在AI算法和軟件方面積累很長(zhǎng)時(shí)間。

  含光800團(tuán)隊(duì)透露,基于阿里達(dá)摩院的算法以及阿里巴巴集團(tuán)硬件基礎(chǔ)設(shè)施多年技術(shù)沉淀,是含光800重構(gòu)芯片軟硬件技術(shù)棧的秘訣所在。

  由于AI芯片的差異化設(shè)計(jì)主要體現(xiàn)在硬件架構(gòu)和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價(jià)值。

  算法方面,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室過(guò)去兩年構(gòu)建了完整的算法體系,涵蓋語(yǔ)音智能、語(yǔ)言技術(shù)、機(jī)器視覺(jué)、決策智能等方向,并且取得多個(gè)世界領(lǐng)先水平的成果。

640.webp (18).jpg

  硬件方面,阿里巴巴此前已在服務(wù)器、FPGA以及存儲(chǔ)等領(lǐng)域擁有多年經(jīng)驗(yàn),平頭哥團(tuán)隊(duì)也在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲(chǔ)備。

  基于這些能力,平頭哥完成了算法和硬件之間鴻溝的快速突破。在算法能力之上,自研芯片架構(gòu),并且設(shè)計(jì)了完整軟件棧。

  而且如此設(shè)計(jì)理念,效果也立竿見(jiàn)影。例如功耗是AI芯片行業(yè)通病,但平頭哥自研架構(gòu)可大幅減少對(duì)內(nèi)存的訪問(wèn),在保證極致性能的情況下,能把芯片功耗降到最低水平。

  另外,新入局也有新入局的優(yōu)勢(shì)。

  帶隊(duì)打造含光800的驕旸感慨,半導(dǎo)體巨頭搞AI芯片,會(huì)有既有開(kāi)發(fā)者生態(tài)的包袱,但阿里平頭哥團(tuán)隊(duì)目標(biāo)專(zhuān)一,就是要實(shí)現(xiàn)最強(qiáng)算力,把硬件能力完全釋放,以構(gòu)建更大的生態(tài)。

  過(guò)程中也無(wú)時(shí)不刻展現(xiàn)著阿里業(yè)務(wù)場(chǎng)景優(yōu)勢(shì)、以及組織凝聚力。

  而平頭哥在架構(gòu)設(shè)計(jì)之初,業(yè)務(wù)場(chǎng)景同事就從需求和經(jīng)驗(yàn)層面給出了全面反饋,直接幫助厘清了需求。

  然后算法加持和驗(yàn)證迭代階段,達(dá)摩院和業(yè)務(wù)場(chǎng)景也不厭其煩幫助測(cè)試、反饋,提交迭代,共同完成了流片前的最后保障。

  所以雖然阿里造芯,專(zhuān)門(mén)成立了平頭哥半導(dǎo)體,但“含光800”從無(wú)到有,不光是一個(gè)人、一支團(tuán)隊(duì)在戰(zhàn)斗。

  如果你問(wèn)阿里AI造芯的優(yōu)勢(shì)究竟有哪些?

640.webp (17).jpg

  除了有“生死看淡不服就干”的決心,真金白銀的投入,業(yè)內(nèi)全球資深人才的招攬……

  平頭哥首席科學(xué)家、阿里巴巴高級(jí)研究員元尊,會(huì)將具體優(yōu)勢(shì)歸結(jié)為“ABCDE”。

  A:Algorithm,算法,阿里本身的技術(shù)儲(chǔ)備和AI實(shí)力,在算法方面有世界領(lǐng)先的積累。

  B:Big Data,大數(shù)據(jù),龐大的生態(tài)場(chǎng)景和覆蓋方方面面的業(yè)務(wù),在數(shù)據(jù)質(zhì)和量方面都有優(yōu)勢(shì)。

  C:Computing,安全穩(wěn)定的計(jì)算力,阿里云的市場(chǎng)龍頭和領(lǐng)先地位,就已能說(shuō)明一切。

  D:Domain knowledge,專(zhuān)業(yè)領(lǐng)域知識(shí),阿里本身并非只是一家一業(yè)的公司,而是幾十家公司的集合體、經(jīng)濟(jì)體,有各種各樣的全面應(yīng)用場(chǎng)景,對(duì)于各項(xiàng)最新技術(shù)和產(chǎn)品,有最天然的應(yīng)用基礎(chǔ)。

  E:Ecosystem,生態(tài)。比起傳統(tǒng)芯片半導(dǎo)體公司,阿里生態(tài)涵蓋之廣泛、能力之多元和應(yīng)用前景,都是綜合實(shí)力的體現(xiàn)。

  元尊認(rèn)為,擁有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。

  而且這種“ABCDE”,一方面幫助造芯,另一方面還幫助用芯。

640.webp (16).jpg

  阿里AI芯片商業(yè)模式

  在阿里內(nèi)部,因?yàn)樨S富的場(chǎng)景需求和業(yè)務(wù)體量,對(duì)高性能AI算力的需求已非一日。

  電商場(chǎng)景中,拍立淘等新興購(gòu)物方式涉及的圖片搜索,需要AI芯片。

  還有文娛場(chǎng)景,優(yōu)酷視頻修復(fù)、分析,也需要AI實(shí)現(xiàn)。

  還有阿里正在大規(guī)模落地推進(jìn)的城市大腦等,如各類(lèi)車(chē)輛進(jìn)行檢測(cè)、跟蹤、特征提取、屬性檢測(cè)等,也都離不開(kāi)更強(qiáng)算力加持。

  未來(lái),在醫(yī)療和自動(dòng)駕駛等重要垂直領(lǐng)域,更是空間廣闊、商業(yè)前景潛力十足。

  單自主芯片自用,就已效益顯著。

  更何況阿里云的地位和實(shí)力,也能讓AI算力通過(guò)阿里云賦能更多領(lǐng)域、更多企業(yè)。

  所以此次含光800芯片選擇云服務(wù)的商業(yè)模式,也在情理之中。

  阿里方面,則更樂(lè)于強(qiáng)調(diào)首款A(yù)I芯片的商業(yè)模式背后,一以貫之的普惠性——平頭哥創(chuàng)辦的核心理念。

  今年早先推出的無(wú)劍SoC平臺(tái)和玄鐵處理器IP,都選擇了直接開(kāi)放授權(quán),幫助企業(yè)降低芯片設(shè)計(jì)門(mén)檻。

  而含光800的普惠性,則體現(xiàn)在通過(guò)阿里云AI云服務(wù)的形式,讓企業(yè)隨時(shí)隨地可以享受高性能計(jì)算服務(wù)。

640.webp (15).jpg

  平頭哥下一步

  在杭州云棲大會(huì)期間,也談到了阿里芯片的下一步。

  隨著含光800發(fā)布,平頭哥已集齊了全棧芯片家族:

  基礎(chǔ)單元處理器IP,C-Sky系列、玄鐵系列,為AIoT終端芯片提供高性價(jià)比IP;

  一站式芯片設(shè)計(jì)平臺(tái),無(wú)劍SoC平臺(tái)集成CPU、GPU、NPU等,降低芯片設(shè)計(jì)門(mén)檻;

  AI芯片,含光800通過(guò)AI云服務(wù)為AI場(chǎng)景提供高性能算力。

  這三大產(chǎn)品系列,初步完成了平頭哥端云一體的芯片生態(tài)。

  而接下來(lái),平頭哥產(chǎn)品形態(tài),重點(diǎn)將是云端AI訓(xùn)練芯片、端上推理芯片,以及用于阿里云神龍服務(wù)器的SoC專(zhuān)用芯片,以滿足更多場(chǎng)景的算力需求。

  此外,平頭哥芯片初步軟硬件閉環(huán)實(shí)現(xiàn),阿里巴巴在芯片、云和AI三大業(yè)務(wù)之間的協(xié)同關(guān)系,也雛形初現(xiàn)。

  從時(shí)代趨勢(shì)而言,三者原本就是三位一體。

  AI算法逐漸集成到芯片,集成算法的專(zhuān)用芯片能為云服務(wù)提供了更強(qiáng)的性能,而云計(jì)算本身則加速了AI應(yīng)用的大規(guī)模落地。

640.gif

  過(guò)去十年,阿里集中推進(jìn)、展現(xiàn)成果的是AI和云計(jì)算。

  現(xiàn)在,平頭哥補(bǔ)齊芯片一環(huán),阿里在計(jì)算版圖中的鐵三角形成。

  不過(guò)中國(guó)科技互聯(lián)網(wǎng)巨頭,自然還有野心更大的宏偉藍(lán)圖——行業(yè)生態(tài)和開(kāi)發(fā)者生態(tài)。

  此前,玄鐵910發(fā)布,阿里也明確解釋過(guò),平頭哥目標(biāo)就是打造AIoT時(shí)代的基礎(chǔ)設(shè)施平臺(tái),延續(xù)從阿里巴巴B2B淘寶支付寶,到阿里云和菜鳥(niǎo)等延續(xù)承襲的阿里之道。

  在此次云棲大會(huì),基于RISC-V架構(gòu)的玄鐵處理器、以及無(wú)劍SoC平臺(tái)也有開(kāi)發(fā)者案例——如人工智能獨(dú)角獸云天勵(lì)飛、老牌芯片商炬芯科技,以及可重構(gòu)計(jì)算芯片領(lǐng)軍企業(yè)清微智能,都將現(xiàn)場(chǎng)亮相。

  當(dāng)然,既然AI芯片是一次軟硬件一體化的完全重構(gòu),那么在軟件棧和模型框架方面,阿里必然也不會(huì)袖手旁觀。

  最明顯的信號(hào),莫過(guò)于重磅引入的Caffe之父賈揚(yáng)清。

640.webp (13).jpg

  One more thing:含光

  最后,阿里首款A(yù)I芯片,取名依然寓寄深遠(yuǎn)。

  “含光”之名,來(lái)自《列子·湯問(wèn)》,是上古名劍,也是商天子三劍之首。

  “視不可見(jiàn),運(yùn)之不知其所觸,泯然無(wú)際,經(jīng)物而物不覺(jué)?!?/p>

  這把劍隱隱發(fā)光,如光如影如風(fēng),快到看不見(jiàn),無(wú)形、無(wú)處不在,無(wú)往不利。

  平頭哥團(tuán)隊(duì)解釋說(shuō),這是含光800團(tuán)隊(duì)內(nèi)部投票的結(jié)果。

  既希望傳達(dá)該款NPU的能力,也展現(xiàn)平頭哥首款硬件初入芯片領(lǐng)域的心態(tài)——在英特爾和英偉達(dá)等巨頭面前,還是“年輕人”,造芯重器,心懷敬畏。

  不過(guò),含光800面世,依然是阿里和平頭哥歷史性的重要一步。

  阿里剛剛度過(guò)了20周歲生日,這一個(gè)20年完成了“讓天下沒(méi)有難做的生意”。

  接下來(lái)20年,能實(shí)現(xiàn)“讓天下沒(méi)有難造的芯片”的大膽夢(mèng)想嗎?

  不知道。

  眼下只知道含光初立,一劍光寒十四州,邁出萬(wàn)里長(zhǎng)征第一步。

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。