一年一度的Hotchips一直是工業(yè)界的風(fēng)向標(biāo),雖然參加的人數(shù)并不是很多,但是高性能芯片行業(yè)的領(lǐng)頭羊每年都借著這個機會展示自己公司的最新成果。今年因為疫情,整個大會搬到線上舉行,但內(nèi)容仍然精彩。這次第32屆會議歷時三天,其中兩天是正式會議,會議之前還有一天的Tutorial。會議第一天分為五大部分(session):Server processors, Mobile Processors, Edge Computing and sensing, GPUs and Gaming Architectures. 第二天的話題則覆蓋 FPGA and reconfigurable Architecture, Networking and Distributed Systems, ML training, ML inference. 讓我們來具體看看整個會議反映出來當(dāng)前主流芯片業(yè)界的主要看點吧。
臺積電(TSMC) 7納米
會議所有的報告都是基于已經(jīng)tape out的芯片,有的是新鮮熱辣剛剛出爐,有的是已經(jīng)投入應(yīng)用??v觀所有的報告芯片,最先想到的關(guān)鍵詞就是 TSMC 7納米。包括Marvel, AMD, Nvidia, Microsoft, Xilinx和Barefoot的芯片都是用 TSMC 7nm FinFet 工藝,有的片子現(xiàn)在用的工藝不是這個工藝,但主講人也特別提及到下一代芯片會用TSMC 7nm. 這也反映出來TSMC在工藝上的主導(dǎo)地位,他家的最新工藝基本上就是行業(yè)高性能芯片的首選。在這里提一句題外話,前一段時間財富全球前500出爐的時候,TSMC的盈利率在500企業(yè)中排名第一,達(dá)到31%, 比第二名的巴菲特Berkshire Hathaway投資公司還高。TSMC作為一個傳統(tǒng)制造業(yè)企業(yè),創(chuàng)造了這個盈利率成績實在是讓人刮目相看,也是巨大的研發(fā)投入做到行業(yè)第一帶來的巨大回報的典型商業(yè)成功案例。
表 : 各家芯片的工藝統(tǒng)計
Intel 仍是業(yè)界的龍頭
Intel這一兩年來真是流年不利,10nm工藝雖然在起初公布的時候和TSMC 7nm集成度相當(dāng),但是在良率上一直存在問題導(dǎo)致10nm產(chǎn)品一拖再拖難產(chǎn)。而在移動cpu市場上更加被AMD侵蝕,往日的X86 CPU江湖大佬地位岌岌可危。這次會議第一天的主題演講(Key Note)還是由Intel的首席架構(gòu)師 Raja Koduri主講。這樣的安排除了是因為Intel是會議的唯一最高長銠級(Rhodium) 贊助商外,業(yè)界對Intel還是相當(dāng)?shù)木粗氐模M鸌ntel在后摩爾時代能帶領(lǐng)行業(yè)繼續(xù)前進。Raja的演講的確是高屋建瓴,回顧過去,展望將來,摩爾定律沒死!而在演講末尾展示出來的一些從器件到封裝各級的集成度仍然還有巨大提升的空間,而且這些集成已經(jīng)是在實驗室實現(xiàn)了的。當(dāng)然了,量產(chǎn)良率和成本是另一回事。大家聽到這些消息還是大大的被打了雞血的。這篇主題演講還時不時提及剛剛宣布離職的cpu設(shè)計大佬Jim Keller, 讓人唏噓不已。要知道這個主題演講本來是安排給Jim Keller主講的,因為Jim突然離職而臨時換了人。
而在產(chǎn)品方面,Intel也不負(fù)眾望,推出了下一代 Tiger Lake 移動CPU, Xe架構(gòu)的GPU, Agilex FPGA 和Tofino2高速交換機芯片。每一樣都是拳頭主打,性能直接硬拼對手。其中重頭戲是Tiger Lake CPU, 在問答的時候Intel幾乎避開所有的問題,只說待到九月2號正式發(fā)布的時候才有更多具體資料。到時候Intel會不會推出一款 12/16 cores的移動CPU搶回筆記本的地盤?讓我們拭目以待。
RISC-V
RISC-V架構(gòu)提出多年,而且在技術(shù)上被抱以厚望。但是這些年工業(yè)界的推動力明顯不夠,目前的商業(yè)化狀態(tài)還是讓人比較失望的??上驳氖窃贖otchips這樣的行業(yè)會議上人們?nèi)匀粵]有忘記它。這次會議有兩篇RISC-V的演講,一是阿里巴巴的玄鐵-910, 另一個是蘇黎世聯(lián)邦理工學(xué)院的4096 cores MantiCore. 玄鐵-910采用TSMC 12納米的工藝,運行主頻可達(dá)2.5GHz. 阿里巴巴也開發(fā)出來了自己的RISC-V編譯器進一步優(yōu)化系統(tǒng)性能,在 EEMBC 和 nBench 大部分項目性能指標(biāo)上都超越了 Arm Cortex A73. 而MantiCore是靠多Core并行并提高了浮點計算的效率,fp64 效率是其它幾個芯片的數(shù)倍,而fp32效率也普遍比其它CPU/GPU要高。這個芯片將在ML領(lǐng)域上大有可為。
會議里也有好幾個 ARM 架構(gòu)的芯片演講, 作為當(dāng)前市場的主導(dǎo)者,ARM的市場占有率還是完全超越 RISC-V 架構(gòu)的。而軟銀要出售ARM的消息目前還不明朗,Nvidia收購的呼聲很高。筆者認(rèn)為,ARM目前作為一家獨立運營公司,其商業(yè)模式是license自家的arm 架構(gòu)。ARM和其客戶之間并沒有什么產(chǎn)品層面的競爭。但如果一家芯片公司Nvidia收購arm之后,勢必會改變這種勢態(tài)。不排除Nvidia的競爭者為了區(qū)分自己的產(chǎn)品而撇棄ARM而選擇其它架構(gòu)。這樣看來如果收購成功,說不定能成為RISC V 在工業(yè)界推廣的一大契機。
AI, ML
AI和ML的硬件化概念已經(jīng)提出來了一段時間,但是強勁的市場需要還是把這兩個領(lǐng)域留在芯片熱點。這次會議的第二天的主題演講也是留給了AI巨頭DeepMind公司的 Dan Belov. 這篇主題演講回顧了AI 發(fā)展的過去和目前遇到的瓶頸,也深入講解了一下當(dāng)前的 Encoder -> Processor -> Decoder 的 通用ML 架構(gòu)。同時也感慨當(dāng)前硬件的算力趕不上 AI 發(fā)展的需要,而軟件方面仍然低效。2020年 AI 的一個應(yīng)用會不會是編譯器的優(yōu)化呢?讓我們拭目以待。
而會議也特別安排了兩個 ML 的專題,分別為 ML traning 和 ML interence. 各家都展現(xiàn)出各自的看家本領(lǐng)。其中有Google家的 TPU v2 和 TPU v3, 把 Tensorflow的算力進一步大大提升。其中 TPU v2開始把 單處理器模式的 TPU v1 擴展到可以堆和的超級計算機模式。而 TPU v3則在 v2的基礎(chǔ)上提高了 30%的主頻, 30%的HBM帶寬,100%的 HBM 容量。另外還有 Cerebras公司的單硅片AI 芯片, 整個芯片就是一塊12寸硅片,也是當(dāng)前最大的芯片記錄。而最后一篇演講則是 LightMatter 公司的光處理 AI 芯片,這顆芯片看到傳統(tǒng)硅工藝的限制而獨辟蹊徑用片上光處理來做 AI 運算。光運算展示了在延遲和處理容量上的巨大優(yōu)勢,雖然目前應(yīng)用還有不少限制,但也不妨是AI 芯片的另一個出路。值得一提的是在兩個ML專題中,業(yè)界傳奇人物伯克利大學(xué)教授 David Patterson 在 Slack 頻道里非?;钴S,對演講人提出了不少很詳細(xì)的問題。這也說明了學(xué)術(shù)界對AI/ML方向的特別關(guān)注。
GPU
疫情推高了一大批游戲公司的股價,而電子游戲在現(xiàn)代人的眼光里也漸漸改變。大家對電子游戲的看法也越來越正面,年輕一代對游戲設(shè)計的熱情也是越來越高。可以預(yù)計在不遠(yuǎn)的將來,游戲?qū)⑹侨祟惿畹闹匾糠?。這次會議的GPU部分有三大巨頭露面,分別是Intel, Nvidia和微軟Xbox。這里重點提一下Xbox的最新一代GPU. 這個GPU繼承了上一代的架構(gòu),里面嵌入8塊AMD設(shè)計的 Zen2 CPU Core 3.8GHz。而GPU本身運行在1.825GHz, 處理能力達(dá) 12TFLOPS FP32, 并帶有 3328個流處理器。而DRAM則采用了16GB 的 GDDR6. 有意思的是這個芯片的內(nèi)部版圖和上一代非常類似,而芯片面積也是差不多。
Xbox GPU架構(gòu)
Scalable, Software, System
Hotchips雖然是芯片設(shè)計領(lǐng)域的會議,但是大部分演講并不是簡單地停留在芯片上,而花了不少篇幅講到軟件和系統(tǒng)級的集成。一位演講者說,芯片離開了軟件和系統(tǒng)就什么都做不了。以芯片為核心的一套高效的軟硬件結(jié)合系統(tǒng)才是可以商業(yè)推廣應(yīng)用的優(yōu)秀系統(tǒng)。會議里也多次提到可擴展式的設(shè)計,也是分別體現(xiàn)在系統(tǒng)的各個層面上: 芯片架構(gòu)內(nèi)部比如可以放置1, 2, 4個處理單元,并用高效的片上網(wǎng)絡(luò)把這些單元鏈接起來; 在封裝層面也是可以把好幾個芯片和 HBM/DDR 封裝在一起;在系統(tǒng)集成上更是可以用高帶寬的網(wǎng)絡(luò)把大量芯片集結(jié)在一起組成一個巨大的處理網(wǎng)格。
中國元素
華人在世界半導(dǎo)體行業(yè)一直占著重要地位,近幾年隨著國內(nèi)半導(dǎo)體產(chǎn)業(yè)的強勁發(fā)展,本土的芯片公司也開始發(fā)力,頻頻在頂級芯片會議上露面。這次的會議阿里巴巴交出了三張完美的答卷:玄鐵-910 RISC-V core, 含光800 NPU和Bare Metal云端服務(wù)器的X-Dragon架構(gòu)。而百度也展現(xiàn)了昆侖 AI 處理器系統(tǒng)。值得一提的是華人電子工程教授謝源教授也是整個會議的主委之一,同時也是其中一個板塊的主持人。各個華人的面孔也見證了中國半導(dǎo)體特別在高性能芯片設(shè)計領(lǐng)域占有一席之地,期望即將迎來騰飛的局面。
結(jié)語
雖然Hotchips的主題只覆蓋芯片領(lǐng)域的一小部分,但是總體上每一個演講里的芯片都是在該領(lǐng)域內(nèi)最好的產(chǎn)品并體現(xiàn)了世界一流的設(shè)計水平。兩天的大會下來,各個精彩的演講真是讓所有參與者大飽眼福。這次的會議只租了一個工作室做直播間,各個報告是用視頻發(fā)放到與會者,同時大會設(shè)立Slack頻道讓與會者和演講者互動,主持人會把大家在Slack里面的問題挑出來讓演講者回應(yīng)。這次的網(wǎng)絡(luò)會議也是給出了一個很好的在線研討會的模式。雖然偶爾有一點網(wǎng)絡(luò)連接異常導(dǎo)致的短暫中斷,但總體上不管是演講還是交流互動都是非常高效的。筆者參加會議下來也是收獲頗豐。如果讀者對這次Hotchips會議的某一個具體主題感興趣,也可聯(lián)系筆者做更詳細(xì)的介紹。
半導(dǎo)體行業(yè)觀察收集了Hotchips 2020年的部分演講slide,您可以把本篇文章轉(zhuǎn)載到朋友圈,并回復(fù)“hotchips PPT”到半導(dǎo)體行業(yè)觀察公眾號后臺,獲取下載鏈接。