《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > ASIC,風潮降至

ASIC,風潮降至

2022-10-09
來源:半導體產(chǎn)業(yè)縱橫

隨著機器學習、邊緣計算、自動駕駛的發(fā)展,大量數(shù)據(jù)處理任務的產(chǎn)生,使得人們對于芯片計算效率、計算能力和計能耗比都提出了很高的要求,在此背景下,ASIC得到了越來越多人的關注。

1981年3月,Sinclair公司推出了一款8位個人電腦ZX81,其中的Z80處理器則被認為是最早的ASIC原型。ASIC(Application Specific Integrated Circuit)芯片是專用集成電路,是針對用戶對特定電子系統(tǒng)的需求,從根級設計、制造的專有應用程序芯片,廣泛應用于人工智能設備、虛擬貨幣挖礦設備、耗材打印設備、軍事國防設備等智慧終端。在硬件層面,ASIC 芯片由基本硅材料、磷化鎵、砷化鎵、氮化鎵等材料構成。在物理結構層面,ASIC 芯片模塊通常包括 32 位微處理器、存儲器塊、網(wǎng)絡電路等。

01

不同的ASIC芯片

ASIC 芯片可根據(jù)終端功能不同分為 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 為張量處理器,專用于機器學習。如 Google 于 2016 年 5 月研發(fā)針對 Tensorflow 平臺的可編程 AI 加速器,其內(nèi)部指令集在 Tensorflow 程序變化或更新算法時可運行。DPU即Data Processing Unit,可為數(shù)據(jù)中心等計算場景提供引擎。NPU 是神經(jīng)網(wǎng)絡處理器,在電路層模擬人類神經(jīng)元和突觸,并用深度學習指令集直接處理大規(guī)模電子神經(jīng)元和突觸數(shù)據(jù)。

ASIC 有全定制和半定制兩種設計方式。全定制依靠巨大的人力時間成本投入以完全自主的方式完成整個集成電路的設計流程,雖然比半定制的ASIC 更為靈活性能更好,但它的開發(fā)效率與半定制相比甚為低下。  

隨著功能模塊電路和單元庫的設計日趨成熟,半定制的ASIC 設計逐漸取代了全定制方法。設計人員可以更為輕松地直接使用預先完成的單元庫中的標準邏輯單元進行設計,或使用門陣列的方式,現(xiàn)在用全定制方法進行完整電路設計的情況很少出現(xiàn)?;跇藴蔬壿媶卧突陂T陣列是當前半定制的ASIC 設計主要采用的兩種設計方法。    

基于標準單元的方法直接從單元庫里挑選標準邏輯單元,諸如各種中小規(guī)模的集成電路單元和門級、行為級甚至系統(tǒng)級電路模塊,這些標準單元在進行ASIC設計使用之前已經(jīng)被預先設計好并經(jīng)過了嚴格的設計規(guī)則驗證,可靠性很高,半定制的設計人員可以直接從單元庫中拿來進行系統(tǒng)設計,使用方便。    

基于門陣列的方法是在互聯(lián)金屬層排列形成的晶體管陣列上,以全定制確定掩膜,通過掩膜之間的互相連接完成設計,這種門陣列由其突出的形式故被稱為MGA(掩膜式門陣列)。門陣列庫在相同邏輯單元版圖的基礎上,定制金屬的互連線。

ASIC 設計的流程自頂向下——“Top-Down”的設計思想通常為基于標準單元的ASIC 所采用,其設計基本流程圖所示。

02   

ASIC和CPU、FPGA等對比

ASIC和CPU、FPGA等對比CPU :基于低延時的設計,有強單次邏輯處理能力,但面對有限功耗的大量數(shù)據(jù)處理能力有限。中央處理器 CPU 需要很強的處理不同類型數(shù)據(jù)的計算能力以及處理分支與跳轉的邏輯判斷能力,這些都使得 CPU 的內(nèi)部結構異常復雜.深度學習模型需要通過大量的數(shù)據(jù)訓練才能獲得理想的效果。驟然爆發(fā)的數(shù)據(jù)洪流滿足了深度學習算法對于訓練數(shù)據(jù)量的要求,但是算法的實現(xiàn)還需要相應處理器極高的運算速度作為支撐。當前流行的包括 X86 和 ARM 在內(nèi)的傳統(tǒng) CPU 處理器架構往往需要數(shù)百甚至上千條指令才能完成一個神經(jīng)元的處理,但對于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運算的深度學習的計算需求,這種結構就顯得非常笨拙。尤其是在當前功耗限制下無通過提升 CPU 主頻來加快指令執(zhí)行速度,這種矛盾愈發(fā)不可調(diào)和。    

GPU:較成熟生態(tài)系統(tǒng),最先受益人工智能爆發(fā)。GPU 與 CPU 類似,只不過是一種專門進行圖像運算工作的微處理器。GPU 是專為執(zhí)行復雜的數(shù)學和幾何計算而設計的,這些計算是圖形渲染所必需的。GPU 在浮點運算、并行計算等部分計算方面可以提供數(shù)十倍乃至于上百倍于 CPU 的性能。但其有三個方面的局限性:1.應用過程中無法充分發(fā)揮并行計算優(yōu)勢。2.硬件結構固定不具備可編程性。3.運行深度學習算法能效遠低于 ASIC 及 FPGA。    

FPGA:能效中等、靈活度高、成本較高的 AI 白板,具有三類局限。FPGA 稱為現(xiàn)場可編程門陣列,用戶可以根據(jù)自身的需求進行重復編程,與 GPU、CPU 相比,具有性能高、能耗低、可硬件編程的特點。同時具有三類局限:1、基本單元的計算能力有限;2、速度和功耗有待提升;3、FPGA 價格較為昂貴。    

ASIC :專為特定目的而設計。不同于 GPU 和 FPGA 的靈活性,定制化的 ASIC 一旦制造完成將不能更改,所以初期成本高、開發(fā)周期長的使得進入門檻高。目前,大多是具備 AI 算法又擅長芯片研發(fā)的巨頭參與,如 Google 的 TPU。ASIC 芯片有以下幾個優(yōu)勢1.規(guī)格優(yōu)勢:ASIC 芯片在設計時充分利用單位運算單元功能,避免冗余計算單元存在,有利于縮小芯片體積。2.能耗優(yōu)勢:ASIC 芯片單位算力能耗相對 CPU、GPU、FPGA 較低,如 GPU 每算力平均約消耗 0.4 瓦電力,ASIC 單位算力平均消耗約 0.2 瓦電力,更能滿足新型智能家電對能耗的限制。3. 集成優(yōu)勢:因采用定制化設計,ASIC 芯片系統(tǒng)、電路、工藝高度一體化,有助于客戶獲得高性能集成電路。如TPU1 是傳統(tǒng) GPU 性能的 14-16 倍,NPU 是 GPU 的 118 倍。寒武紀已發(fā)布對外應用指令集,ASIC 將是未來 AI芯片的核心。

03

ASIC的未來如何

ASIC 芯片及其配套產(chǎn)品在下游智慧家電市場已初步形成應用模式,具有廣闊市場空間。受物聯(lián)網(wǎng)趨勢影響,如美的、格力、海爾、海信等家電廠商相繼布局各類智能家電產(chǎn)品。通過嵌入 ASIC 芯片,家電產(chǎn)品制造商可獲得更高利潤,推動智慧城市建設。    

谷歌開發(fā)的優(yōu)化算法架構 Tensor Processing Unit,TPU在算法架構上介于 CPU 和全定制化 ASIC 之間,兼具桌面計算設備與嵌入式計算設備功能。TPU 算法具備較寬容錯性,在硬件組成上相對 CPU 類通用芯片更加簡潔。相同數(shù)量晶體管條件下,TPU 算法架構的 ASIC 芯片可完成更高運算量。相對同級別CPU、GPU,該類 ASIC 芯片可提高運算性能 15 倍至 30 倍,并提高能耗效率 30 倍至 80倍。另外如思科推出防火墻專用 ASIC 芯片在算法上采用網(wǎng)絡加速協(xié)議,高通推出基帶專用ASIC 芯片采用通信協(xié)議、傅里葉變換等優(yōu)化算法。自動駕駛運算系統(tǒng)處于快速更迭、進化階段,或于 5 年內(nèi)進入算法穩(wěn)定階段。專家指出,基于固定算法最優(yōu)化設計的ASIC芯片將成自動駕駛運算系統(tǒng)主流核心模塊。

因 ASIC 算法架構更接近底層 算法且在物理結構上大幅縮減冗余晶體管和連線,ASIC 芯片在運算吞吐量、延遲度、功耗等參數(shù)方面表現(xiàn)優(yōu)于傳統(tǒng)芯片。現(xiàn)階段自動駕駛系統(tǒng)核心芯片已從 GPU 轉向 FPGA,并逐步向 ASIC 過渡。相對 FPGA 芯片,ASIC架構下,自動駕駛系統(tǒng)計算效率、計算能力皆可定制,一旦達到量產(chǎn)規(guī)模,其平均成本將低于 FPGA 芯片。相同工藝條件下,ASIC 計算速度約為 FPGA 運算速度 5 倍及以上。

04

國內(nèi)外發(fā)展現(xiàn)狀

ASIC芯片在芯片行業(yè)正在受到重視。包括DPU和NPU等類別。DPU主要承擔網(wǎng)絡、存儲和安全的加速處理任務,旨在滿足網(wǎng)絡側專用計算需求,尤其適用于服務器量多、對數(shù)據(jù)傳輸速率要求嚴苛的場景。具體看來,DPU對CPU所不擅長的網(wǎng)絡協(xié)議處理、數(shù)據(jù)加解密、數(shù)據(jù)壓縮等數(shù)據(jù)處理任務,可以順滑地接手,并且對各類資源分別管理、擴容、調(diào)度。2020 年上半年,NVIDIA以69 億美元的對價收購以色列網(wǎng)絡芯片公司 Mellanox Technologies,并于同年推出 BlueField-2 DPU,將其定義為繼 CPU 和 GPU 之后“第三顆主力芯片”,正式拉開 DPU 大發(fā)展的序幕。

谷歌公司日前在I/O 2022活動中發(fā)布其新一代張量處理器TPU v4集群,該公司CEO Sundar Pichai介紹稱,新的算力集群被稱為Pod,包含4096個v4芯片,可提供超過1 exaflops的浮點性能,Pichai表示其將在位于俄克拉荷馬州的數(shù)據(jù)中心部署8個TPU v4集群,合計實現(xiàn)約9 exaflops的性能,

今年8月,英特爾Agilex FPGA 和 Stratix 10 NX FPGA 兩大產(chǎn)品已部署至中國創(chuàng)新中心。英特爾 Agilex FPGA 集英特爾 SuperFin 制程技術、Chiplet、3D 封裝等眾長于一身,在生產(chǎn)、工藝、封裝、互連等方面較前代產(chǎn)品有明顯進步,能夠廣泛應用到 5G、人工智能場景中,為以數(shù)據(jù)為中心的世界提供敏捷性和靈活性。相較于英特爾Stratix 10 FPGA,英特爾 Agilex FPGA 性能提高了 45%,功耗降低了 40%。

國內(nèi)也在ASIC市場上發(fā)力。阿里巴巴正式對外發(fā)布了全新的含光800AI芯片。平頭哥含光800芯片性能的突破得益于軟硬件的協(xié)同創(chuàng)新:硬件層面采用自研芯片架構,通過推理加速等技術有效解決芯片性能瓶頸問題;軟件層面集成了達摩院先進算法,針對CNN及視覺類算法深度優(yōu)化計算、存儲密度,可實現(xiàn)大網(wǎng)絡模型在一顆NPU上完成計算。

中科馭數(shù)設計了業(yè)界首顆網(wǎng)絡數(shù)據(jù)庫一體化加速功能的DPU芯片和智能網(wǎng)卡系列產(chǎn)品。創(chuàng)始團隊來自科研院所,正開展第三代DPU芯片K2 Pro的研發(fā)工作,致力于DPU芯片的國產(chǎn)替代。OPPO發(fā)布自主研發(fā)的影像專用NPU芯片“馬里亞?MariSilicon?X”。

寒武紀公司出品的diannao系列NPU芯片。2021年8月18日,百度在世界大會上,推出了自家的首款7nm自研“昆侖2代AI芯片”。昆侖芯2的性能、通用性、易用性較1代產(chǎn)品均有顯著增強。該芯片采用全球領先的7nm 制程,搭載自研的第二代 XPU 架構,相比1代性能提升2-3倍。整數(shù)精度(INT8)算力達到256 TeraOPS,半精度(FP16)為128 TeraFLOPS,而最大功耗僅為120W。

ASIC深度學習,數(shù)據(jù)中心、邊緣計算等各個領域都得到了廣泛的應用并正在飛速發(fā)展.




更多信息可以來這里獲取==>>電子技術應用-AET<<


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。