引言:生態(tài)是使小芯片(Chiplet)技術得到采用并獲得長期成功的必要部分,而生態(tài)是圍繞標準建立的。這些標準正在慢慢被構建起來。
目前對小芯片的需求還在增加,但對大多數公司來說,這種轉變是緩慢進行的,直到可驗證的標準被行業(yè)接受。
互操作性和兼容性依賴于供應鏈的諸多層級達成的一致。不幸的是,分散的行業(yè)需求可能會導致冗余的解決方案。
標準有利于促進專門化。在芯片行業(yè)的早期,一個公司必須完成設計、實現和制造的全部流程。然而,對于大多數公司來說,通過定義良好的接口和模型(如PDKs、BSIM模型和庫),是可以將制造與設計分離開來的。
IP行業(yè)的出現使公司能夠專注于系統(tǒng)和差異化部分的設計,但他們仍然需要自己完成大部分的實現工作。在IP供應商和客戶之間銜接的連接器和模型的標準化為減輕負擔提供了可能。
今天,我們正處在另一個等級的專業(yè)化風口,在這個等級上,一個公司只需要設計系統(tǒng),并設計和實現差異化部分,而不用考慮商品化部分的實現制造。這種模式可以通過小芯片的形式來實現,小芯片是已經完全實現和制造出的小部件,并可以定制化地構建系統(tǒng)。為了達到這個目標,行業(yè)需要一些新的標準。
一些大型系統(tǒng)公司已經完成了開拓性工作,這些公司都在自研系統(tǒng)和小芯片模塊(圖1)。這使它們能夠提供更大或更加模塊化的產品,并在這個過程中解決許多難題。他們制造這些系統(tǒng)的方法也都各有不同。
毫不奇怪,這些解決方案差異很大。OpenFive SOC IP產品營銷高級總監(jiān)KetanMehta表示:“僅僅針對ASIC公司的需求,行業(yè)就可以被劃分為一系列供應產品。這些公司需要的是定制化芯片,而且需要快速的解決方案,他們不想等到標準制定和發(fā)展差不多了才開展業(yè)務。因此,所有這些公司都在開發(fā)和驗證專有的實現?!?/p>
圖1:一些2.5D集成的早期開拓者。圖源:OpenFive第一個部分開放系統(tǒng)(IP和系統(tǒng)由不同的公司開發(fā))是高帶寬內存(high bandwidth memory, HBM)。在這個系統(tǒng)中,DRAM由一家公司提供,并被集成到另一家公司設計的系統(tǒng)中,然后由第三家公司封裝起來。這為適用范圍有限的應用提供了一個解決方案,除此外,還有其他制造/封裝技術也專注于使內存更接近邏輯。
當使用現成的小芯片對邏輯進行互聯(lián)時,將獲得更大的受益。這將打破所有部分必須來自同一技術節(jié)點的限制。盡管這存在諸如差異擴展和翹曲導致的可靠性問題,但隨著時間的推進,這些問題很可能得到解決。除此外,仍亟待開發(fā)出可行的商業(yè)模式。
對小芯片的需求來自多個方向。CHIPS聯(lián)盟執(zhí)行董事RobMains表示:“我們遇到了一個可以幫助緩解公司在該領域遇到的許多挑戰(zhàn)的真正機會。我們需要一個標準化的交互接口,一個標準化的物理接口,必須針對特定的芯片處理技術或封裝技術進行實例化。除了這些,需要一個EDA生態(tài)。DARPA的愿景是正確的,讓全球各個水平的設計團隊合作是很重要的。這有助于達成共識,并有助于產品的質量保障,從而產生有效的結果?!?/p>
今天的行業(yè)并非如此。這與計算機科學家Andrew Tanenbaum的觀察更接近:“標準的好處是有很多選擇?!?但是,隨著越來越多的參與者試圖鞏固該領域并嘗試解決制造封裝與電氣標準息息相關的問題,這種情況開始發(fā)生變化。我們需要協(xié)議以確保整個系統(tǒng)中的數據完整性。除此之外,還需要解決許多其他問題,例如物理布局,供電網絡,測試,調試,監(jiān)測以及許多其他問題。大家已經開始著手調查其中的一些問題。
先前的文章討論了小芯片的總體推動力以及對開發(fā)流程的影響。本文的重點是不斷發(fā)展的標準,這些標準可能推動市場的發(fā)展,雖然這并不能說明所有人的立場或者彼此的關系。
直播信息
集成400G以太網、GDDR6、PECIe5 高性能7nm FPGA 應用公開課(點擊查看)
物理層
從單一封裝布局到多模塊的集成封裝極大地改變了互連。西門子EDA高級封裝解決方案總監(jiān)Tony Mastroianni說:“傳統(tǒng)的ASIC需要大型I/O驅動器來驅動通過封裝、電路板和外部接口的信號,范圍可能從幾十毫米到幾米。2.5D die-to-die接口部署了較小的I/O驅動器,僅需要通過中介層來驅動與相鄰模塊的水平連接即可,其大小可能在幾十到數百微米之間。3D die-to-die接口甚至部署了更小的I/O驅動器,僅需要將垂直連接直接驅動到堆疊在其上或下的模塊即可,這些可能在幾納米到幾百納米的數量級。2.5和3D方法在本質上擁有較低的驅動強度和較短的走線長度,可顯著降低功耗并增加I/O帶寬,從而將能源效率(pJ/bit)提高了幾個數量級?!?/p>
在這一方面有幾個可用方法?!耙环N小芯片的集成方法完全避免了使用精細幾何互連,” Kandou標準副總裁Brian Holden說,“通過這種方法,小芯片之間的互連僅僅建立在有機封裝基板上。這避免了復雜的制造過程以及與硅中介層相關的額外成本和良率損失。低功率超短距離(ultra-short reach, USR)SerDes可以用于小芯片之間的高速互連?!?/p>
我們可以找到一種物理接口的解決方案。OpenFive的Mehta說:“當你將一個模塊分解為多個小模塊時,可以將其放在基板上,也可以放在中介層上。這二者之間差別很大。使用中介層可以處理數千個信號,而使用基板,最多只能處理幾百個信號。例如,如果客戶實現的是同時具有HBM的大型模塊,則他們別無選擇,只能在中介層上實現。這需要并行接口,因為中介層將容納數千個信號?!?/p>
英特爾已經在圍繞其嵌入式多芯互連橋(Embedded Multi-die Interconnect Bridge , EMIB)開發(fā)自己的小芯片技術。與2.5D方法特有的大的硅中介層不同,EMIB使用具有多個布線層的非常小的電橋。這種電橋在基板制造過程中被嵌入并作為其中的一部分。
并行還是串行?
并行和串行之間的爭論可能會持續(xù)很長時間,而且不可能有單一的解決方案。每個不斷發(fā)展的標準都是許多不同因素之間的權衡。
Synopsys高速SerDes高級產品經理Manmeet Walia解釋說:“客戶真正關心的是最低延遲,最低功率,各岸端(beachfront)的帶寬,可達性能以及成本,而這基本都和收益相關?!?/p>
圖2:定義可接受的接口。圖源:Cadence
標準正在朝著多個方向發(fā)展,以優(yōu)化各種設計因素?!按羞B接使用非常輕巧的SerDes,” Walia說,“它們具有簡單的物理接口,只基于DLL時鐘的轉發(fā)方法,不需要任何決策反饋等化。”
串行標準由光學互聯(lián)網絡論壇(Optical Internetworking Forum, OIF)推動。他說:“這被稱為112G USR或超短距離(extra short reach, XSR)連接。這些應該最遲在2021年內得到批準。但是要記住各項活動不是基于標準批準書開展的。它們是根據已經可用的草案而進行的。OIF的草案現在可以獲取了?!?/p>
在并行方面有一些標準的提出。首先是開放式高帶寬互連(Open High Bandwidth Interconnect, OpenHBI)。這是由開放計算項目(Open Compute Project's , OCP)的開放領域專用體系結構(Open Domain-SpecificArchitecture, ODSA)子項目領導的。預計在今年年中批準。
英特爾已經開發(fā)了高級接口總線(Advanced Interface Bus, AIB)。英特爾可編程解決方案小組CTO辦公室高級總監(jiān)Jose Alvarez說:“ AIB 2.0的規(guī)范已經可以在CHIPS Alliance GitHub找到。這項工作正在進行中,馬上要發(fā)布了。我們的目標是達到每條線每秒4GB,每個接口每秒約7.6TB的帶寬。但這不僅僅和帶寬有關,而且和能耗有關。目前每比特的能源利用率是0.85pJ,我們達到了每比特0.5pJ,而DARPA PIPES項目希望將其提高到每比特0.1pJ。這是一個更長的范圍,但是我們正在朝著這個方向努力?!?/p>
許多公司已經部署了一種稱為“電線束”(Bunch Of Wires, BOW)的方法。GUC在2020年11月發(fā)布的新聞稿中展示了這種接口的一些性能數據,并展示了一些性能權衡。它引用了模塊之間的無差錯通信,每1 mm 各岸端全雙工帶寬為0.7 Tbps,消耗0.25 pJ/bit。GUC相信,下一代產品將支持每1 mm各岸端 1.3Tbps的無錯全雙工帶寬,而使用TSMC 5nm工藝的功耗則為0.25 pJ /bit。
與串行連接相比如何?GUC表示,與使用超短距離基于SerDes的封裝基板通信的替代解決方案相比,并行連接的功耗要低6至10倍。
協(xié)議
芯片之間可靠的數據傳輸不僅僅需要物理接口。Fraunhofer IIS自適應系統(tǒng)工程部高級系統(tǒng)集成小組負責人兼高效電子部門負責人Andy Heinig表示:“未來需要更高級別的標準,而不是非常低級的接口標準。這種更高級別的協(xié)議可能是面向應用程序的。它們在像光學前端的模擬-數字應用或像數據中心AI應用加速器的數字加速器之間將有所不同?!?/p>
生產力和可重用性與抽象層級有關?!盎ミB的下一層是在通信結構、協(xié)議、總線、網絡方面?!?Arteris IP的研究員兼系統(tǒng)架構師Michael Frank說,“ CCIX和CXL即將到來。人們正在對其進行構建,但是缺乏可以使不同小芯片通信的標準?!?/p>
計算表示連接(Compute Express Link, CXL)是用于處理器、內存擴展和加速器的緩存一致性互連。其2.0規(guī)范于2020年11月發(fā)布。目標是保持CPU內存空間與連接設備上的內存之間的內存一致性,從而實現資源共享并降低軟件堆棧的復雜性。
同樣,用于加速器的高速緩存一致性互連(Cache Coherent Interconnect for Accelerators, CCIX)已從系統(tǒng)內應用程序轉移到封裝內應用程序?!半S著2.5D和小芯片的推動,我們基本上擺脫了長延遲和高功率SerDes或接口,并具有并行接口或非常低延遲的XSR或短距離SerDes,”CCIX聯(lián)合體技術指導委員會主席,并在Xilinx擔任CCIX、CXL和ODSA聯(lián)合體的技術負責人Millind Mittal說道,“ CCIX利用了PCIe的數據鏈路層,但之后將其分離為優(yōu)化路徑。我們正在定義下一個版本,以適應新的傳輸方式。對于2.0,我們正在考慮適應封裝內集成選項?!保ㄒ妶D3)
圖3:CCIX 2.0集成選項。圖源:CCIX聯(lián)盟
Arm也提出了一個標準。Walia說:“這是結構的一部分,他們擁有所謂的相干網格網絡(Coherent Mesh Network, CMN)結構。如果你在模塊到模塊的接口上有兩個計算芯片互相通信,那么結構到結構的接口須看起來像是單個結構。這里零延遲是非常重要的?!?/p>
不僅僅是信號
獲取信號接口標準很重要,但是要制造可重用的小芯片,還需要更多的標準?!拔覀兘裉毂仨毝ㄖ艻P?!?Walia說,“這可能意味著移除標準的C4,并用微型接觸點替換它們。我們緊密合作,多次迭代。在我們與客戶及其封裝供應商之間經常會有三到四次的迭代?!?/p>
其中一些問題正在得到解決。Mehta說:“ ODSA和AIB已經提出了一種接觸點布局。它定義了SerDes的布局方式或并行線的布局方式。當兩個設備屬于同一客戶時,它們具有一點靈活性。但是,如果不是閉環(huán)系統(tǒng),那么對于如功率和熱量的許多事物,都需要標準?!?/p>
功率是一個大問題?!叭绾瓮ㄟ^這些微型接觸點來承擔100瓦的功率?” Ansys產品營銷總監(jiān)Marc Swinnen問, “你需要有一個單獨的電源分配連接,物理連接方案,厚型TSV或什么可以在芯片中承擔功率的東西。當今最常用的技術是將微型接觸點的集合聚合到作為單個連接的接觸點區(qū)域中。因此,可以選擇其中的100個,它們都是Vss或Vdd,并且它們都可以協(xié)同工作,電流將分配給各個接觸點?,F在,必須進行非常仔細的分析,以確保所有這些接觸點都不會過熱而導致局部熔化?!?/p>
我們也需要額外模型?!拔倚枰粋€這樣的功率模型,那樣的熱量模型?!?Cadence的IC封裝和跨平臺解決方案產品管理小組主管John Park說, “針腳間距標準是什么?當人們開始思考小芯片到小芯片接口的標準時,要考慮一份檢查清單。我相信對此沒有一個單一標準??赡軙?個,10個,甚至更多。封裝的種類繁多,沒有標準適用于所有內容。雖然最后我們都會找到。大型設計中可能有數十個甚至可能數百個小芯片,如果使用層壓板進行設計,整個面積可能會變得很大。那么信號需要傳播多長距離?”
隨著重大問題的解決,新的問題將會浮出水面。英特爾的Alvarez說:“在CHIPS聯(lián)盟內部,通過AIB 2.0,我們正在向小芯片添加其他概念,例如安全性。我們還在尋找其他方法處理接口,協(xié)議等。我們希望為小芯片開發(fā)提供更完整的硬件框架?!?/p>
結論
半導體行業(yè)正在通過標準整合專有小芯片。今天,許多專有解決方案已交由標準機構處理。整個行業(yè)正在整合這些解決方案,但是只有一定程度的合并是可能的,或者可能符合我們的需求。
案例將推動提案的采用率,如果取得初步成功,那么這個方向將會冒出更多案例,但是它們都可能需要標準做出一些變化,因為靈活性和優(yōu)化始終很難平衡。