《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 業(yè)界動態(tài) > 芯片設(shè)計上云——路徑篇

芯片設(shè)計上云——路徑篇

2021-11-12
來源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 芯片 路徑

  引言:

  臨淵羨魚, 不如退而結(jié)網(wǎng)。

  —— 《淮南子 · 說林訓(xùn)》

  在前面的芯片設(shè)計上云系列文章中,我們曾經(jīng)詳細(xì)闡述了芯片上云的動力和趨勢(《芯片上“云”的動力》)。從今年下半年起,我們就切實地感受到這一波芯片設(shè)計上云大潮正撲面而來,國內(nèi)也漸漸出現(xiàn)了一批上云的芯片設(shè)計公司。

  在上云初期階段,這些公司主要分布在行業(yè)的兩端:一部分是頂端的大公司,他們上云的動力偏向于彈性算力和敏捷運維;另一部分是尾部的初創(chuàng)小型企業(yè),他們上云的動力則偏向于快速獲取標(biāo)準(zhǔn)完整的芯片設(shè)計環(huán)境從而靈活高效地開始進行芯片開發(fā)工作??梢灶A(yù)見,2022年將會是國內(nèi)芯片設(shè)計上云的第一個小高潮,“數(shù)字化轉(zhuǎn)型”已經(jīng)在芯片設(shè)計行業(yè)悄然拉開了序幕。

  如上所述,不同類型的芯片設(shè)計公司對芯片上云的原動力決定了他們將會采用不同的EDA云計算方案。因此采用什么云計算方案以及如何上云是很多芯片設(shè)計公司現(xiàn)在面臨的最直接問題,我們通過這幾年的研究,建議大家參照下圖的上云路徑來進行:

  芯片設(shè)計上云的方法論和傳統(tǒng)的芯片設(shè)計平臺建設(shè)方法論類似,都是“調(diào)研&規(guī)劃-->建設(shè)&執(zhí)行-->運營&優(yōu)化”的這樣一個可持續(xù)發(fā)展和優(yōu)化的流程,不同之處在于“芯片設(shè)計上云”在前期的“調(diào)研&規(guī)劃”中對各種需求評估和方案制定會涉及到更多的“云計算”技術(shù)和“公有云”商務(wù)條款,因此,芯片設(shè)計公司或者芯片設(shè)計上云服務(wù)商需要具備這些技術(shù)和商務(wù)知識,我們此文也著重講述如何“調(diào)研&規(guī)劃”。

  無論是行業(yè)頂端的大公司還是start-up的小型設(shè)計公司,都希望借著“芯片設(shè)計上云”的東風(fēng)在云端獲得成本優(yōu)化的高效安全設(shè)計環(huán)境,但是正如之前《芯片設(shè)計上云-挑戰(zhàn)篇》所述,“安全”、“效率”和“成本”這三個要素不可兼得,在“調(diào)研&規(guī)劃”階段必須深入了解設(shè)計上云原因給出適合的EDA云計算方案,使得上述三個因素達到最佳平衡。

  EDA上云的用戶視角

  芯片設(shè)計環(huán)境是個復(fù)雜的軟硬結(jié)合+資源管理的系統(tǒng),其技術(shù)方案必須從各個角度出發(fā),滿足不同用戶和管理的要求。

  EDA云計算方案決定因素

  從用戶視角來看,設(shè)計公司內(nèi)部不同的用戶對上云的關(guān)注點有所不同:

  芯片設(shè)計團隊對這五大因素的訴求直接決定了最終的EDA云計算方案。

  總體來說,目前主流EDA云計算方案分為:混合云方案和全云方案,分別適用于中大型設(shè)計公司和start-up小型設(shè)計企業(yè)。

  中大型設(shè)計公司的最優(yōu)選擇 - 混合云方案

  大部分中大型設(shè)計公司都已經(jīng)建好了本地數(shù)據(jù)中心,本地資源滿足了設(shè)計項目大部分時間的算力和存儲要求,但是當(dāng)設(shè)計資源需求高峰來臨的時候(例如:后端驗證高峰時),本地數(shù)據(jù)中心資源不足往往成為項目推進的瓶頸,公司的設(shè)計部門和ITCAD部門在這個時候大部分時間都用在資源協(xié)調(diào)和擴容上,因此在最大化利用本地數(shù)據(jù)中心資源的前提下,“芯片設(shè)計上云”混合云方案的彈性算力和快速交付成為解決這個痛點的最優(yōu)選擇。

  對于中大型設(shè)計公司來說,一個完整芯片設(shè)計環(huán)境上云項目,需要IT部門、CAD部門和研發(fā)部門密切配合,通過調(diào)研規(guī)劃、建設(shè)執(zhí)行、運營優(yōu)化三個階段來實現(xiàn)。所謂“謀定而后動”,在做出芯片設(shè)計環(huán)境上云的決策前,最為核心的問題是:該如何選擇最適合上云的場景?

  我們曾與很多設(shè)計團隊進行了廣泛的交流和深入調(diào)研,下面就針對這個問題展開分析。

  EDA設(shè)計環(huán)境上云的場景分析

  圖片

  以一個典型的數(shù)字IC設(shè)計項目為例(14nm通信芯片設(shè)計),我們將會從上述的上云五大因素進行展開闡述。

  1- 高彈性

  芯片設(shè)計上云的主要動力之一就是高彈性,通過計算集群的彈性伸縮來滿足芯片開發(fā)過程中的短周期的大計算需求,并能迅速在需求滿足后釋放算力資源,以控制成本。

  此案例中,設(shè)計流程中各個階段的設(shè)計作業(yè)和設(shè)計數(shù)據(jù)特征如下:

  由此可見SOC設(shè)計后端工作環(huán)節(jié)(PR、STA、后端仿真、功耗分析,PV等)的數(shù)據(jù)量大,運行時間長,需要大量的仿真計算和存儲資源。根據(jù)已有經(jīng)驗,上述環(huán)節(jié)的資源需求占據(jù)了整體資源需求的50%-60% 。其中,在STA和PV等環(huán)節(jié),還需使用專用的大內(nèi)存服務(wù)器(1.5TB以上)。“芯片設(shè)計上云”方案必須提供彈性算力技術(shù)滿足設(shè)計高峰需求。

  關(guān)于彈性計算的詳細(xì)介紹,請參考前文:芯片設(shè)計上云 ---彈性計算篇

  2- 低敏感

  實際上我們經(jīng)常與IC設(shè)計工程師探討上云話題的時候,他們的第一反應(yīng)往往是:“上云安全嗎?” 安全這個問題需要從IT和用戶視角分開來看:從IT安全角度來看,無論是在技術(shù)的領(lǐng)先性和投入的資源來看,公有云無疑是比企業(yè)自建環(huán)境更加安全的。

  公有云平臺上運行著大量企業(yè)的系統(tǒng),每天會面臨全球數(shù)以百萬計的網(wǎng)絡(luò)攻擊,公有云提供商雇傭大量信息安全工程師和利用各種監(jiān)控、防病毒、防攻擊系統(tǒng)來保證公有云平臺的數(shù)據(jù)安全;而企業(yè)的自建IT環(huán)境的安全感是因為此環(huán)境沒有受到全球網(wǎng)絡(luò)愛好者的“關(guān)注”,不會時常面臨這種安全的“考驗”,但是一旦自建IT環(huán)境遇到這種網(wǎng)絡(luò)攻擊,往往不堪一擊,從目前報道的勒索病毒案例就可見一斑。

  從IC用戶的角度,他們關(guān)心的并不是IT意義上的安全--網(wǎng)絡(luò)安全,而是設(shè)計數(shù)據(jù)的安全,設(shè)計數(shù)據(jù)的“敏感性”決定了安全級別,例如將RTL數(shù)據(jù)放到云上,用戶就會有心理上的不確定性,用戶需要絕對安全的“保險箱”來確保此類高敏感性的數(shù)據(jù)安全;而Netlist數(shù)據(jù),則相對來說敏感性低了很多,存放位置可以相對更靈活。

  以RTL數(shù)據(jù)為主的前端數(shù)據(jù)敏感性最高,其次為IP和工藝文件數(shù)據(jù),以Session、過程波形、歸檔數(shù)據(jù)和Report為主的過程數(shù)據(jù)安全性最低。

  顯然,選擇數(shù)據(jù)敏感性較低的設(shè)計節(jié)點上云可以作為設(shè)計上云的第一步。

  3-  低交互

  公有云平臺需要企業(yè)用戶從網(wǎng)絡(luò)遠(yuǎn)端進行接入,從企業(yè)到公有云數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬是重要的考慮因素。在EDA計算場景中,會有大量的實時海量小文件讀取同步發(fā)生,因此跨數(shù)據(jù)中心的實時計算數(shù)據(jù)傳遞幾乎是不可行的。

  另外,從目前公有云對數(shù)據(jù)傳輸?shù)氖召M策略來看,雖然數(shù)據(jù)“上傳”基本免費,但是數(shù)據(jù)“下載”需要按照下載數(shù)據(jù)大小支付數(shù)據(jù)流量費,因此,如何減少云上和云下數(shù)據(jù)“交互”,也是實現(xiàn)成本優(yōu)化的最重要的手段。

  從這點來說,“芯片設(shè)計上云”混合云方案的基本原則是要找到“零交互”的設(shè)計節(jié)點并優(yōu)先上云。

  表1和表2中也體現(xiàn)了此例中數(shù)字IC設(shè)計流程中各個節(jié)點的數(shù)據(jù)交互類型以及數(shù)據(jù)交互量,從而可以分析每個場景下需要通過遠(yuǎn)程網(wǎng)絡(luò)進行數(shù)據(jù)交互的情況。一般來說,后端流程中的STA場景是比較典型的低交互場景,大量計算生成的過程波形文件,是不需要下載到本地的。

  4- 易協(xié)同

  大規(guī)模芯片開發(fā)往往需要多地團隊的協(xié)同作業(yè),分散的數(shù)據(jù)中心和集中的數(shù)據(jù)中心一直是一個值得探討的問題。相對來說,集中的數(shù)據(jù)中心對于數(shù)據(jù)版本同步的要求要少很多,也更容易進行平臺維護和項目進程控制,更容易實現(xiàn)項目多地協(xié)同的需求。

  但是對于中大型設(shè)計公司來說,一個集中數(shù)據(jù)中心容量有限,當(dāng)碰到項目資源需求高峰和利用先進制程進行產(chǎn)品升級設(shè)計時,將設(shè)計流程中的部分設(shè)計節(jié)點遷移到云上,利用公有云資源和“芯片設(shè)計上云”混合云方案的彈性算力實現(xiàn)集中數(shù)據(jù)中心的無縫擴展依然能很好的滿足項目組協(xié)同的需求。

  目前比較有趣的一個現(xiàn)象是半導(dǎo)體行業(yè)非?;馃幔芏喙镜暮蠖硕祭猛獠抠Y源來完成,這種情況下,“芯片設(shè)計上云”混合云方案可以為這種設(shè)計公司的協(xié)作方快速提供一個可連通、相對數(shù)據(jù)隔離、并可控的設(shè)計環(huán)境,在保證協(xié)同效率的情況下還兼顧了數(shù)據(jù)安全。

  5- 用戶使用習(xí)慣

  半導(dǎo)體行業(yè)是一個IT技術(shù)相對保守的行業(yè),這個行業(yè)采用了20多年的LSF來管理計算集群的方式,早已是行業(yè)主流,大部分可并行的EDA工具也原生集成了LSF,對大都數(shù)有經(jīng)驗的IC工程師來說,通過LSF的方式下提交作業(yè)也是最習(xí)慣的工作方式。行業(yè)內(nèi)絕大多數(shù)的本地計算集群,都優(yōu)選采用的LSF進行作業(yè)調(diào)度和集群管理。

  前文中(《芯片設(shè)計上云-彈性計算篇》)我們闡述過LSF如何與公有云構(gòu)成一個自動化的彈性算力池的方法,尤其是CAD環(huán)境的6個方面,都與LSF有著深度的集成。

  “CAD管理內(nèi)容的其他幾個方面,往往也都是基于這樣的底層架構(gòu)來進行定制化管理,包括設(shè)計流程自動化、EDA工具與調(diào)度工具的集成、設(shè)計環(huán)境標(biāo)準(zhǔn)化、設(shè)計數(shù)據(jù)管理的標(biāo)準(zhǔn)化、License管理和調(diào)度等?!?/p>

  保持透明的用戶習(xí)慣,對于初次上云的用戶來說,非常重要,否則會增加額外的成本和阻力。

  1- STA上云

  2018年起,我們接觸到了行業(yè)內(nèi)的一個大型企業(yè)的上云案例,針對這個案例進行了深入的調(diào)研,尤其是對STA上云場景進行了深入分析。在整個SOC設(shè)計流程中,STA的應(yīng)用場景,能最好地滿足以上五個關(guān)鍵因素。

  高彈性:STA屬于可高并發(fā)的并行作業(yè)場景,例如,在STA中需要通過大量計算任務(wù)去校驗設(shè)計的各種結(jié)果,根據(jù)芯片規(guī)模大小,往往會達到上萬次的并行計算,而在本地計算環(huán)境內(nèi),受到物理容量的限制,是無法無限擴展瞬間算力的,因此傳統(tǒng)的項目管理模式下,往往需要通過在有限的本地計算集群中排隊處理。假如跑一次STA需要1小時,一萬個STA job在10臺服務(wù)器上需要排隊跑1000個小時。而在云上,可以充分利用彈性方法,開出更多臺機器,在最短的時間內(nèi)并發(fā)跑完所有的job。

  低敏感:如表2中設(shè)計流程的輸入輸出文件的分析,STA在整個IC設(shè)計流程里面來說,數(shù)據(jù)敏感性偏低,把STA的相關(guān)數(shù)據(jù)放在云端對于傳統(tǒng)的研發(fā)用戶來說,是更容易接受的。

  低交互:STA是比較滿足低交互的特征的,STA的輸入文件和輸出文件,可以單節(jié)點在云端進行獨立的計算,而不需要大量的以及實時的線上線下數(shù)據(jù)交換,從而使得網(wǎng)絡(luò)帶寬的壓力幾乎沒有。而且STA的計算結(jié)果是波形文件,絕大多數(shù)情況下是不需要下載到本地的。

  易協(xié)同:如前所述,集中的設(shè)計平臺對于多團隊的協(xié)同研發(fā)場景是最為簡便的基礎(chǔ)架構(gòu)方法,云端的超大算力池空間為集中的設(shè)計平臺提供了更為簡便的選擇。

  使用習(xí)慣:如前面發(fā)布的彈性算力文章,在云端的芯片設(shè)計平臺,跟本地的設(shè)計環(huán)境可以做到完全相同架構(gòu),對計算集群的管理統(tǒng)一通過LSF作業(yè)調(diào)度來進行。對于研發(fā)用戶來說,在云上和本地,是完全無感透明的用戶體驗,通過bsub去統(tǒng)一提交作業(yè),LSF可以自行來進行Multi-Cluster的調(diào)度管理。

  從這5大因素分析來看,此次這個大廠選擇STA這個設(shè)計節(jié)點上云正是一個最為穩(wěn)妥安全的選擇。

  2- Start-up設(shè)計公司的最優(yōu)選擇 - 全云方案

  如本文開始所說,大量start-up的設(shè)計公司也會選擇“芯片設(shè)計上云”,其動力主要來自于成本和效率兩個方面。現(xiàn)在很多的start-up小型公司呈現(xiàn)出這樣一些特征:

  人員規(guī)模不大,但是站點較多,有些可能還有國外的設(shè)計人員

  啟動資金有限,自建機房負(fù)擔(dān)較重

  需要馬上開始芯片設(shè)計,芯片設(shè)計平臺交付周期緊

  沒有專職的IT/CAD人員,對設(shè)計平臺如何搭建缺乏專業(yè)知識

  公司初期辦公地點不定,可能會經(jīng)常搬家

  “芯片設(shè)計上云”全云方案就能非常好的滿足以上需求。以下是一個初創(chuàng)公司的全云方案:

  此全云方案提供了完整的行業(yè)三層網(wǎng)絡(luò)安全架構(gòu),并包含可擴展的彈性算力集群+存儲以及成熟的數(shù)據(jù)傳輸方案,對于終端用戶來說使用習(xí)慣和之前完全保持了一致,用戶可以從各個地方通過internet連接進入“云端”的設(shè)計平臺進行設(shè)計工作。

  此方案使得用戶可以在每年十幾萬基礎(chǔ)設(shè)施投資的情況下,并在不到一周的時間拿到設(shè)計環(huán)境,這對于很多start-up設(shè)計公司來講是非常有幫助的,此方案也將“云計算”的精髓-- “萬物皆服務(wù)”發(fā)揮得淋漓盡致。

  當(dāng)然,EDA云計算方案和上云場景的對應(yīng)關(guān)系也不是絕對的,還是要根據(jù)企業(yè)的整體芯片項目規(guī)劃來綜合進行決策,因此大量而細(xì)致的調(diào)研工作和詳細(xì)的上云規(guī)劃是“芯片設(shè)計上云”是否能夠成功的關(guān)鍵,對于每個芯片設(shè)計公司來說,其上云路徑和方案都是需要量身定做的,比如:在計算節(jié)點的選型上,方案需要根據(jù)芯片類型和作業(yè)特征來選擇云上最合適的機型。在這里,摩爾精英IT/CAD設(shè)計平臺事業(yè)部總結(jié)了這幾年提供的“芯片設(shè)計上云”服務(wù)的經(jīng)驗并進行分享,希望給行業(yè)上云提供一些有用的參考。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。