電子裝備系統(tǒng)是星鏈、火星探測(cè)器、玉兔、嫦娥等航天器的重要支撐,而宇航級(jí)芯片則是航天航空電子裝備的心臟。
江湖中流傳這樣一個(gè)傳說,Xilinx的一款宇航級(jí)FPGA芯片,其單價(jià)約500萬元,為史上最貴芯片。
這個(gè)傳說并不是說完全沒有依據(jù),宇航級(jí)芯片必須具備抗輻照特性,其身價(jià)往往是我們生活中常見的消費(fèi)級(jí)芯片的數(shù)十倍,甚至成百上千倍。那么,與消費(fèi)級(jí)芯片相比,這些昂貴的宇航級(jí)芯片在設(shè)計(jì)階段有什么特別之處呢?
宇航級(jí)芯片所處的空間環(huán)境
在航天器運(yùn)行的空間環(huán)境中,存在著大量的高能粒子和宇宙射線。這些粒子和射線會(huì)穿透航天器屏蔽層,與元器件的材料相互作用產(chǎn)生輻射效應(yīng),引起器件性能退化或功能異常,影響航天器的在軌安全。引起器件輻射效應(yīng)的主要空間輻射源包括地球輻射帶、銀河宇宙射線、太陽宇宙線和人工輻射。
其中,對(duì)芯片工作影響最為嚴(yán)重的輻射效應(yīng)當(dāng)屬“單粒子效應(yīng)”。
據(jù)數(shù)據(jù)統(tǒng)計(jì),從 1971 年到 1986 年間,國(guó)外發(fā)射的 39 顆同步衛(wèi)星共發(fā)生了 1589 次故障,有 1129 次故障與空間輻射有關(guān),且其中的 621 次故障是由于單粒子效應(yīng)導(dǎo)致的。這些統(tǒng)計(jì)數(shù)據(jù)說明了航天應(yīng)用中電子器件的主要故障來自于空間輻射,而單粒子效應(yīng)導(dǎo)致的故障在其中占較大比重。
這些故障中,部分是永久性不可逆的,如發(fā)生單粒子鎖定導(dǎo)致芯片內(nèi)部局部短路從而產(chǎn)生大電流燒毀器件。針對(duì)此類錯(cuò)誤可以應(yīng)用一些特定工藝或器件庫(kù)來避免。而太空中大部分錯(cuò)誤是由于半導(dǎo)體器件的邏輯狀態(tài)跳變而導(dǎo)致的可恢復(fù)的錯(cuò)誤,如單粒子翻轉(zhuǎn)導(dǎo)致存儲(chǔ)器存儲(chǔ)內(nèi)容錯(cuò)誤。
單粒子翻轉(zhuǎn)(Single-Event Upsets,SEU)指的是元器件受輻照影響引起電位狀態(tài)的跳變,“0”變成“1”,或者“1”變成“0”,但一般不會(huì)造成器件的物理性損傷。正因?yàn)椤皢瘟W臃D(zhuǎn)”頻繁出現(xiàn),因此在芯片設(shè)計(jì)階段需要重點(diǎn)關(guān)注。這也是這篇文章的重點(diǎn)。
在芯片設(shè)計(jì)階段如何防護(hù)“單粒子翻轉(zhuǎn)”
(1) 選擇合適的工藝制程
在航天領(lǐng)域,并不是工藝制程越小越好。通常來講,工藝制程越小,抗輻照能力越差。因此,為了確??煽啃?,一般會(huì)選擇較大線寬的制程,比如0.18um、90nm、65nm等,而不會(huì)一味追求摩爾定律的前沿制程。
?。?)加固標(biāo)準(zhǔn)單元工藝庫(kù)
標(biāo)準(zhǔn)單元工藝庫(kù)是數(shù)字芯片的基石。如果把數(shù)字芯片看做一個(gè)建筑,標(biāo)準(zhǔn)單元工藝庫(kù)就是構(gòu)成建筑的磚塊。標(biāo)準(zhǔn)單元工藝庫(kù)包括反相器、與門、寄存器、選擇器、全加器等多種基本單元,每一個(gè)標(biāo)準(zhǔn)單元對(duì)應(yīng)著多個(gè)不同尺寸(W/L)、不同驅(qū)動(dòng)能力的單元電路,基于這些基本單元即可構(gòu)成復(fù)雜的數(shù)字芯片。
鑒于數(shù)字芯片的超大規(guī)模,已經(jīng)很難通過全定制電路結(jié)構(gòu)的方式來設(shè)計(jì),而直接對(duì)商用工藝庫(kù)進(jìn)行加固則是設(shè)計(jì)成本最低的選擇。在制造廠商提供的標(biāo)準(zhǔn)單元庫(kù)基礎(chǔ)上結(jié)合抗輻照加固措施,使設(shè)計(jì)出來的輸入輸出單元庫(kù)具有抗輻照能力。加固之后的工藝庫(kù)需要晶圓廠流片驗(yàn)證。
?。?)設(shè)計(jì)冗余化
在抗輻照加固方法中,三模冗余(TMR)是最具有代表的容錯(cuò)機(jī)制。同一時(shí)間三個(gè)功能相同的模塊分別執(zhí)行一樣的操作,鑒于單粒子翻轉(zhuǎn)瞬時(shí)僅能打翻1路,“三選二”的投票器將會(huì)選出其余兩路的正確結(jié)果,增強(qiáng)電路系統(tǒng)的可靠性。三模冗余最顯著優(yōu)點(diǎn)是糾錯(cuò)能力強(qiáng),且設(shè)計(jì)簡(jiǎn)單,大大提高電路可靠性;但缺點(diǎn)也是顯而易見,會(huì)將電路增大3倍以上。TMR的方法較為靈活,可根據(jù)性能需求在寄存器級(jí)、電路級(jí)、模塊級(jí)等任意層次設(shè)計(jì)TMR,部分EDA工具也可自動(dòng)插入。
錯(cuò)誤檢測(cè)與糾正電路(Error Detection And Correction,EDAC)也是一種簡(jiǎn)單高效的防護(hù)單粒子翻轉(zhuǎn)的電路設(shè)計(jì)方法。EDAC 主要依據(jù)檢錯(cuò)、糾錯(cuò)的原理,通過轉(zhuǎn)換電路將寫入的數(shù)據(jù)生成校驗(yàn)碼并保存,當(dāng)讀出時(shí)靠對(duì)校驗(yàn)碼進(jìn)行判定,若只有一位出錯(cuò)系統(tǒng)則自動(dòng)糾正并將正確的數(shù)據(jù)輸出,同時(shí)還會(huì)進(jìn)行數(shù)據(jù)的回寫從而覆蓋原來出錯(cuò)的數(shù)據(jù)。EDAC盡管糾錯(cuò)能力強(qiáng)大,但是需要糾錯(cuò)、譯碼電路,因此結(jié)構(gòu)較為復(fù)雜,不適宜用于高性能的數(shù)據(jù)通道中。EDAC也可用于糾正多bit出錯(cuò)的情況,但是糾錯(cuò)電路會(huì)更加復(fù)雜。
權(quán)衡TMR和EDAC的優(yōu)缺點(diǎn),通常會(huì)在邏輯電路設(shè)計(jì)中使用TMR,在存儲(chǔ)器讀寫電路中使用EDAC。
?。?)模塊獨(dú)立化
單粒子翻轉(zhuǎn)頻繁出現(xiàn),必須考慮到翻轉(zhuǎn)發(fā)生之后不影響芯片的整體功能。因此,在架構(gòu)設(shè)計(jì)中需要盡可能確保模塊之間保持較強(qiáng)的獨(dú)立性,盡可能具備獨(dú)立的復(fù)位功能,使得在單粒子打翻信號(hào)值之后,一方面出錯(cuò)電路能夠盡快通過復(fù)位信號(hào)恢復(fù)正常;另一方面,確保其他正常工作的模塊不受影響。此外,還需增加異常檢測(cè)電路,發(fā)現(xiàn)異常即可對(duì)電路進(jìn)行復(fù)位。
小結(jié)
雖然上述方法可以很好地防護(hù)單粒子翻轉(zhuǎn)效應(yīng),但是也給邏輯綜合、布局布線帶來很多困擾,在芯片物理實(shí)現(xiàn)過程中需要小心謹(jǐn)慎應(yīng)對(duì)。除上述方法外,還可引入Muller C單元、雙互鎖存儲(chǔ)單元結(jié)構(gòu)(DICE)對(duì)晶體管級(jí)電路進(jìn)行防護(hù),也可在版圖階段使用環(huán)形柵替換條形柵。
總之,在航天領(lǐng)域中,芯片的性能并不是第一考慮要素,可靠性才是重中之重。只有芯片具備抗輻照能力,才能確保航天器正常運(yùn)行。