滾燙的手機,溫度過高而死機的電腦,這些問題時常困擾著廣大的使用者們,這背后的原因多半要歸咎于芯片過熱。實際上芯片的發(fā)熱問題不僅造成了使用上的不便,也給生產(chǎn)者們帶來了巨大的技術成本,并限制了芯片性能的進一步的提升。
一顆小小的芯片為何會產(chǎn)生那么大的熱量?芯片的性能與發(fā)熱量有什么關系?工程師和科學家們又是用什么方法來解決這一問題?本文就將為你揭曉以上問題的答案。
一,功耗是芯片的夢魘
1965年,英特爾創(chuàng)始人之一的戈登·摩爾提出了經(jīng)典的摩爾定律, “每18個月性能提升一倍,價格降低一半”,這條金科玉律就像一座路標,指引著行業(yè)發(fā)展的方向與節(jié)奏。隨之而來的就是更小的晶體管,頻率更高的CPU,集成度更高的數(shù)字電路和更低的成本。一代又一代的芯片和電子產(chǎn)品由專用走向普及,并逐漸滲透到了生活和工作的方方面面。
也正是如此,人們打開了數(shù)字世界的大門,看到了前所未見的光景。但與此同時,芯片性能的躍升也逐漸遇到了瓶頸……
以柵極氧化層為例,在采用CMOS數(shù)字電路構造的CPU里,它起到關鍵的絕緣作用。柵極氧化層不僅要保證表面平整,不能有缺陷,為了符合半導體工藝標準,它的厚度也有一個理論的上限值。當制程工藝由90nm向65nm過渡時,雖然芯片的集成度得到了提升,但是想要將小于2nm的這層柵極氧化層的厚度繼續(xù)降低,卻是十分困難。這一技術難題讓英特爾這樣的芯片巨頭也為之頭疼。
隨著芯片的加工工藝精度進入原子級別,任何缺陷都被會被無限放大,比如在內部結構中僅僅缺少一個原子的厚度,就可能引起非常大的漏電流,這樣的漏電流不僅白白浪費了電能,更是引起芯片嚴重發(fā)熱的原因。以早期的英特爾奔騰四CPU為例,有一半的功耗就是由于漏電被浪費了。
如今的CPU的單核速度可達到4GHz,算力的提升也帶來了功耗和發(fā)熱量的水漲船高,這時如果還照方抓藥式地采用傳統(tǒng)的風扇降溫,CPU內部的熱量就會迅速攀升甚至將其融化。為了兼顧算力和功耗,工程師則采用了雙核芯片及多核的方法,走多核芯片路線以分擔單顆CPU的工作負荷間從而降低功耗和發(fā)熱。除此以外,此后材料的革新,也能夠對功耗和散熱起到了非常大的優(yōu)化作用。
二,神秘的測試
測試是檢驗真理的唯一標準。就像學生時代的臨考前,老師們千叮嚀萬囑咐的一句話:做完題目別著急交卷,先檢查檢查,在半導體制造過程中更是如此,從芯片的制造到交付出貨期間,芯片測試已成為了不可或缺的環(huán)節(jié)。
在所有電子元器件的制造工藝里面,存在著去偽存真的需要,為了實現(xiàn)試驗的過程,就需要各種試驗設備,這類設備就是所謂的ATE(Automatic Test Equipment)。
ATE是一種通過計算機控制,進行芯片、電路板和子系統(tǒng)等測試的設備,通過計算機編程取代人工勞動,自動化地完成測試序列。ATE的應用場合涵蓋集成電路整個產(chǎn)業(yè)鏈,主要包括了芯片的設計驗證、晶圓制造相關的測試到封裝完成后的成品測試。
ATE市場的發(fā)展可以追溯到1960年代,早期的半導體測試設備發(fā)展并不完全是由獨立的設備商引導,而是由半導體制造公司主導。仙童半導體(Fairchild)、德州儀器(TI)等制造企業(yè)生產(chǎn)ATE都是用于內部使用,而從1980年代起,ATE領域開始進行整合,2011年惠瑞捷(VERIGY)被收購后,形成了以泰瑞達(Teradyne)和愛德萬測試的雙寡頭格局。
回顧ATE的發(fā)展史,可以說泰瑞達是“第一個吃螃蟹的人”。早在1960年,兩位麻省理工高材生在波士頓創(chuàng)立了泰瑞達公司。如今,在波士頓總部的展示區(qū)域,依舊陳列著世界上第一臺ATE設備D133,它是1961年推出的第一臺二極管測試機,標志著自動測試設備邁入全新紀元。Teradyne(泰瑞達)的命名頗有意思,名字中的“Tera”取自10的12次方的前綴,“dyne”是力學的單位。如此命名,也意味著這家公司將是一股不容小覷的巨大力量。
從70年代到80年代早期的十年間,集成電路經(jīng)歷了由小規(guī)模到中規(guī)模再到大規(guī)模和超大規(guī)模的變遷。這時計算機控制的測試系統(tǒng)成為主要的測試設備。80年代中期,隨著門陣列器件的成功開發(fā),對于測試方面要求達到了256管腳,速度高于40MHz。進入到90年代,單片處理器單元(MPU)的問世也帶來了高速高管腳數(shù)的ATE。隨后多媒體器件的出現(xiàn)使ATE變得更加復雜,需要同時具有數(shù)字電路、模擬電路和存儲器電路的測試能力。
近年來,工藝節(jié)點不斷提升,芯片制程工藝不斷逼近物理極限,這些也帶來了更高的集成度。隨之而來,整個芯片的功耗方案也要作出相對應的改變。
當下,先進制程芯片具有非常復雜的供電系統(tǒng),測試成本不斷增加的同時,測試環(huán)節(jié)對產(chǎn)品良率的監(jiān)控將會愈發(fā)重要,這樣的情況下,ATE該如何測試?
三,實際測試中的挑戰(zhàn)
實際測試中的挑戰(zhàn)
應用處理器的測試機里有兩個非常重要的單元,其一是數(shù)字芯片測試的數(shù)字I/O,數(shù)字I/O承擔了相對復雜的工作,可以抓取失效;另一個就是電源,雖然DC電源看起來比較簡單,但在實際的大功率處理器的測試中,電源在起到非常重要的作用,因為它決定了測試質量,最終測試的良率也與電源的實際性能息息相關。
展開來看,應對不同的挑戰(zhàn),不同測試環(huán)節(jié)的測試參數(shù)和應用場景稍有區(qū)別,就需要采取不同的解決方案。
對于復雜的供電問題,利用模塊化的供電策略可以降低多相位復雜供電的困擾。通過靈活地分配測試資源,將電源拆解成一個個小的電源模塊,任意組合成小的單元模塊給不同的電源軌供電,同時還可以利用冗余的電源模塊來幫助已經(jīng)預設好的模塊降低供電電源軌的穩(wěn)壓壓力。
簡單舉例,一個需要30安培的VDD引腳,如果每個通道支持5安培的輸出能力,可以組合6個這樣的單元來供電,同時利用冗余的通道組合單元與前面的6個單元組合在一起降低供電壓力。
此外,還可以利用軟件編程的方式設定上電次序、軟啟動等,以減少外圍供電電路。
對于大多數(shù)應用處理器來說,工作頻率與VDD一般呈現(xiàn)正相關性。在前期的設計驗證中,廠商會嘗試尋找sweet point使得芯片在有限的功耗下表現(xiàn)出更好的性能,在實際的生產(chǎn)測試中,可能會直接地設定一個指定的VDD,看其能否在這個特定的VDD下達到預期的頻率。
數(shù)據(jù)整理來自泰瑞達
然而,在實際的測試中,沒有一款測試機是完美的。實際操作中,芯片會經(jīng)常性產(chǎn)生誤差,一種方式是嘗試編程稍高于芯片預設值的電壓,由于考慮芯片的誤差及所有的損耗,需要保證芯片引腳上的電壓依然高于預期值。通過這種測試方法,即使儀表波動到最低的電壓情況下,質量好的器件仍然可以pass,從而獲得更高的良率。
另一種方式,直接將測試儀表的輸出編程等于預期值,由于實際上一些測試機并不能達到良好的精準度,在一些情況下略低于輸出,導致這部分的芯片實際測試電壓低于預期值。
這兩種方式會造成不同的負面效果。在第一種的情況下,VDD的預期值需要制定得更高一些,這樣的話實際的電壓會高于預期值,實際測試中的熱損耗也會更大,在測試中就需要低速的向量幫助降溫。
第二種情況下,雖然實際出貨的產(chǎn)品都能夠pass預期值,但是對于一些誤差比較大的機器,會造成額外的良率損失。對于7nm、5nm的先進制程產(chǎn)品來說,良率是極其重要的一個因素,由于先進制程產(chǎn)品尤其是晶圓面積較大時的良率本身非常低,在此基礎上如果又額外損失一部分良率,這對于器件制造成本是難以接受的。
面對種種挑戰(zhàn),我們該如何測試?測試機應該具備怎樣的特性滿足以上的諸多挑戰(zhàn)需求呢?
四,不同測試挑戰(zhàn)的對癥下藥
“Millivolts Matter”,每一個毫伏的精度都非常重要。越來越低的核心電壓對電源的輸出精度,以及動態(tài)響應提出了越來越高的要求。泰瑞達一直把電源儀表的輸出電壓能力作為儀表設計最重要的參數(shù)之一,這也是泰瑞達區(qū)分于眾多ATE廠商的特征之一。
在實際測試過程中電源的供電不是完全平坦的,實際的電源功耗與實際工況有很大關系,甚至會導致芯片丟失狀態(tài),從而導致器件失效。這樣的問題既難預測又很難排查。
通過不斷改變輸出的VDD與Scan Shift頻率來查看所有測試向量的輸出結果,當VDD越低頻率越高時,越容易發(fā)生失效。在實際的Shmoo測試案例中,泰瑞達的UltraFLEXplus具有更穩(wěn)定的供電電源,這意味著可獲得更高的邊界良率,使得芯片更加貼近于真實的本征。這樣一來,在實際產(chǎn)品中,我們對于芯片的實際工況便能夠得到一個更加準確的推斷,知道哪些情況是可以工作的,哪些情況是不能工作??偟膩碚f,更好更穩(wěn)定電源不僅能夠提升良率,還能夠認識芯片在真正工況下的工作狀態(tài)。
數(shù)據(jù)整理來自泰瑞達
目前,很多芯片需要非常大的電流供電能力,輸出一個非常大的電流能力對測試機來說已經(jīng)不是一個難題了,很多測試機已經(jīng)能夠輕松供給1000A的輸出能力。然而多工位測試的時候每個芯片的單個電源軌上電都要達到800 -1000A,測試機雖然能夠滿足1000A的靜態(tài)供電,它是否能夠滿足0A到1000A的單步上電過程,成為了一個難題。在多工位測試的時候,泰瑞達所提供的解決方案就能夠滿足單步上電的大電源供給。
除了關注電源靜態(tài)、動態(tài)的部分,在電源的外圍電路設計上,socket、探針卡、loadboard等與電源的性能也是息息相關。
測試儀表的動態(tài)響應對直流電源的表現(xiàn)影響非常大,優(yōu)秀的電源方案可以幫助減少外圍電源電路的復雜度。傳統(tǒng)的ATE解決方案首先需要板卡提供能量供給,大多供給從直流部分到100kHz的頻域范圍,針對低頻、中頻、高頻等其他頻段也需要增加不一樣的外圍電路,致使整體電路比較復雜。
泰瑞達側重于簡化電路設計,通過ATE本身就能提供從低頻到中頻的輸出能力,不需要增加額外的外圍電路,盡可能減少電容數(shù)量。在實際操作中,只需加入較少種類的低ESR/ESL陶瓷電容來幫助改變高頻特性,令單個型號就可滿足輸出的動態(tài)性能。
這樣的好處在于:1)降低電容值以加速恢復時間;2)電容少意味著充放電時間更快,也就意味著充放電的能量會變少,這樣可以加速測試時間并降低socket被能量損傷的概率;3)降低電容使用種類,在使用單一電容的情況下,可以降低電路發(fā)生諧振、慢恢復等的可能性。
另一個比較大的挑戰(zhàn)在于測試單元,大功率的先進制程芯片功率耗散非常大,多數(shù)輸出的能量最終都會轉化為熱量。我們在測試時要避免芯片無限制地升溫導致芯片“被燒壞”,而是希望在測試參數(shù)的時候做到可重復、可重現(xiàn),使芯片維持在穩(wěn)定的情況下測試,保證所有收取數(shù)據(jù)的一致性。最直接的辦法可采用在測試單元的時候使用ATC(Automatic Temperature Control),常見的辦法有三種:方案一)DUT Power Monitor;方案二)Die Temperature Monitor;方案三)Package Temperature Monitor。
數(shù)據(jù)整理來自泰瑞達
三種方式各有利弊,在時間上的效益也不同(如上圖),泰瑞達更加傾向于使用方案一,其優(yōu)點在于可以更早預判芯片接下來可能發(fā)生的狀態(tài)并提前介入;其次,泰瑞達測試機原身也能夠支持這種方式,輸出每一個DPS當下負載的百分比以及輸出電壓的大小。
在很多實際量產(chǎn)的案例中,泰瑞達已經(jīng)使用了這種監(jiān)控方式,對比方案二、三可以更早預知芯片的實際工況。
芯片功率不斷加大的情況下電路變得更加復雜,我們希望在測試的過程中所有的socket、探針卡、loadboard等都能得到比較好的監(jiān)控,保證在短路、接觸不良等異常情況發(fā)生時不會因此而損壞測試部件。
為避免這種情況發(fā)生,泰瑞達在設計大部分測試板卡的過程中會添加實時的報警機制,一旦任何異常發(fā)生,能夠在不影響其他設備生產(chǎn)和中斷生產(chǎn)的情況下,通過測試機作出實時警告,提前篩查避免異常情況的出現(xiàn),減少測試漏測、質量事故等情況的發(fā)生。
數(shù)據(jù)整理來自泰瑞達
總結
半導體測試就是通過測量半導體的輸出響應、預期輸出、并進行比較以確定或評估集成電路功能和性能的過程,貫穿設計、制造、封裝、應用全過程。隨著半導體制造工藝要求的提升,測試環(huán)節(jié)在半導體制造過程中的地位隨之不斷提升。
半導體測試機的技術核心在于功能集成、精度與速度、降低成本與可擴展性。在泰瑞達看來,測試解決方案要有足夠好的靜態(tài)精度及穩(wěn)壓能力,同時在邊界情況下獲得更好的魯棒性來幫助降低失效的概率;盡可能簡化外圍電路的設計,降低運營方面的損失,側面降低測試成本;最后加入警報機制來提前預判,避免發(fā)生異常情況。