在計(jì)算機(jī)的一生中,CPU壞的概率極小。正常使用的情況下,就算其他主要的電腦配件都?jí)牧?,CPU都不會(huì)壞。
CPU出現(xiàn)損壞的情況,多數(shù)都是外界原因。最主要的就是長(zhǎng)期在超頻下工作,且散熱性差,引起電子熱遷移導(dǎo)致的損壞。
現(xiàn)在的個(gè)人電腦的更新?lián)Q代基本不是由于CPU損壞才換的,主要是因?yàn)檐浖粩嗟纳?jí)、越來(lái)越大,造作系統(tǒng)的垃圾越來(lái)越多導(dǎo)致卡頓,讓你無(wú)法忍受,才換電腦的。
CPU在出廠之前,是經(jīng)過(guò)非常嚴(yán)格的測(cè)試的,甚至在設(shè)計(jì)之初,就要考慮測(cè)試的問(wèn)題??梢詮膒re-silicon、post-silicon和硅的物理性質(zhì)等方面來(lái)解釋這個(gè)問(wèn)題。
1、CPU被做成產(chǎn)品之前被檢出缺陷
這一個(gè)階段也就是芯片tape out之后,應(yīng)用到系統(tǒng)或者產(chǎn)品之前。
事實(shí)上,在現(xiàn)在的芯片設(shè)計(jì)中,在設(shè)計(jì)之初就已經(jīng)為芯片的制造,測(cè)試,以及良率做考慮了。保證這一步能檢測(cè)出芯片的缺陷,主要是DFT+ATE來(lái)保證。當(dāng)然也有一些公司會(huì)做DFD和DFM。
DFT = Design For Test
DFD = Design For Debug
DFM = Design for Manufacture
DFT指的是在芯片的設(shè)計(jì)階段即插入各種用于提高芯片可測(cè)試性(包括可控制性和可觀測(cè)性)的硬件電路,通過(guò)這部分邏輯,生成測(cè)試向量,使測(cè)試大規(guī)模芯片變得容易的同時(shí),盡量減少時(shí)間以節(jié)約成本。
DFT--可測(cè)性設(shè)計(jì),按流程劃分,依然屬于設(shè)計(jì)階段(pre-silicon),只不過(guò)是為測(cè)試服務(wù)的。
而ATE(Auto Test Equipment )則是在流片之后,也就是post-silicon階段。
ATE測(cè)試就是為了檢查制造缺陷過(guò)程中的缺陷。芯片測(cè)試分兩個(gè)階段,一個(gè)是CP(Chip Probing)測(cè)試,也就是晶圓(Wafer)測(cè)試。另外一個(gè)是FT(Final Test)測(cè)試,也就是把芯片封裝好再進(jìn)行的測(cè)試。
CP測(cè)試的目的就是在封裝前就把壞的芯片篩選出來(lái),以節(jié)省封裝的成本。同時(shí)可以更直接的知道Wafer 的良率。CP測(cè)試可檢查fab廠制造的工藝水平?,F(xiàn)在對(duì)于一般的wafer成熟工藝,很多公司多把CP給省了,以減少CP測(cè)試成本。具體做不做CP測(cè)試,就是封裝成本和CP測(cè)試成本綜合考量的結(jié)果。
一片晶圓越靠近邊緣,die(一個(gè)小方格,也就是一個(gè)未封裝的芯片)出問(wèn)題的概率越大。測(cè)出壞的芯片根據(jù)不同壞的情況不同,也會(huì)分bin,最終用作不同的用途。
所以在芯片被做成成品之前,每一片芯片都是經(jīng)過(guò)量產(chǎn)測(cè)試才發(fā)貨給客戶(hù)的。
2、做成成品出廠以后,在使用過(guò)程中壞掉了
就單個(gè)晶體管來(lái)看,在正常使用過(guò)程中,真的那么容易壞掉嗎?其實(shí)不然。
硅由于物理性質(zhì)穩(wěn)定,禁帶寬度高(1.12ev),而且用作芯片的硅是單晶硅,也很難發(fā)生化學(xué)反應(yīng),在非外力因素下,晶體管出問(wèn)題的概率幾乎為零。
即使如此,芯片在出場(chǎng)前,還要經(jīng)過(guò)一項(xiàng)測(cè)試,叫“老化測(cè)試”,是在高/低溫的爐里經(jīng)過(guò) 135/25/-45攝氏度不同溫度以及時(shí)間的測(cè)試,以保證其穩(wěn)定性和可靠性。
根據(jù)芯片的使用壽命根據(jù)浴盆曲線(Bathtub Curve),分為三個(gè)階段,第一階段是初期失效:一個(gè)高的失效率。由制造,設(shè)計(jì)等原因造成。第二階段是本征失效:非常低的失效率,由器件的本征失效機(jī)制產(chǎn)生。第三個(gè)階段:擊穿失效,一個(gè)高的失效率。而在計(jì)算機(jī)正常使用的時(shí)候,是處在第二階段,失效的概率非常小。
但是,耐不住有上百億個(gè)晶體管?。?所以,還是有壞的概率的。
就算是某個(gè)晶體管壞了,芯片設(shè)計(jì)中會(huì)引入容錯(cuò)性設(shè)計(jì),容錯(cuò)性設(shè)計(jì)又可以從軟件和硬件兩個(gè)方面來(lái)實(shí)施。
比如多核CPU可以通過(guò)軟件屏蔽掉某個(gè)壞的核心,ATE測(cè)試后根據(jù)不同缺陷分bin的芯片,也會(huì)用在不同的產(chǎn)品上,畢竟流片是十分昂貴的。比如Intel的i3,i5,i7等。當(dāng)然,也不是所有的i3都是i5、i7檢測(cè)出來(lái)的壞片。
再比如存儲(chǔ)器中一般存在冗余的信號(hào)線和單元,通過(guò)檢查發(fā)現(xiàn)有問(wèn)題的單元,從而用冗余的模塊替換有缺陷的模塊,保證存儲(chǔ)的正常使用。
比如下面橙色的為冗余的memory,紅色的是壞的memory,我們便可以通過(guò)算法把紅色memory的地址映射到橙色備用的一個(gè)memory上。
芯片測(cè)試是極其重要的一環(huán),有缺陷的芯片能發(fā)現(xiàn)的越早越好。如果把壞的芯片發(fā)給客戶(hù),不僅損失巨大,對(duì)公司的聲譽(yù)也會(huì)造成負(fù)面的影響。
在芯片領(lǐng)域有個(gè)十倍定律,從設(shè)計(jì)-->制造-->封裝測(cè)試-->系統(tǒng)級(jí)應(yīng)用,每晚發(fā)現(xiàn)一個(gè)環(huán)節(jié),芯片公司付出的成本將增加十倍?。?!
高質(zhì)量的測(cè)試是由DFT,ATE,diagnosis,EDA等多方面協(xié)作完成的,尤其在超大規(guī)模集成電路時(shí)代,測(cè)試變得越來(lái)越難,越來(lái)越重要,其開(kāi)銷(xiāo)在整個(gè)芯片流程中也占有很大的比重。芯片作為工業(yè)皇冠上的明珠,所有電子系統(tǒng)的大腦,是萬(wàn)萬(wàn)不能出問(wèn)題的!