AI 應用的關鍵 SRAM 故障了,異常真因該怎麼找呢?
SRAM 以其高速運作、低延遲和低耗能的特性,對於發展 AI 人工智慧所需的高效運算及機器學習至關重要。當 IC 內部的 SRAM 出現問題,雖然已知異常位置,但礙於 SRAM 結構密集且重複性高,如何得知更多異常點資訊,分析出異常真因是一大挑戰。
https://youtu.be/AZCN0A2ZLuw
記憶體分為兩大類,第一類稱為「非揮發性記憶體」(non-Volatile),比如 Flash(快閃記憶體),用於長期儲存資料;另一類則為「揮發性記憶體」(Volatile),包括 DRAM(動態隨機存取記憶體 Dynamic Random Access Memory)和 SRAM(靜態隨機存取記憶體 Static Random Access Memory),可即時高速運算暫存資料。兩者最大的差異,在於電源供應終止後,儲存的資料是否會消失。
SRAM 和 DRAM 屬於揮發性記憶體,當晶片進行邏輯運算後,讀寫結果會暫存在 SRAM 和 DRAM 中,類似倉儲的角色。只要電源供應不中斷,SRAM 和 DRAM 中的資訊就會一直存在。一旦電源關閉,SRAM 和 DRAM 內儲存的資料將會消失。
相較於 DRAM,SRAM 具有靜態存取特性,不需要週期性地刷新數據,因此更加節能,耗電量也更少。此外,SRAM 透過開關電晶體即可讀取數據,存取時間較 DRAM 快速,這使得 SRAM 成為應用於 CPU 和 GPU 中快取記憶體的主流選擇。
儘管台積電在 2022 年 IEDM(International Electron Devices Meeting )會議中表示,三奈米(N3)製程的 SRAM 面積僅比五奈米(N5)製程縮小約 5%,同時,Intel 4 製程的 SRAM 密度相較於 Intel 7 製程也僅微縮了約 23%,SRAM 微縮速度似乎已面臨瓶頸。因此,最近亦出現許多欲替代 SRAM 的新興技術的開發。
然而,由於前述優勢,SRAM 技術在當今的 AI 人工智慧和高效運算(HPC)晶片中仍扮演著重要角色。為提升 CPU 性能,將 SRAM 晶片堆疊在 CPU 上方也是一種從 PPA(Power/功率、Performance/性能、Area/面積)多方考量下的替代方案。但當 IC 中存在許多結構相同且密集的 SRAM,一旦 IC SRAM 發生故障,如何進行故障分析,增強晶片的良率和穩定性非常重要。因此,本期宜特小學堂將從 SRAM 操作原理談起,進而介紹常見的失效模式,再透過宜特故障分析實驗室專業團隊提供的分析協助您找出異常點真因。
一、SRAM 的讀寫原理
SRAM 單一位元(bit)可由六個(6T)、八個(8T)、十個(10T)電晶體所組成,每個位元甚至也有使用更多電晶體的設計以實現多埠(Port)的讀寫功能,其中,以6T SRAM架構最為常見。6T SRAM由六個電晶體組成(圖一),分為 2 個 PMOS 的 Pull Up(PU),4個 NMOS 的 Pull Down(PD)及 Pass Gate(PG),這裡 PU 和 PD 形成一個反相器,兩對 PU 與 PD 構成的兩個反相器利用線路形構成互鎖結構,實現資料的保存。PU 也稱為 Load Transistor,負責實現節點的高電位,即 1 的狀態,PD 也稱為 Drive Transistor,負責實現節點的低電位,即 0 的狀態;在一個 bit 中,透過兩個節點(Q 和 Q̅)高低電位互換,就能實現 0 和 1 兩種狀態的存儲,PG 也稱為 Access Transistor,負責實現位元線(Bit Line, BL)訊號的接入,以實現讀寫功能。
▲ 圖一:(a)6T SRAM 結構圖;(b)對應 Layout 的 6T SRAM(圖片來源:宜特科技)
6T-SRAM 做讀寫動作時都需打開字線(Word Line,WL),如果要將資料寫入,則要將位元線(BL)及 B̅L̅ 固定在一組固定的電壓,強制 bit-cell內儲存資料的節點 Q 及 Q̅ 轉換狀態。當欲寫入1時,BL電壓為元件中的工作電壓(Supply Voltage for the Drain,VDD), B̅L̅ 電壓為 0;而想寫入 0 時,BL 電壓為 0, B̅L̅ 電壓為 VDD。寫入動作是利用外部電壓源強行改變 bit-cell (Q,Q̅)的內容 (由外部影響內部)。
至於讀取資料時,一樣要將 WL 打開,即將 WL 拉到 VDD。和寫入動作不同的只是 BL 和 B̅L̅ 的狀態。讀取前,需將 BL 和 B̅L̅ 的電壓拉到相同的電位,也就是 V(BL)=V( B̅L̅ ),稱為 pre-charge voltage,一般多為 VDD 或 (VDD - VT)。讀取的動作是將外部 BL 及 B̅L̅ 平衡(pre-charge),然後讓 bit-cell(Q,Q̅)的內容去影響 BL 和 B̅L̅ (由內部影響外部)。由於 bit-cell 的驅動力很小,需要仰賴感測放大器(sense amplifier)來放大 BL 及 B̅L̅ 的差異,以讀取出 0 或 1。
二、常見的 SRAM 失效模式
根據上一節 SRAM 操作原理介紹,我們可以 SRAM 異常點出現的位置,將 SRAM 的失效模式分成以下多種常見的失效模式:單位元失效(Single bit failure)、雙位元失效(Twin bit failure)、四位元失效(Quad bit failure)、部分位元線失效(Partial bit line)、位元線失效(Bit line failure)、字線失效(Word line failure)、區塊失效(Block failure)等(圖二)。在進行故障分析之前,宜特科技建議,如果能先確認失效位元的失效模式,將可加速後續的分析進展。
(一)單位元失效(Single bit failure):
單位元失效又可細分為恆態單位元失效 (hard single bit)與暫態單位元失效 (soft single bit)兩種失效模式。恆態單位元失效,是指該位元在不同電壓下都無法正常運作;暫態單位元失效 (soft single bit)失效,則指該位元僅在特定電壓下無法正常運作。
如一開始介紹,PU、PD 或 PG 是構成 SRAM 的基本元件,Hard single bit 的異常真因會落在 PU、PD 或 PG 的元件異常運作,或是連接這些元件的線路上。而 Soft single bit 的失效成因,則以 PU、PD 或 PG 元件微漏電或高阻值異常,甚或是各對 PU、PD 或 PG 之間電壓值差異所導致。
(二)雙位元失效與四位元失效(Twin and Quad bit failure):
當發生雙位元或四位元失效時,因其為相鄰位元遭受功能失效異常,我們可以專注在失效位元共用的線路上進行分析檢測,常見的異常通常是其共用線路上金屬層串接異常所導致。
(三)部分位元線失效(Partial bit line):
此失效模式是指該位元線上,部分位元操作正常,但其他使用同一條位元線上的位元無法正常運作,這部分常見的失效真因是位元線在正常與異常位元轉換交界處發生線路異常。
(四)位元線失效(Bit line failure):
此故障模式與部分位元線失效類似,但其發生異常的真因位置是落在 SRAM 陣列旁的位元線控制電路,而非在 SRAM 陣列之內。
(五)字線失效(Word line failure):
此故障模式與位元線失效類似,只是發生在字線上,但往往發生異常的真因位置是落在 SRAM 陣列旁的字線控制電路。
(六)區塊失效(Block failure):
此故障模式與位元線或字線失效類似,但因其異常是整個區塊失效,異常真因位置是落在 SRAM 陣列旁控制該區塊的控制電路之上。
▲ 圖二:(a)垂直雙位元失效(Vertical twin bit failure);(b)水平雙位元失效(Horizontal twin bit failure);(c)字線/位元線失效(WL/BL failure):WL/BL driver 處異常和部分位元線失效(Partial BL failure):BL metal 處的異常;(d)區塊失效(Block failure):WL or BL decoder 處的異常(圖片來源:宜特科技)
三、常見的 SRAM 失效模式故障分析手法
接著,宜特專業團隊將針對上述列出的 SRAM 失效模式一一介紹各自的故障分析手法。
(一) 單位元失效分析方式:
當遇到此類異常時,宜特科技故障分析實驗室會先將試片去層至相關電路層次(如 Metal3)進行 FIB (Focused Ion Beam, 聚焦離子束)失效位元標示作業(圖三),以便後續失效位元定位更加精準。接著,我們會利用掃描式電子顯微鏡(SEM)和導電式原子力顯微鏡(C-AFM)從影響該 SRAM 功能失效電路架構的最上層電路層次開始逐層搜索。若後段製程中的金屬層被排除異常,我們可以再利用奈米探針電性量測( Nano Prober)針對 PU、PD 或 PG 的元件特性進行電性量測,根據 SEM 與電性量測結果進一步評估後,可以考慮進行後續的 FIB 或穿透式電子顯微鏡(TEM) 分析,以呈現相關物性異常,以利後續的真因改善作業。
▲ 圖三:(a)標記(Mark)示意圖;(b)DB FIB Mark SEM 圖 (圖片來源:宜特科技)
(二)雙位元失效與四位元失效分析方式:
當遇到此類異常時,我們會先將試片去層至相關電路層次(如 Metal 5)進行 FIB 標示作業,好讓後續失效位元定位更加精準。接著,我們會利用 SEM 和 C-AFM 從該 SRAM 電路架構的最上層電路層次開始逐層搜索。我們可以利用 SEM 和 C-AFM 分析手法針對失效位元共用的線路進行分析檢測,並搭配後續的 FIB 或 TEM 分析將真因呈現。
(三)部分位元線失效分析方式:
在去層分析之前,此失效模式可先利用雷射光束電阻異常偵測(OBIRCH)和砷化鎵銦微光顯微鏡 (InGaAs) 進行亮點定位,以再確認物性異常位置; 其後,再依上述去層、FIB 定位與分析手法進行真因追蹤。
(四)位元線失效字線失效/區塊失效分析方式:
這些失效模式都與SRAM周邊控制電路(Peripheral circuit)相關。此類異常可先利用 OBIRCH 和 InGaAs 進行亮點定位縮小異常搜尋範圍,再依定位亮點位置進行去層,並搭配 SEM、C-AFM 和 Nano Prober 分析手法進行異常點確認,再以後續的 FIB 或 TEM 分析呈現真因。
四、SRAM故障分析案例分享
(一)恆態單位元失效(hard single bit)故障分析案例:
在這個恆態單位元失效的例子中,將 PD1 與 PU1 串接起來的結構(Butted contact)和將 PD2 與 PU2 串接起來的結構有互相短路的現象(圖四),因為這兩個串接結構屬同樣電氣性質,於 SEM VC與 C-AFM 皆無法觀測到其異常(圖五(a)(b))。在這個案例中,我們使用 Nano Prober 進行兩個結構對點,便可發現此兩個原不應相連的電路結構有互相短路的現象(圖六)。
▲ 圖四:VC異常位置對應之結構圖(圖片來源:宜特科技)
▲ 圖五:(a)單位元失效contact層的SEM VC圖;(b)單位元失效的CAFM圖(圖片來源:宜特科技)
▲ 圖六:用 Nano Prober 量測確認 Butted contact 互相短路的異常(圖片來源:宜特科技)
(二)暫態單位元失效(Soft single bit)故障分析案例:
在暫態單位元失效這個案例中,SRAM 單元內的兩組反向器因開關電壓不一致,導致暫態單位元失效。這種情況下,我們無法透過 SEM VC 進行異常偵測。此時,我們使用 Nano Prober 對 SRAM 內的六個電晶體元件進行各自的電性量測。結果顯示,失效位元在其 PD1 的閾值電壓較正常電晶體偏大超過 100mV。經過電路設計者將該量測數據回饋到電路模擬後,驗證了該閾值電壓的明顯差異確實可造成此暫態單位元失效異常(圖七)。
▲ 圖七:利用 Nano Prober 量測確認 PD1 的閾值電壓較正常電晶體偏大超過 100mV(圖片來源:宜特科技)
(三)水平雙位元失效(Horizontal twin bit failure)故障分析案例:
此類水平雙位元失效異常發生於共用相同字線的左右相鄰兩個位元,通常這類異常點會發生在兩個位元共用的電路結構(圖八(a))。經去層至共用層次最高層 Via 時,可觀察兩個相鄰位元共用接到位元線的 SEM VC 異常(圖八(b))。再針對異常位置進行 Cross section FIB 或 TEM 分析,即可發現 VC 異常位置下方的結構存在斷路的製程異常。
▲ 圖八:(a)水平雙位元失效異常位置電路圖;(b)異常SEM VC圖(圖片來源:宜特科技)
(四)垂直雙位元失效(Vertical twin bit failure)故障分析案例:
垂直雙位元失效異常發生於共用相同字線的上下相鄰兩個位元,與上述水平雙位元失效相似。這類異常點會發生在兩個位元共用的電路結構中(圖九(a))。經去層至共用層次最高層 Via 時,可觀察兩個相鄰位元共用接到字線的 SEM VC異常(圖九(b))。針對異常位置進行 Cross section FIB 或 TEM 分析,即可發現 VC 異常位置下方的結構存在斷路的製程異常。
▲ 圖九:(a)垂直雙位元失效異常位置電路圖;(b)WL故障案例的Via0 layer SEM VC圖 (圖片來源:宜特科技)
在解析一個產品 SRAM 的故障分析中,發現總是無法找到故障異常點時,我們必須再度確認是否有位元電性位置(electrical address)與位元物性位置(physical address)不匹配的狀況。此時,宜特科技故障分析實驗室會建議進行 Scramble check 作業來驗證和確認位元位置的電/物性轉譯。
Scramble check,主要應用於新產品開發初期的驗證。經過與電路設計者討論後,選取特定的字線或位元線甚或特定位元,利用 FIB IC 電路修補手法將其切斷以製造失效位置,再利用產品測試程式進行失效位置確認,進而確認位元電性位置(electrical address)與位元物性位置(physical address)如何匹配。在 Scramble check 驗證後,將可排除 SRAM 產品故障分析時找不到正確分析位置的可能性。
▲ 圖十:WL & BL 切斷示意圖(圖片來源:宜特科技)
本文與長久支持宜特的您分享,如果有需要 SRAM 故障分析流程表,歡迎與我們聯繫,宜特將提供一張精心製作的圖表,供您參考。歡迎洽詢 +886-3-579-9909 分機 6775 施先生(CY) │Email: web_ISE@istgroup.com;marketing_tw@istgroup.com。
(首圖來源:宜特科技;資料來源:宜特科技)
留言 1