高性能計(jì)算(HPC)和超大規(guī)模存儲(chǔ)不僅讓我們得以在超級(jí)互聯(lián)和人工智能的幫助下,動(dòng)動(dòng)手指就能輕松獲取各種信息;更是我們?nèi)缃駭?shù)字生活中不可或缺的一部分。從數(shù)學(xué)模型到氣象預(yù)測,超級(jí)計(jì)算機(jī)正在協(xié)助我們改善各個(gè)領(lǐng)域的計(jì)算結(jié)果,而云數(shù)據(jù)中心則是確保數(shù)字生活正常運(yùn)行的基礎(chǔ)支柱。在當(dāng)今時(shí)代,數(shù)據(jù)不僅在數(shù)量上遠(yuǎn)超以往,還面臨著需要進(jìn)行遠(yuǎn)距離高速傳輸?shù)奶魬?zhàn)。隨著芯片制程節(jié)點(diǎn)不斷微縮,逐漸逼近制造領(lǐng)域的極限,Multi-Die系統(tǒng)應(yīng)運(yùn)而生,為性能提升開辟了新的可能性。
隨著電子系統(tǒng)變得愈加復(fù)雜,靜默數(shù)據(jù)損壞(SDC)等錯(cuò)誤時(shí)有發(fā)生,芯片老化、熱挑戰(zhàn)和功耗挑戰(zhàn)等問題也同樣存在。這些問題非常棘手,如果處理不當(dāng),就會(huì)導(dǎo)致災(zāi)難性后果,尤其是在大規(guī)模處理此類問題的情況下。
除此之外,對(duì)于SoC開發(fā)者來說,由于復(fù)雜性的提高,他們迫切需要采用芯片生命周期管理(SLM)策略,以確保芯片的可靠性、可用性和可服務(wù)性(RAS)。了解最終產(chǎn)品的內(nèi)部情況并認(rèn)識(shí)長期的RAS影響,對(duì)于設(shè)計(jì)的成功至關(guān)重要。
芯片生命周期管理策略是什么?
如今,我們不僅需要在生產(chǎn)和發(fā)貨時(shí)確保芯片能夠正常運(yùn)行,還需要在整個(gè)生命周期內(nèi)對(duì)芯片工作狀態(tài)進(jìn)行監(jiān)控和測試,盡可能在問題甚至故障出現(xiàn)之前提前進(jìn)行預(yù)警甚至修復(fù)。對(duì)于SoC 和 Multi-Die產(chǎn)品,這一點(diǎn)攸關(guān)重要。為了做到這一點(diǎn),開發(fā)者需要掌控和訪問芯片內(nèi)部元件,以調(diào)試和讀取數(shù)據(jù),并進(jìn)行適當(dāng)?shù)姆治鰜泶_定是否存在問題。借助這些信息,開發(fā)者能夠及時(shí)維護(hù)系統(tǒng),避免問題變得無法挽回。
SLM平臺(tái)所提供的解決方案及策略可以幫助開發(fā)者采取針對(duì)性措施,在芯片的整個(gè)生命周期內(nèi)確保RAS:
設(shè)計(jì)階段/ In-Design:識(shí)別芯片中適合用于監(jiān)控的設(shè)計(jì)組件。將監(jiān)控IP直接嵌入設(shè)計(jì)的基礎(chǔ)架構(gòu)中。
產(chǎn)品試產(chǎn)及良率優(yōu)化階段/ In-Ramp:優(yōu)先處理影響良率的主要限制因素,進(jìn)行準(zhǔn)確的故障分析,并調(diào)整設(shè)計(jì)和/或晶圓工藝,從而滿足高良率要求。
量產(chǎn)階段/ In-Production:通過自動(dòng)化洞察功能識(shí)別良率和質(zhì)量異常,在大批量生產(chǎn)的各個(gè)階段進(jìn)行根本原因分析,并在必要時(shí)對(duì)半導(dǎo)體供應(yīng)鏈進(jìn)行調(diào)整。
產(chǎn)品實(shí)際應(yīng)用現(xiàn)場/ In-Field:通過預(yù)測性維護(hù)評(píng)估芯片運(yùn)行狀況,并優(yōu)化各項(xiàng)性能指標(biāo),比如功耗和吞吐量(如果可能),特別是在芯片不斷老化的情況下。
示例:對(duì)策略建模,從而改善熱和電源管理
在SoC系統(tǒng)中,管理熱復(fù)雜性和優(yōu)化功耗是重中之重。而且,當(dāng)一個(gè)系統(tǒng)中包含多個(gè)晶片時(shí),管理難度會(huì)呈指數(shù)級(jí)增長,特別是在系統(tǒng)不斷老化的情況下。要想緩解熱問題和電壓問題并在HPC和數(shù)據(jù)中心中保障芯片長期可靠運(yùn)行,在設(shè)計(jì)中整合適當(dāng)?shù)谋O(jiān)控功能是必不可少的。
多年來,在芯片內(nèi)部的片上電壓和電源管理一直使用工藝、電壓和溫度(PVT)監(jiān)測器,也稱為動(dòng)態(tài)電壓頻率調(diào)整(DVFS)技術(shù)。有些場景下,這些監(jiān)視器用于監(jiān)測溫度,當(dāng)溫度可能造成災(zāi)難性結(jié)果時(shí),就會(huì)關(guān)閉系統(tǒng)。事實(shí)上,幾乎所有16納米及以下制程的芯片設(shè)計(jì)和所有的數(shù)據(jù)中心芯片,都使用PVT監(jiān)測器。
在晶圓分選測試期間,開發(fā)者將從這些監(jiān)測器獲得測試數(shù)據(jù)結(jié)果,并立即將這些數(shù)據(jù)投入使用。在這個(gè)時(shí)候,開發(fā)者將了解晶片的熱特性,并可以應(yīng)用更多測試序列來監(jiān)測晶片各處的電壓值。此外,開發(fā)者可以根據(jù)測試、PVT和PMMIP數(shù)據(jù)來執(zhí)行分析,然后返回設(shè)計(jì)環(huán)境,了解測試中得出的芯片實(shí)際裕量,并將其與模型相關(guān)聯(lián)。隨著模型的改進(jìn),開發(fā)者可以降低裕量,以提高性能或降低功耗,而又不會(huì)犧牲RAS。
為了更好地預(yù)測故障的出現(xiàn),開發(fā)者可以設(shè)置閾值。對(duì)于溫度監(jiān)測器,閾值代表開發(fā)者將在什么情況下開始介入來降低溫度。究其緣由,大部分熱響應(yīng)的速度都相對(duì)緩慢。設(shè)定的閾值越嚴(yán)格,就可以越早地采取措施。類似地,也可以使用電壓監(jiān)測器,只是監(jiān)測對(duì)象有所不同。
早期研發(fā)階段,通常只會(huì)生產(chǎn)很少量的芯片,只有確保芯片能夠正常運(yùn)行并確認(rèn)可以達(dá)到目標(biāo)良率后,才會(huì)進(jìn)行大規(guī)模生產(chǎn)。開發(fā)者會(huì)從晶圓廠的早期測試和診斷結(jié)果中收集數(shù)據(jù),另外還會(huì)在整個(gè)產(chǎn)品制造過程中收集數(shù)據(jù)。在這個(gè)期間,開發(fā)者可能會(huì)發(fā)現(xiàn)系統(tǒng)性問題并予以解決。當(dāng)芯片在現(xiàn)場部署之后,則需要使用最新的策略,了解芯片在使用過程中的運(yùn)行情況以及隨著芯片老化會(huì)發(fā)生哪些變化。為此,一些新功能應(yīng)運(yùn)而生,包括使用英特爾Sapphire Rapids進(jìn)行現(xiàn)場掃描。開發(fā)者還可以將SLM軟件代理嵌入到芯片系統(tǒng)本地,從而持續(xù)地進(jìn)行邊緣分析并緩解問題。在現(xiàn)場芯片管理領(lǐng)域中,各類創(chuàng)新層出不窮,各種新的功能也會(huì)在近期內(nèi)不斷推出。
如何綜合考慮各種數(shù)據(jù) — 全面的SLM策略
HPC和數(shù)據(jù)中心工作負(fù)載要求在整個(gè)芯片生命周期內(nèi)對(duì)芯片進(jìn)行測試、監(jiān)測和維修。因此,我們需要了解芯片內(nèi)部發(fā)生的情況。與此同時(shí),由于需要處理大量數(shù)據(jù),例如設(shè)計(jì)數(shù)據(jù)、晶圓廠數(shù)據(jù)、診斷數(shù)據(jù)、產(chǎn)品制造測試數(shù)據(jù)(包括重要的監(jiān)測數(shù)據(jù))等等,開發(fā)者迫切需要全面系統(tǒng)的方法來分析數(shù)據(jù)并生成可行見解,同時(shí)確保提升工作效率。
新思科技提供全面完整的SLM解決方案,這是一個(gè)包含多種工具的集成平臺(tái),能夠?yàn)閺脑O(shè)計(jì)到生產(chǎn)的整個(gè)SoC生命周期提供支持。另外,還有功能強(qiáng)大的現(xiàn)場解決方案即將推出!我們可以幫助開發(fā)者做好各項(xiàng)準(zhǔn)備,確保產(chǎn)品在當(dāng)前及整個(gè)生命周期內(nèi)都能正常運(yùn)行。新思科技的SLM產(chǎn)品系列包括PVT監(jiān)測器、路徑裕度監(jiān)測器(PMM)和實(shí)時(shí)高速訪問和測試(HSAT)IP。它們?yōu)殚_發(fā)者提供了所需的片上傳感器,讓開發(fā)者能夠監(jiān)測數(shù)據(jù)、運(yùn)行制造和進(jìn)行現(xiàn)場測試。借助新思科技的HSAT IP,芯片可以使用USB和PCI Express(PCIe)接口等功能I/O,因此開發(fā)者無需使用大量的測試和接口引腳,就可以在芯片部署使用時(shí)繼續(xù)執(zhí)行掃描和診斷。
除了IP監(jiān)測器,新思科技SLM還將關(guān)于各類芯片健康數(shù)據(jù)的分析和預(yù)警集中在同一位置。這一完整解決方案能夠在設(shè)計(jì)階段為開發(fā)者提供支持,幫助開發(fā)者識(shí)別需要監(jiān)測的候選路徑。在實(shí)施監(jiān)控IP之后,開發(fā)者可以使用新思科技的TestMax產(chǎn)品系列等測試基礎(chǔ)設(shè)施產(chǎn)品來將芯片連接到測試基礎(chǔ)設(shè)施,生成監(jiān)測器掃描序列,然后輸入和輸出數(shù)據(jù),以便進(jìn)一步診斷潛在的問題。借助新思科技SLM,開發(fā)者可以深入了解自己的SoC,即使在大規(guī)模生產(chǎn)中,也可以保持芯片的RAS。
我們將在9月14日召開的線上研討會(huì)中揭示如何在IC設(shè)計(jì)中嵌入分布式PVT IP,通過實(shí)時(shí)收集參數(shù)和PVT controller分析,優(yōu)化性能,提高可靠性。了解更多關(guān)于SLM PVT IP信息,請(qǐng)掃碼報(bào)名線上研討會(huì):
原文標(biāo)題:SLM:守護(hù)高性能計(jì)算與數(shù)據(jù)中心SoC的每一步
文章出處:【微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
新思科技
+關(guān)注
關(guān)注
5文章
778瀏覽量
50269
原文標(biāo)題:SLM:守護(hù)高性能計(jì)算與數(shù)據(jù)中心SoC的每一步
文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論