0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SLM:守護(hù)高性能計(jì)算與數(shù)據(jù)中心SoC的每一步

新思科技 ? 來源:未知 ? 2023-08-10 17:40 ? 次閱讀

高性能計(jì)算(HPC)和超大規(guī)模存儲(chǔ)不僅讓我們得以在超級(jí)互聯(lián)和人工智能的幫助下,動(dòng)動(dòng)手指就能輕松獲取各種信息;更是我們?nèi)缃駭?shù)字生活中不可或缺的一部分。從數(shù)學(xué)模型到氣象預(yù)測,超級(jí)計(jì)算機(jī)正在協(xié)助我們改善各個(gè)領(lǐng)域的計(jì)算結(jié)果,而云數(shù)據(jù)中心則是確保數(shù)字生活正常運(yùn)行的基礎(chǔ)支柱。在當(dāng)今時(shí)代,數(shù)據(jù)不僅在數(shù)量上遠(yuǎn)超以往,還面臨著需要進(jìn)行遠(yuǎn)距離高速傳輸?shù)奶魬?zhàn)。隨著芯片制程節(jié)點(diǎn)不斷微縮,逐漸逼近制造領(lǐng)域的極限,Multi-Die系統(tǒng)應(yīng)運(yùn)而生,為性能提升開辟了新的可能性。


隨著電子系統(tǒng)變得愈加復(fù)雜,靜默數(shù)據(jù)損壞(SDC)等錯(cuò)誤時(shí)有發(fā)生,芯片老化、熱挑戰(zhàn)和功耗挑戰(zhàn)等問題也同樣存在。這些問題非常棘手,如果處理不當(dāng),就會(huì)導(dǎo)致災(zāi)難性后果,尤其是在大規(guī)模處理此類問題的情況下。


除此之外,對(duì)于SoC開發(fā)者來說,由于復(fù)雜性的提高,他們迫切需要采用芯片生命周期管理(SLM)策略,以確保芯片的可靠性、可用性和可服務(wù)性(RAS)。了解最終產(chǎn)品的內(nèi)部情況并認(rèn)識(shí)長期的RAS影響,對(duì)于設(shè)計(jì)的成功至關(guān)重要。


芯片生命周期管理策略是什么?


如今,我們不僅需要在生產(chǎn)和發(fā)貨時(shí)確保芯片能夠正常運(yùn)行,還需要在整個(gè)生命周期內(nèi)對(duì)芯片工作狀態(tài)進(jìn)行監(jiān)控和測試,盡可能在問題甚至故障出現(xiàn)之前提前進(jìn)行預(yù)警甚至修復(fù)。對(duì)于SoC 和 Multi-Die產(chǎn)品,這一點(diǎn)攸關(guān)重要。為了做到這一點(diǎn),開發(fā)者需要掌控和訪問芯片內(nèi)部元件,以調(diào)試和讀取數(shù)據(jù),并進(jìn)行適當(dāng)?shù)姆治鰜泶_定是否存在問題。借助這些信息,開發(fā)者能夠及時(shí)維護(hù)系統(tǒng),避免問題變得無法挽回。


SLM平臺(tái)所提供的解決方案及策略可以幫助開發(fā)者采取針對(duì)性措施,在芯片的整個(gè)生命周期內(nèi)確保RAS:


  1. 設(shè)計(jì)階段/ In-Design識(shí)別芯片中適合用于監(jiān)控的設(shè)計(jì)組件。將監(jiān)控IP直接嵌入設(shè)計(jì)的基礎(chǔ)架構(gòu)中。

  2. 產(chǎn)品試產(chǎn)及良率優(yōu)化階段/ In-Ramp:優(yōu)先處理影響良率的主要限制因素,進(jìn)行準(zhǔn)確的故障分析,并調(diào)整設(shè)計(jì)和/或晶圓工藝,從而滿足高良率要求。

  3. 量產(chǎn)階段/ In-Production:通過自動(dòng)化洞察功能識(shí)別良率和質(zhì)量異常,在大批量生產(chǎn)的各個(gè)階段進(jìn)行根本原因分析,并在必要時(shí)對(duì)半導(dǎo)體供應(yīng)鏈進(jìn)行調(diào)整。

  4. 產(chǎn)品實(shí)際應(yīng)用現(xiàn)場/ In-Field:通過預(yù)測性維護(hù)評(píng)估芯片運(yùn)行狀況,并優(yōu)化各項(xiàng)性能指標(biāo),比如功耗和吞吐量(如果可能),特別是在芯片不斷老化的情況下。


示例:對(duì)策略建模,從而改善熱和電源管理


在SoC系統(tǒng)中,管理熱復(fù)雜性和優(yōu)化功耗是重中之重。而且,當(dāng)一個(gè)系統(tǒng)中包含多個(gè)晶片時(shí),管理難度會(huì)呈指數(shù)級(jí)增長,特別是在系統(tǒng)不斷老化的情況下。要想緩解熱問題和電壓問題并在HPC和數(shù)據(jù)中心中保障芯片長期可靠運(yùn)行,在設(shè)計(jì)中整合適當(dāng)?shù)谋O(jiān)控功能是必不可少的。


多年來,在芯片內(nèi)部的片上電壓和電源管理一直使用工藝、電壓和溫度(PVT)監(jiān)測器,也稱為動(dòng)態(tài)電壓頻率調(diào)整(DVFS)技術(shù)。有些場景下,這些監(jiān)視器用于監(jiān)測溫度,當(dāng)溫度可能造成災(zāi)難性結(jié)果時(shí),就會(huì)關(guān)閉系統(tǒng)。事實(shí)上,幾乎所有16納米及以下制程的芯片設(shè)計(jì)和所有的數(shù)據(jù)中心芯片,都使用PVT監(jiān)測器。


在晶圓分選測試期間,開發(fā)者將從這些監(jiān)測器獲得測試數(shù)據(jù)結(jié)果,并立即將這些數(shù)據(jù)投入使用。在這個(gè)時(shí)候,開發(fā)者將了解晶片的熱特性,并可以應(yīng)用更多測試序列來監(jiān)測晶片各處的電壓值。此外,開發(fā)者可以根據(jù)測試、PVT和PMMIP數(shù)據(jù)來執(zhí)行分析,然后返回設(shè)計(jì)環(huán)境,了解測試中得出的芯片實(shí)際裕量,并將其與模型相關(guān)聯(lián)。隨著模型的改進(jìn),開發(fā)者可以降低裕量,以提高性能或降低功耗,而又不會(huì)犧牲RAS。


為了更好地預(yù)測故障的出現(xiàn),開發(fā)者可以設(shè)置閾值。對(duì)于溫度監(jiān)測器,閾值代表開發(fā)者將在什么情況下開始介入來降低溫度。究其緣由,大部分熱響應(yīng)的速度都相對(duì)緩慢。設(shè)定的閾值越嚴(yán)格,就可以越早地采取措施。類似地,也可以使用電壓監(jiān)測器,只是監(jiān)測對(duì)象有所不同。


早期研發(fā)階段,通常只會(huì)生產(chǎn)很少量的芯片,只有確保芯片能夠正常運(yùn)行并確認(rèn)可以達(dá)到目標(biāo)良率后,才會(huì)進(jìn)行大規(guī)模生產(chǎn)。開發(fā)者會(huì)從晶圓廠的早期測試和診斷結(jié)果中收集數(shù)據(jù),另外還會(huì)在整個(gè)產(chǎn)品制造過程中收集數(shù)據(jù)。在這個(gè)期間,開發(fā)者可能會(huì)發(fā)現(xiàn)系統(tǒng)性問題并予以解決。當(dāng)芯片在現(xiàn)場部署之后,則需要使用最新的策略,了解芯片在使用過程中的運(yùn)行情況以及隨著芯片老化會(huì)發(fā)生哪些變化。為此,一些新功能應(yīng)運(yùn)而生,包括使用英特爾Sapphire Rapids進(jìn)行現(xiàn)場掃描。開發(fā)者還可以將SLM軟件代理嵌入到芯片系統(tǒng)本地,從而持續(xù)地進(jìn)行邊緣分析并緩解問題。在現(xiàn)場芯片管理領(lǐng)域中,各類創(chuàng)新層出不窮,各種新的功能也會(huì)在近期內(nèi)不斷推出。


如何綜合考慮各種數(shù)據(jù) — 全面的SLM策略


HPC和數(shù)據(jù)中心工作負(fù)載要求在整個(gè)芯片生命周期內(nèi)對(duì)芯片進(jìn)行測試、監(jiān)測和維修。因此,我們需要了解芯片內(nèi)部發(fā)生的情況。與此同時(shí),由于需要處理大量數(shù)據(jù),例如設(shè)計(jì)數(shù)據(jù)、晶圓廠數(shù)據(jù)、診斷數(shù)據(jù)、產(chǎn)品制造測試數(shù)據(jù)(包括重要的監(jiān)測數(shù)據(jù))等等,開發(fā)者迫切需要全面系統(tǒng)的方法來分析數(shù)據(jù)并生成可行見解,同時(shí)確保提升工作效率。


新思科技提供全面完整的SLM解決方案,這是一個(gè)包含多種工具的集成平臺(tái),能夠?yàn)閺脑O(shè)計(jì)到生產(chǎn)的整個(gè)SoC生命周期提供支持。另外,還有功能強(qiáng)大的現(xiàn)場解決方案即將推出!我們可以幫助開發(fā)者做好各項(xiàng)準(zhǔn)備,確保產(chǎn)品在當(dāng)前及整個(gè)生命周期內(nèi)都能正常運(yùn)行。新思科技的SLM產(chǎn)品系列包括PVT監(jiān)測器、路徑裕度監(jiān)測器(PMM)和實(shí)時(shí)高速訪問和測試(HSAT)IP。它們?yōu)殚_發(fā)者提供了所需的片上傳感器,讓開發(fā)者能夠監(jiān)測數(shù)據(jù)、運(yùn)行制造和進(jìn)行現(xiàn)場測試。借助新思科技的HSAT IP,芯片可以使用USB和PCI Express(PCIe)接口等功能I/O,因此開發(fā)者無需使用大量的測試和接口引腳,就可以在芯片部署使用時(shí)繼續(xù)執(zhí)行掃描和診斷。


除了IP監(jiān)測器,新思科技SLM還將關(guān)于各類芯片健康數(shù)據(jù)的分析和預(yù)警集中在同一位置。這一完整解決方案能夠在設(shè)計(jì)階段為開發(fā)者提供支持,幫助開發(fā)者識(shí)別需要監(jiān)測的候選路徑。在實(shí)施監(jiān)控IP之后,開發(fā)者可以使用新思科技的TestMax產(chǎn)品系列等測試基礎(chǔ)設(shè)施產(chǎn)品來將芯片連接到測試基礎(chǔ)設(shè)施,生成監(jiān)測器掃描序列,然后輸入和輸出數(shù)據(jù),以便進(jìn)一步診斷潛在的問題。借助新思科技SLM,開發(fā)者可以深入了解自己的SoC,即使在大規(guī)模生產(chǎn)中,也可以保持芯片的RAS。



我們將在9月14日召開的線上研討會(huì)中揭示如何在IC設(shè)計(jì)中嵌入分布式PVT IP,通過實(shí)時(shí)收集參數(shù)和PVT controller分析,優(yōu)化性能,提高可靠性。了解更多關(guān)于SLM PVT IP信息,請(qǐng)掃碼報(bào)名線上研討會(huì):
















原文標(biāo)題:SLM:守護(hù)高性能計(jì)算與數(shù)據(jù)中心SoC的每一步

文章出處:【微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    778

    瀏覽量

    50269

原文標(biāo)題:SLM:守護(hù)高性能計(jì)算與數(shù)據(jù)中心SoC的每一步

文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)據(jù)中心對(duì)MOS管性能的要求

    數(shù)據(jù)中心作為現(xiàn)代信息技術(shù)的核心基礎(chǔ)設(shè)施,承載著數(shù)據(jù)存儲(chǔ)、處理和傳輸?shù)闹匾蝿?wù)。在這些任務(wù)中,MOS管(金屬氧化物半導(dǎo)體場效應(yīng)晶體管)作為關(guān)鍵的電子元件,其性能對(duì)數(shù)據(jù)中心的整體效率和穩(wěn)定性起著至關(guān)重要的作用。本文將詳細(xì)探討
    的頭像 發(fā)表于 10-11 11:22 ?161次閱讀

    數(shù)據(jù)中心產(chǎn)品通常包括哪些

    應(yīng)用在數(shù)據(jù)中心的分立器件產(chǎn)品而言,這是巨大的市場機(jī)遇。在信息時(shí)代下,數(shù)據(jù)中心價(jià)值會(huì)越來越高,可靠性能也需要進(jìn)一步加強(qiáng)。好的分立器件才能更好支持數(shù)據(jù)中
    的頭像 發(fā)表于 10-11 11:12 ?161次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>產(chǎn)品通常包括哪些

    SK海力士推出高性能數(shù)據(jù)中心SSD PEB110

    SK海力士近日宣布成功開發(fā)出專為數(shù)據(jù)中心設(shè)計(jì)的高性能固態(tài)硬盤(SSD)新品——PEB110 E1.S(簡稱PEB110),標(biāo)志著公司在數(shù)據(jù)存儲(chǔ)解決方案領(lǐng)域邁出了重要一步。這款SSD旨在
    的頭像 發(fā)表于 09-12 17:01 ?495次閱讀

    淺析如何降低數(shù)據(jù)中心電力能耗

    ,如何減少數(shù)據(jù)中心的電力消耗成為了焦點(diǎn)問題。 ? 1 IT設(shè)備能耗的降低 數(shù)據(jù)中心的能耗主要源自IT設(shè)備。這些設(shè)備的直接能耗不僅增加了電費(fèi)成本,而且還需要配備相應(yīng)的電源和冷卻系統(tǒng),這些系統(tǒng)同樣消耗大量電力,從而進(jìn)一步增加
    的頭像 發(fā)表于 09-02 12:31 ?176次閱讀
    淺析如何降低<b class='flag-5'>數(shù)據(jù)中心</b>電力能耗

    數(shù)據(jù)中心提高存儲(chǔ)性能的方法是什么?

    這些技術(shù)是走向云計(jì)算的重要的第一步。 重復(fù)數(shù)據(jù)刪除 在任何數(shù)據(jù)存儲(chǔ)系統(tǒng)最大的阻礙是相關(guān)的冗余數(shù)據(jù)。采用智能壓縮技術(shù),可以刪除重復(fù)
    的頭像 發(fā)表于 08-05 11:40 ?341次閱讀

    IaaS+on+DPU(IoD)+下高性能算力底座技術(shù)白皮書

    數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲(chǔ)、安全等處理性能,助力服務(wù)器運(yùn)行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設(shè)時(shí),圍繞 DPU 構(gòu)建
    發(fā)表于 07-24 15:32

    長工微IS6102A 15A E-Fuse:數(shù)據(jù)中心電源安全的守護(hù)

    數(shù)據(jù)中心這片科技與創(chuàng)新的熱土上,高功率運(yùn)行的GPU、DPU等復(fù)雜負(fù)載如同心臟般驅(qū)動(dòng)著數(shù)據(jù)處理與計(jì)算能力的飛速提升。然而,隨著這些高性能組件的廣泛應(yīng)用,對(duì)電源設(shè)計(jì)提出了前所未有的挑戰(zhàn)。
    的頭像 發(fā)表于 07-12 17:45 ?788次閱讀

    英特爾?至強(qiáng)?6能效核處理器:Intel 3開山力作,性能提升2.6倍

    英特爾帶來了英特爾??至強(qiáng)??6能效核處理器產(chǎn)品,來滿足云化數(shù)據(jù)中心對(duì)高性能、高密度、高能效和低TCO的需求,進(jìn)一步推動(dòng)企業(yè)數(shù)字化升級(jí)的步伐。我們也期待未來將推出的288核6900E系列以及
    的頭像 發(fā)表于 06-07 06:37 ?490次閱讀
    英特爾?至強(qiáng)?6能效核處理器:Intel 3開山力作,<b class='flag-5'>每</b>瓦<b class='flag-5'>性能</b>提升2.6倍

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    和縮減協(xié)議(SHARP)?引擎,優(yōu)化網(wǎng)絡(luò)內(nèi)縮減和多播加速,進(jìn)一步提高通信效率。 NVLink Switch 允許 NVLink 連接跨節(jié)點(diǎn)擴(kuò)展,形成高帶寬、多節(jié)點(diǎn)GPU集群,實(shí)際上創(chuàng)建了數(shù)據(jù)中心級(jí)
    發(fā)表于 05-13 17:16

    #mpo極性 #數(shù)據(jù)中心mpo

    數(shù)據(jù)中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    介紹高性能計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu):InfiniBand(IB)

    InfiniBand(IB)是高性能計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),其設(shè)計(jì)目標(biāo)是通過提供低延遲、高帶寬以及可擴(kuò)展性來滿足大規(guī)模計(jì)算
    的頭像 發(fā)表于 03-13 17:14 ?1234次閱讀

    數(shù)據(jù)中心市場的關(guān)鍵以太網(wǎng)解決方案

    了解數(shù)據(jù)中心市場動(dòng)態(tài)的關(guān)鍵在于以太網(wǎng)解決方案。Synopsys負(fù)責(zé)產(chǎn)品管理和高性能計(jì)算IP的副總裁Michael Posner說:“以太網(wǎng)在數(shù)據(jù)中心中根深蒂固……雖然它并不廣為人知,但
    發(fā)表于 03-12 09:53 ?342次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>市場的關(guān)鍵以太網(wǎng)解決方案

    #光纜水峰 #綜合布線光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2024年01月15日 09:43:26

    #預(yù)端接光纜 #24芯光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2023年12月08日 11:01:21

    優(yōu)化數(shù)據(jù)中心——實(shí)現(xiàn)人工智能時(shí)代的綠色可持續(xù)發(fā)展

    的同時(shí),盡量減少職能運(yùn)營成本的增加,以及對(duì)環(huán)境的進(jìn)一步影響。 人工智能和機(jī)器學(xué)習(xí)( ML)應(yīng)用需要高性能的設(shè)備和設(shè)置,而這些設(shè)備和設(shè)置除了需要更高的功耗外,還對(duì)冷卻提出了嚴(yán)苛的要求。僅人工智能系統(tǒng)產(chǎn)生的多余熱量就很難通過
    發(fā)表于 11-28 17:27 ?236次閱讀