0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何處理SoC中的性能瓶頸呢?

數(shù)字芯片實(shí)驗(yàn)室 ? 來(lái)源:數(shù)字芯片實(shí)驗(yàn)室 ? 2024-05-01 09:33 ? 次閱讀

SoC 中不斷添加處理核心,但它們不會(huì)都得到充分利用,因?yàn)檎嬲钠款i沒(méi)有得到解決。

SoC 需要處理的數(shù)據(jù)量激增,雖然處理核心本身可以處理這些數(shù)據(jù),但內(nèi)存和通信帶寬成為瓶頸?,F(xiàn)在的問(wèn)題是可以采取什么措施解決這個(gè)問(wèn)題。

內(nèi)存和 CPU 帶寬之間的差距(即所謂的內(nèi)存墻)不是一個(gè)新問(wèn)題,還在繼續(xù)惡化。

早在 2016 年,德克薩斯州高級(jí)計(jì)算中心的研究科學(xué)家 John McCalpin 就發(fā)表了一次演講,研究了高性能計(jì)算 (HPC) 的內(nèi)存帶寬和系統(tǒng)資源之間的平衡。他分析了當(dāng)時(shí)排名前 500 的機(jī)器,并剖析了它們的核心性能、內(nèi)存帶寬、內(nèi)存延遲、互連帶寬和互連延遲。他的分析表明,每個(gè)插槽的峰值 FLOPS 每年增加 50% 到 60%,而內(nèi)存帶寬每年僅增加約 23%。此外,內(nèi)存延遲每年減少約 4%,互連帶寬和延遲每年增加約 20%。這些表明數(shù)據(jù)移動(dòng)方面存在持續(xù)且不斷擴(kuò)大的不平衡。

這意味著,如果我們傳輸數(shù)據(jù),則每次內(nèi)存?zhèn)鬏斔ㄙM(fèi)的時(shí)間相當(dāng)于 100 次浮點(diǎn)算術(shù)運(yùn)算。也就是說(shuō),如果無(wú)法預(yù)取并且錯(cuò)過(guò)了cache,你就失去了執(zhí)行超過(guò) 4,000 次浮點(diǎn)運(yùn)算的機(jī)會(huì)。

ba11294e-ffc7-11ee-a297-92fbcf53809c.png

系統(tǒng)性能要素的不平衡。

一個(gè)設(shè)計(jì)良好的系統(tǒng)是平衡的。大多數(shù)人想要的是更有效地使用晶體管,目標(biāo)每美元的吞吐量和每瓦特的吞吐量將會(huì)更高,總之利用率越高越好。

在考慮系統(tǒng)性能時(shí),要么受計(jì)算限制,要么受內(nèi)存限制,要么受 I/O 限制。隨著計(jì)算速度的加快,需要更加重視內(nèi)存是否能夠跟上計(jì)算速度,并且還需要更高的帶寬接口來(lái)將傳輸數(shù)據(jù)。

但業(yè)界對(duì)處理性能非常著迷。實(shí)際上,計(jì)算單元很重要,但它們通常不是實(shí)際系統(tǒng)速度的限制因素。系統(tǒng)速度和工作負(fù)載強(qiáng)相關(guān),它取決于數(shù)據(jù)從某個(gè)地方來(lái)、以某種方式處理并發(fā)送到數(shù)據(jù)被需要的地方有多快,并受到沿途亂七八糟事情的干擾。

這意味著不可能構(gòu)建一個(gè)適合所有任務(wù)的最佳系統(tǒng)。關(guān)鍵是要確保其均衡性良好,并且在任何區(qū)域都不會(huì)過(guò)度配置。

移動(dòng)數(shù)據(jù)

移動(dòng)數(shù)據(jù)肯定會(huì)影響系統(tǒng)性能,也與功耗有關(guān),因?yàn)橐苿?dòng)一段數(shù)據(jù)比對(duì)其執(zhí)行計(jì)算消耗的功耗高幾個(gè)數(shù)量級(jí)。完成一項(xiàng)任務(wù),一般意味著將數(shù)據(jù)通過(guò)外部接口移入內(nèi)存,從內(nèi)存到CPU,中間結(jié)果在內(nèi)存和CPU之間來(lái)回切換,最后結(jié)果通過(guò)外部接口推回。

無(wú)論你的計(jì)算速度有多快,或者你的內(nèi)存陣列有多大,最終決定芯片和系統(tǒng)性能的是連接兩者的總線帶寬。這就是最大的瓶頸所在,不僅僅是總線,還有高速接口,它們都為解決數(shù)據(jù)訪問(wèn)瓶頸做出了自己的努力。

有效的內(nèi)存帶寬的提升是cache的采用。假設(shè)大多數(shù)內(nèi)存訪問(wèn)來(lái)自cache而不是主存,這有效地使數(shù)據(jù)更接近處理器,并減少延遲。處理器性能的提高如此之快,主要是通過(guò)核心數(shù)量的快速增加。然而,cache性能一直在下降,這是導(dǎo)致延遲增加的主要原因之一。即使 HBM 的引入也未能扭轉(zhuǎn)這一趨勢(shì)。cache性能的降低是因?yàn)閏ache設(shè)計(jì)變得越來(lái)越復(fù)雜,特別是隨著更多核心保持cache coherent,并且多級(jí)cache串行l(wèi)ookup以節(jié)省功耗。

另一種選擇是將計(jì)算移至更靠近內(nèi)存的位置。in-memory computing的時(shí)代才剛剛開(kāi)始,這可以通過(guò)三種方式實(shí)現(xiàn)。

1、通常,由于 DRAM 制造的經(jīng)濟(jì)性,我們不會(huì)在 DRAM 芯片上看到很多復(fù)雜的邏輯。我們可能會(huì)看到少量非常具體的函數(shù)被添加到這些芯片中,例如累加或乘累加函數(shù),這在許多 DSPAI 算法中很常見(jiàn)。

2、第二種可能是像 CXL.mem 這樣的技術(shù),在這種技術(shù)中,將計(jì)算功能添加到控制內(nèi)存陣列的邏輯芯片中是非常可行的。從技術(shù)上講,這是在內(nèi)存附近處理而不是在內(nèi)存中處理。

3、第三個(gè)介于兩者之間。對(duì)于某些堆疊式存儲(chǔ)器(例如 HBM),通常有一個(gè)邏輯芯片與 DRAM 共同封裝在同一堆疊中,并且該邏輯芯片是面向 CPU 和 DRAM 設(shè)備的總線之間的接口。該邏輯芯片為邏輯芯片上的中低復(fù)雜度處理元件提供了空間。

HBM 的成功無(wú)疑幫助普及了chiplets的概念,曾經(jīng)受到光罩限制或產(chǎn)量限制的芯片現(xiàn)在可以在多個(gè)chiplets上制造并集成到一個(gè)封裝中。然而,現(xiàn)在需要的芯片間連接解決方案可能比單個(gè)芯片上的連接解決方案慢。當(dāng)公司將芯片分割成多個(gè)同質(zhì)芯片時(shí),希望在分割芯片上執(zhí)行相同的操作,又不會(huì)降低性能或準(zhǔn)確性。

實(shí)際上,這些chiplets是在系統(tǒng)環(huán)境中設(shè)計(jì)的,不僅僅是之前那樣的存儲(chǔ)器或控制器設(shè)計(jì)。封裝中的 IC 會(huì)引入其自身的寄生效應(yīng),因此你需要將其視為一個(gè)系統(tǒng),并查看眼圖,看看如何根據(jù)系統(tǒng)的運(yùn)行條件,信號(hào)的來(lái)源和接收方,對(duì)其進(jìn)行優(yōu)化,從而大幅增加帶寬并減少延遲。這些目的決定了接口和協(xié)議。USB、SATA、PCIe、CXL、DDR、HMC、AXUI、MIPI,這些不勝枚舉的協(xié)議都需要接口,業(yè)內(nèi)正在創(chuàng)建更新的協(xié)議,并且需要新的接收器來(lái)實(shí)現(xiàn)這些芯片到芯片的連接。

multi-die系統(tǒng)的一大優(yōu)勢(shì)是可用連接的數(shù)量變得更多。從 I/O 的角度來(lái)看,我們?cè)?jīng)擁有 1,024 位總線,然后我們轉(zhuǎn)向串行接口。但最近發(fā)生的情況是,那些串行接口現(xiàn)在已經(jīng)變成并行接口,例如 x32 PCIe,它由 32 通道超高速串行連接組成。

工作負(fù)載

如前所述,系統(tǒng)性能和工作負(fù)載強(qiáng)相關(guān)。不可能制造針對(duì)所有情況優(yōu)化的通用機(jī)器。找到PPA平衡迫使人們重新思考和定制芯片。

人工智能這樣的任務(wù)也存在著不同的工作負(fù)載。如果你觀察人工智能,就會(huì)發(fā)現(xiàn)它有兩個(gè)方面。一個(gè)是訓(xùn)練,在訓(xùn)練中你需要不斷地訪問(wèn)內(nèi)存,因?yàn)闄?quán)重就在那里。而且你會(huì)不斷改變權(quán)重,此時(shí)內(nèi)存訪問(wèn)是關(guān)鍵。然而,如果你看推理,模型已經(jīng)訓(xùn)練好了,你所要做的就是 MAC 操作,沒(méi)有訪問(wèn)內(nèi)存去改變權(quán)重。

尋找適當(dāng)?shù)钠胶庑枰捎脜f(xié)同設(shè)計(jì)方法。在架構(gòu)階段,需要評(píng)估芯片的各種場(chǎng)景,關(guān)注芯片內(nèi)以及芯片外的吞吐量和帶寬。另一方面,物理設(shè)計(jì)團(tuán)隊(duì)必須找出芯片的最佳尺寸。由于產(chǎn)量和功率的原因,它不能太大,更不能太小。然后設(shè)計(jì)團(tuán)隊(duì)必須為他們構(gòu)建接口和協(xié)議。架構(gòu)團(tuán)隊(duì)、物理設(shè)計(jì)團(tuán)隊(duì)和設(shè)計(jì)團(tuán)隊(duì)不斷地進(jìn)行三方戰(zhàn)斗,以找到讓每個(gè)人都滿(mǎn)意的最佳點(diǎn)。當(dāng)然,少不了驗(yàn)證這個(gè)守門(mén)員。

計(jì)算范式

對(duì)于某些問(wèn)題,使用傳統(tǒng)軟件可能會(huì)導(dǎo)致解決方案效率低下。這發(fā)生在從單核到多核的過(guò)渡以及 GPGPU 的采用期間。業(yè)界正在等待新一代人工智能硬件的實(shí)現(xiàn)。GPU 可以進(jìn)行大規(guī)模并行計(jì)算,除了渲染形狀之外還可以做各種事情。

結(jié)論

添加更多或更快的處理核心固然很棒,但除非你能讓它們保持忙碌,否則就是在浪費(fèi)時(shí)間、金錢(qián)和電力。

隨著 DRAM 遷移到封裝中,預(yù)計(jì)潛在帶寬將持續(xù)增加,但 DRAM 性能在過(guò)去 20 年里始終沒(méi)有跟上處理器,那么業(yè)界將不得不通過(guò)自身架構(gòu)來(lái)解決這個(gè)問(wèn)題。

審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19028

    瀏覽量

    228441
  • DRAM
    +關(guān)注

    關(guān)注

    40

    文章

    2291

    瀏覽量

    183115
  • SoC芯片
    +關(guān)注

    關(guān)注

    1

    文章

    591

    瀏覽量

    34800
  • Cache
    +關(guān)注

    關(guān)注

    0

    文章

    129

    瀏覽量

    28228
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    304

    瀏覽量

    23607

原文標(biāo)題:處理 SoC 中的性能瓶頸

文章出處:【微信號(hào):數(shù)字芯片實(shí)驗(yàn)室,微信公眾號(hào):數(shù)字芯片實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    串口接收不等長(zhǎng)的數(shù)據(jù)如何處理?

    串口是一個(gè)很重要的通信方式,但是要用好串口并不是那么簡(jiǎn)單,比如如何接收不等長(zhǎng)的數(shù)據(jù)等。你們是如何處理?大家來(lái)說(shuō)說(shuō)你們的做法。
    發(fā)表于 05-15 08:02

    PCB電源部分如何處理?

    PCB電源部分如何處理?DDR的基本要求是什么啊 ?看了好多資料什么樣的說(shuō)法都有
    發(fā)表于 03-14 14:51

    SoC語(yǔ)音處理系統(tǒng)有什么功能?

    在設(shè)計(jì)一款面向多媒體應(yīng)用的嵌入式系統(tǒng)時(shí),實(shí)時(shí)性能非常重要。本文提出了一種基于ARM7TDMI內(nèi)核的SoC語(yǔ)音處理系統(tǒng)的設(shè)計(jì)方案,并根據(jù)該款SoC
    發(fā)表于 10-24 07:12

    何處理好跨時(shí)鐘域間的數(shù)據(jù)

    跨時(shí)鐘域處理是什么意思?如何處理好跨時(shí)鐘域間的數(shù)據(jù)?有哪幾種跨時(shí)鐘域處理的方法
    發(fā)表于 11-01 07:44

    TTL集成與非門(mén)電路不用的輸入端如何處理?

    TTL集成與非門(mén)電路不用的輸入端如何處理?
    發(fā)表于 04-28 10:52

    NANO芯片系統(tǒng),其對(duì)應(yīng)的AVDD,VREF等引腳該如何處理?

    NANO芯片系統(tǒng),如果用不到ADC模數(shù)轉(zhuǎn)換模塊,其對(duì)應(yīng)的AVDD,VREF等引腳該如何處理?可以懸空或直接接地嗎?假使能懸空或直接接地,這樣能節(jié)省一部分不必要的功耗嗎?
    發(fā)表于 08-25 06:46

    SoC集成處理單元性能評(píng)估及功能劃分

    SoC集成處理單元性能評(píng)估及功能劃分
    發(fā)表于 01-12 22:09 ?2次下載

    SoC處理單元性能分析

    功能的劃分。 在準(zhǔn)備開(kāi)發(fā)目前越來(lái)越復(fù)雜的便攜式系統(tǒng)時(shí),設(shè)計(jì)人員面對(duì)的最大挑戰(zhàn)之一就是采用什么樣的處理器組合來(lái)實(shí)現(xiàn)最優(yōu)化的3p指標(biāo),即系統(tǒng)性能最高、價(jià)格最低及功耗最小。系統(tǒng)級(jí)芯片(soc)集成使得今日的創(chuàng)新成為可能,但它常
    發(fā)表于 10-21 10:37 ?1次下載
    <b class='flag-5'>SoC</b><b class='flag-5'>中</b>的<b class='flag-5'>處理</b>單元<b class='flag-5'>性能</b>分析

    何處理電子污染

    電子垃圾污染給環(huán)境造成了巨大的壓力,當(dāng)今隨著電子產(chǎn)品廢棄量的增加他逐漸得到了社會(huì)各界的高度關(guān)注。如何處理電子垃圾帶來(lái)的污染?請(qǐng)看下文
    發(fā)表于 01-22 14:18 ?7099次閱讀

    處理DS2155性能報(bào)告消息

    本應(yīng)用筆記詳細(xì)介紹了如何處理DS2155性能報(bào)告消息(PRM)以及如何處理 通過(guò) T1 設(shè)施數(shù)據(jù)鏈路 (FDL) 以 HDLC 消息的形式發(fā)送或接收 PRM。
    的頭像 發(fā)表于 02-22 09:41 ?707次閱讀
    <b class='flag-5'>處理</b>DS2155<b class='flag-5'>中</b>的<b class='flag-5'>性能</b>報(bào)告消息

    何處理HTTP 503故障問(wèn)題?

    HTTP 503故障問(wèn)題在業(yè)務(wù)管理上很常見(jiàn), 以問(wèn)題的可能性也相當(dāng)多, 故障時(shí)除了503提示, 好像什么也沒(méi)有, 發(fā)生故障時(shí)應(yīng)如何處理? 文章內(nèi)會(huì)為大家詳細(xì)說(shuō)明
    的頭像 發(fā)表于 04-12 10:05 ?1015次閱讀
    如<b class='flag-5'>何處理</b>HTTP 503故障問(wèn)題?

    ttl與非門(mén)不用的輸入端如何處理

    。但是有時(shí)候,輸入端的某些端口不需要使用,那么應(yīng)該如何處理? 首先,我們需要了解 TTL 芯片和非門(mén)芯片的內(nèi)部結(jié)構(gòu)和工作原理。TTL 芯片是由一些晶體管和電阻器組成的。它的輸入端接收高電平(1)或低電平(0)的電信號(hào),而輸出
    的頭像 發(fā)表于 09-17 15:42 ?5689次閱讀

    調(diào)試TrustZone時(shí),如何處理HardFault?

    調(diào)試TrustZone時(shí),如何處理HardFault?
    的頭像 發(fā)表于 09-27 16:33 ?587次閱讀
    調(diào)試TrustZone時(shí),如<b class='flag-5'>何處理</b>HardFault?

    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如何處理?

    公共廣播系統(tǒng)目前是一個(gè)各行各業(yè)都會(huì)有需求的系統(tǒng),酒店、商場(chǎng)、公園、景點(diǎn)等場(chǎng)所都會(huì)用到?,F(xiàn)實(shí)使用,我們會(huì)發(fā)現(xiàn)有的廣播系統(tǒng)是電聲悅耳、自然流暢,但是有一些則帶有些噪音、嘯叫。面對(duì)這種情況,我們?cè)撊?b class='flag-5'>何處理。
    發(fā)表于 11-08 09:41 ?1327次閱讀
    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如<b class='flag-5'>何處理</b>?

    何處理同軸阻抗失配?如何避免阻抗失配這種風(fēng)險(xiǎn)?

    何處理同軸阻抗失配?如何避免阻抗失配這種風(fēng)險(xiǎn)? 同軸阻抗失配是電子通信領(lǐng)域中一種常見(jiàn)的問(wèn)題,當(dāng)同軸電纜的輸出端口的阻抗與接收端口不匹配時(shí),就會(huì)發(fā)生阻抗失配。這種失配會(huì)導(dǎo)致信號(hào)反射、傳輸效率降低
    的頭像 發(fā)表于 11-28 14:18 ?906次閱讀