0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高性能計(jì)算中的芯片架構(gòu)設(shè)計(jì)探索

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2024-04-19 11:21 ? 次閱讀

朝著多芯片集成和新型內(nèi)存處理的演進(jìn)標(biāo)志著一種范式轉(zhuǎn)變,其中靈活性、效率和對(duì)各種工作負(fù)載的優(yōu)化變得至關(guān)重要。 亞馬遜、谷歌、Meta、微軟、甲骨文和Akamai等世界領(lǐng)先的超大規(guī)模云數(shù)據(jù)中心公司正在推出專(zhuān)門(mén)針對(duì)云計(jì)算的異構(gòu)多核架構(gòu),這對(duì)整個(gè)芯片行業(yè)的高性能CPU開(kāi)發(fā)都產(chǎn)生了影響。

這些芯片都不太可能進(jìn)行商業(yè)銷(xiāo)售。它們針對(duì)特定的數(shù)據(jù)類(lèi)型和工作負(fù)載進(jìn)行了優(yōu)化,設(shè)計(jì)預(yù)算龐大,但可以通過(guò)提高性能和降低功耗來(lái)節(jié)省成本。行業(yè)的目標(biāo)是在更小的面積上容納更多的計(jì)算能力,同時(shí)降低冷卻成本,而實(shí)現(xiàn)這一目標(biāo)的最佳途徑就是采用定制化架構(gòu)、緊密集成的微架構(gòu)和精心設(shè)計(jì)的數(shù)據(jù)流。

這一趨勢(shì)始于近十年前,當(dāng)時(shí) AMD 開(kāi)始采用異構(gòu)架構(gòu)和加速處理單元,取代了過(guò)去的同質(zhì)多核 CPU 模式,但起步較慢。此后,異構(gòu)架構(gòu)開(kāi)始興起,緊隨為移動(dòng)消費(fèi)設(shè)備設(shè)計(jì)的腳步,這些設(shè)備需要處理非常緊湊的占地面積以及嚴(yán)格的功耗和散熱要求。

Quadric市場(chǎng)營(yíng)銷(xiāo)副總裁Steve Roddy說(shuō):“英特爾等行業(yè)巨頭的單片硅幾乎在每一個(gè)產(chǎn)品代碼中都有人工智能NPU。當(dāng)然,人工智能先驅(qū)英偉達(dá)長(zhǎng)期以來(lái)一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、著色器(CUDA)內(nèi)核和張量(Tensor)內(nèi)核。未來(lái)幾年轉(zhuǎn)向芯片片組將鞏固這一轉(zhuǎn)變,因?yàn)橄到y(tǒng)購(gòu)買(mǎi)者可以根據(jù)設(shè)計(jì)插槽的特定需求選擇計(jì)算和互連類(lèi)型,從而確定芯片片組的組合?!?/p>

這在很大程度上是物理學(xué)和經(jīng)濟(jì)學(xué)造成的。隨著擴(kuò)展優(yōu)勢(shì)的縮小,以及先進(jìn)封裝技術(shù)的成熟--它允許在設(shè)計(jì)中添加更多的定制功能,而過(guò)去這些功能受限于網(wǎng)罩尺寸--每瓦特和每美元性能的競(jìng)爭(zhēng)已進(jìn)入白熱化階段。

西門(mén)子 EDA IC 部門(mén)市場(chǎng)總監(jiān) Neil Hand 說(shuō):“如今,每個(gè)人都在構(gòu)建自己的架構(gòu),尤其是數(shù)據(jù)中心企業(yè),而處理器架構(gòu)的很大一部分取決于工作負(fù)載的外觀。與此同時(shí),這些開(kāi)發(fā)人員也在探索加速的最佳路徑,因?yàn)榧铀俚姆绞接泻芏喾N。你可以選擇并行處理的方式,這對(duì)某些任務(wù)效果不好,但在其他任務(wù)下很有效。與此同時(shí),應(yīng)用對(duì)內(nèi)存帶寬的限制越來(lái)越大,因此你會(huì)發(fā)現(xiàn)一些高性能計(jì)算公司開(kāi)始把所有精力投入在內(nèi)存控制器上。還有一些公司會(huì)說(shuō):‘這實(shí)際上是一個(gè)分解問(wèn)題,我們要走加速器路線,擁有獨(dú)立的內(nèi)核。’但我不認(rèn)為存在一刀切的做法?!?/p>

Roddy指出,這些新型超級(jí)芯片內(nèi)的CPU內(nèi)核仍然遵循久經(jīng)考驗(yàn)的高性能CPU設(shè)計(jì)原則:快速、深度流水線,追逐指針的效率極高,但這已不再是設(shè)計(jì)團(tuán)隊(duì)關(guān)注的唯一焦點(diǎn)。他說(shuō):”這些大型CPU現(xiàn)在與其他可編程引擎共享空間 — 如GPU和通用可編程N(yùn)PU,用于加速AI工作負(fù)載。與大眾消費(fèi)設(shè)備中高度專(zhuān)業(yè)化的 SoC 相比,一個(gè)顯著的區(qū)別是,AI 工作負(fù)載中的視頻轉(zhuǎn)碼或矩陣加速等任務(wù)避免了硬連邏輯塊(加速器)。為數(shù)據(jù)中心設(shè)計(jì)的設(shè)備需要保持可編程性,以應(yīng)對(duì)各種工作負(fù)載,而不僅僅是消費(fèi)類(lèi)設(shè)備中的單一已知功能。“

然而,所有這些都需要更多的分析,而設(shè)計(jì)界正在繼續(xù)推動(dòng)流程中更多的步驟。Hand說(shuō):”無(wú)論是通過(guò)工具,還是通過(guò)仿真或虛擬原型,你都擁有了幫助了解數(shù)據(jù)的工具。此外,該行業(yè)已經(jīng)發(fā)展壯大,其專(zhuān)業(yè)化程度足以證明所花費(fèi)用的合理性。第一部分是為了降低制造新硬件的風(fēng)險(xiǎn),因?yàn)槟阌泄ぞ邅?lái)了解情況,就不必保守行事?,F(xiàn)在,市場(chǎng)已經(jīng)開(kāi)始分化,因此它的重要性值得資金投入。此外,現(xiàn)在也有了實(shí)現(xiàn)這一目標(biāo)的方法。過(guò)去,當(dāng)英特爾推出處理器時(shí),要想與英特爾競(jìng)爭(zhēng),幾乎是不可能的?,F(xiàn)在,通過(guò)生態(tài)系統(tǒng)、技術(shù)和其他因素的綜合作用,競(jìng)爭(zhēng)變得容易多了。對(duì)于高性能計(jì)算公司來(lái)說(shuō),最初的低懸果實(shí)是:'我們只需獲得一個(gè)良好的平臺(tái),讓我們可以按照自己的方式對(duì)其進(jìn)行維度化,然后再放入一些加速器。所以我們開(kāi)始看到人工智能加速器和視頻加速器,然后一些更深?yuàn)W的公司開(kāi)始追求機(jī)器學(xué)習(xí)。這意味著什么?這意味著他們需要非常高的 MAC 性能。他們會(huì)將處理器架構(gòu)聚焦于此,并通過(guò)這種方式讓自己脫穎而出。"

再加上 RISC-V、可重復(fù)使用的芯片組和硬 IP,架構(gòu)開(kāi)始變得與幾年前大不相同。Hand說(shuō):“如果你看看現(xiàn)在的數(shù)據(jù)中心和數(shù)據(jù)中心中的整個(gè)軟件堆棧,在堆棧中添加一些東西并不像以前那樣困難,你不必重建整個(gè)數(shù)據(jù)中心。如今變得重要的是進(jìn)行系統(tǒng)級(jí)分析的能力,應(yīng)用的系統(tǒng)級(jí)協(xié)同設(shè)計(jì)已變得非常重要,而且更加容易,這就是一個(gè)移動(dòng)的數(shù)據(jù)中心?!?/p>

許多人認(rèn)為,應(yīng)該開(kāi)發(fā)新的架構(gòu)來(lái)克服幾代 CPU 所面臨的內(nèi)存挑戰(zhàn)。Fraunhofer IIS 自適應(yīng)系統(tǒng)工程部高效電子學(xué)部門(mén)主管 Andy Heinig 說(shuō):“對(duì) AI/ML 的需求將加速開(kāi)發(fā)新的特定應(yīng)用架構(gòu)的進(jìn)程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來(lái)解決內(nèi)存問(wèn)題,就能成為這場(chǎng)革命的一部分。如果 CPU 能夠提供這種新的內(nèi)存架構(gòu),那么 AI/ML 加速器就能與 CPU 一起成為數(shù)據(jù)中心的最佳解決方案。CPU 負(fù)責(zé)需要靈活性的經(jīng)典任務(wù),而加速器則為特定任務(wù)提供最佳性能。”

例如,Arm 直接與多家超大規(guī)模云供應(yīng)商合作開(kāi)發(fā)基于 Neoverse 的計(jì)算解決方案,以實(shí)現(xiàn)高性能、定制靈活性以及強(qiáng)大的軟件和硬件生態(tài)系統(tǒng)。這已經(jīng)產(chǎn)生了公開(kāi)發(fā)布的芯片,如 AWS 的 Graviton 和 Nitro 處理器、谷歌的 Mt.Evans DPU、微軟 Azure 的 Cobalt 100、英偉達(dá)的 Grace CPU 超級(jí)芯片以及阿里巴巴的Yitian 710。

Arm基礎(chǔ)架構(gòu)業(yè)務(wù)線產(chǎn)品管理高級(jí)總監(jiān)Brian Jeff說(shuō):“我們從這些和其他設(shè)計(jì)合作伙伴身上學(xué)到了很多東西。我們塑造高性能 CPU 和平臺(tái)開(kāi)發(fā)的主要方式之一是通過(guò)對(duì)基礎(chǔ)設(shè)施工作負(fù)載的深入了解,實(shí)現(xiàn)特定的架構(gòu)和微架構(gòu)增強(qiáng),尤其是對(duì) CPU 管線前端和 CMN 網(wǎng)狀結(jié)構(gòu)的增強(qiáng)。”

但捕捉到這種工作負(fù)載并為其開(kāi)發(fā)芯片架構(gòu)并不總是這么簡(jiǎn)單。對(duì)于AI訓(xùn)練和推理來(lái)說(shuō)尤其如此,因?yàn)?a href="http://srfitnesspt.com/v/tag/2562/" target="_blank">算法的改變可能會(huì)導(dǎo)致工作負(fù)載發(fā)生變化。

Synopsys接口IP首席產(chǎn)品經(jīng)理Priyank Shukla表示:“目前正在訓(xùn)練不同的模型,例如Meta公司公開(kāi)的Llama模型和Chat GPT模型。所有這些模型都有一個(gè)模式和一定數(shù)量的參數(shù)。以 GPT-3 為例,它有 1,750 億個(gè)參數(shù),每個(gè)參數(shù)的寬度為 2 字節(jié),即 16 位。你需要在 2 個(gè)字節(jié)中存儲(chǔ)這么多信息--1750 億個(gè)參數(shù),相當(dāng)于 3500 億字節(jié)的內(nèi)存。該內(nèi)存需要存儲(chǔ)在所有共享該模型的加速器中,而該模型需要放置在加速器的結(jié)構(gòu)中,參數(shù)需要放置在與該加速器相關(guān)的內(nèi)存中。因此,你需要一個(gè)能接收更大模型并對(duì)其進(jìn)行處理的結(jié)構(gòu)。你可以以不同的方式實(shí)現(xiàn)該模型,即實(shí)現(xiàn)該算法的方式。有些工作可以串行方式進(jìn)行,有些工作可以并行方式進(jìn)行。以串行方式進(jìn)行的工作需要與高速緩存保持一致,并將延遲降到最低。這種以串行方式進(jìn)行的工作將在一個(gè)機(jī)架內(nèi)進(jìn)行分工,以便將延遲降到最低。以并行方式進(jìn)行的工作將通過(guò)擴(kuò)展網(wǎng)絡(luò)在不同機(jī)架之間進(jìn)行分配。我們看到系統(tǒng)人員正在創(chuàng)建這一模型和算法,并在定制硬件中加以實(shí)現(xiàn)。

e77f5cc6-fd78-11ee-a297-92fbcf53809c.png?圖1:針對(duì)機(jī)器學(xué)習(xí)優(yōu)化的服務(wù)器機(jī)架。來(lái)源:Synopsys

組裝各種處理元件并非易事。Synopsys公司ASIP工具產(chǎn)品經(jīng)理Patrick Verbist說(shuō):"它們是異構(gòu)多核架構(gòu),通常是通用CPU和GPU的混合,具體取決于公司的類(lèi)型,因?yàn)樗鼈兤闷渲幸环N。然后是具有固定功能的RTL加速器,它們與這些異構(gòu)多核架構(gòu)混合在一起。這些加速器運(yùn)行的應(yīng)用負(fù)載類(lèi)型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)壓縮/解壓縮、圖形權(quán)重等。但所有這些應(yīng)用都有一個(gè)共同點(diǎn),那就是需要進(jìn)行大量運(yùn)算。通常,這些計(jì)算是在標(biāo)準(zhǔn)或自定義數(shù)據(jù)類(lèi)型上完成的。許多處理架構(gòu)都支持Int 16,但如果只需要處理16位數(shù)據(jù),則沒(méi)有必要在32位數(shù)據(jù)路徑中浪費(fèi)16位。對(duì)此必須進(jìn)行定制。因此,加速器不僅需要支持浮點(diǎn) 32 數(shù)據(jù)類(lèi)型,還需要支持 int 8 和/或 int 16、半精度浮點(diǎn)、自定義 int 或自定義浮點(diǎn)類(lèi)型的數(shù)據(jù)類(lèi)型,而功能單元、運(yùn)算器通常是矢量加法器、矢量乘法器、加法器樹(shù)和激活函數(shù)的組合。這些激活函數(shù)通常是指數(shù)或雙曲函數(shù)、平方根、大除法等超越函數(shù),但都是矢量化的,而且具有單周期吞吐量要求,因?yàn)槊總€(gè)周期都要對(duì)這些東西進(jìn)行新的運(yùn)算。對(duì)于這類(lèi)加速器,在異構(gòu)性方面,我們看到許多客戶在異構(gòu)空間中使用 ASIP(特定應(yīng)用指令處理器)。ASIP 允許定制運(yùn)算器,因此數(shù)據(jù)路徑和指令集只能以比常規(guī) DSP 更有效的方式執(zhí)行有限的一組操作。”

DSP 通常不夠靈活,因?yàn)樗ㄓ昧?。另一方面,固定函?shù) RTL 可能不夠靈活,這就為“是的,我們需要比固定函數(shù) RTL 更靈活、比通用 DSP 更不靈活的東西”的需求創(chuàng)造了空間。如果你看一下 GPU,在某種程度上,GPU 也是通用的。它必須支持各種工作負(fù)載,但不是所有的工作負(fù)載。這就是 ASIP 的作用所在,它支持靈活性和可編程性。你需要這種靈活性來(lái)支持一系列計(jì)算算法,以適應(yīng)不斷變化的軟件或人工智能圖的要求,以及人工智能算法本身不斷變化的要求。"

西門(mén)子的 Hand 認(rèn)為,考慮工作負(fù)載是一項(xiàng)艱巨的挑戰(zhàn)。

“為了解決這個(gè)問(wèn)題,垂直整合的公司正在以這種方式投資于高性能計(jì)算,因?yàn)楦咝阅苡?jì)算并不比AI有什么不同,你只能根據(jù)你所看到的數(shù)據(jù)模式來(lái)工作,”Hand說(shuō)道?!叭绻闶莵嗰R遜或微軟這樣的公司,那么你擁有大量的追蹤數(shù)據(jù),而且不需要侵入任何數(shù)據(jù),你知道你的機(jī)器存在哪些瓶頸。你可以利用這些信息,說(shuō)‘我們發(fā)現(xiàn)我們得到了內(nèi)存帶寬,我們必須對(duì)此做些什么,或者這是一個(gè)網(wǎng)絡(luò)帶寬問(wèn)題,或者這是一個(gè)AI吞吐量問(wèn)題,我們?cè)谶@些領(lǐng)域遇到了問(wèn)題?!@與邊緣上發(fā)生的挑戰(zhàn)沒(méi)有什么不同。邊緣的目標(biāo)是不同的,我們經(jīng)常在思考‘我可以擺脫什么?我不需要什么?’或者‘我可以在哪里縮小功率范圍?’而在數(shù)據(jù)中心,你會(huì)問(wèn),‘我如何能夠通過(guò)更多的數(shù)據(jù),并且以一種不會(huì)燒毀設(shè)備的方式來(lái)做?隨著設(shè)備越來(lái)越大,我如何以可擴(kuò)展的方式做到這一點(diǎn)?’”

Hand 認(rèn)為,轉(zhuǎn)向多芯片封裝將推動(dòng)許多有趣的發(fā)展,AMD 和英偉達(dá)等公司已經(jīng)在使用這種技術(shù)?!艾F(xiàn)在,你可以開(kāi)始為這些高性能計(jì)算應(yīng)用提供一些有趣的即插即用組件,在很大程度上,你可以開(kāi)始說(shuō),'這個(gè)應(yīng)用需要什么互連芯片?這個(gè)應(yīng)用的處理芯片是什么?'它提供了一個(gè)介于構(gòu)建標(biāo)準(zhǔn)計(jì)算機(jī)與不做太大改動(dòng)之間的中間地帶。我能做什么?我可以安裝不同的進(jìn)程、不同的網(wǎng)卡、不同的 DIMM。作為云計(jì)算服務(wù)提供商,我所能做的有限。在另一端,微軟和 Azure 等大型云提供商會(huì)說(shuō),’我可以構(gòu)建自己的完整 SOC,做我想做的任何事情?!悻F(xiàn)在可以在中間地帶,比方說(shuō),你認(rèn)為生物計(jì)算數(shù)據(jù)中心有市場(chǎng),有足夠多的人進(jìn)入這個(gè)領(lǐng)域,你可以賺到一些錢(qián)。你能組裝一個(gè)3D IC并使其在該環(huán)境中正常工作嗎?看到會(huì)有什么樣的東西出現(xiàn)會(huì)很有趣,因?yàn)檫@將降低進(jìn)入門(mén)檻。我們已經(jīng)看到像蘋(píng)果、英特爾、AMD和Nvidia等公司正在使用它作為一種加快產(chǎn)品開(kāi)發(fā)速度、提供更多樣化而不必測(cè)試龐大芯片的方式。當(dāng)你開(kāi)始將它們與諸如環(huán)境的全數(shù)字孿生之類(lèi)的東西結(jié)合起來(lái)時(shí),你就可以開(kāi)始理解環(huán)境中的工作負(fù)載,理解瓶頸,然后嘗試不同的分區(qū),然后推進(jìn)。”

Arm 的 Jeff 還認(rèn)為,數(shù)據(jù)中心芯片架構(gòu)也在發(fā)生變化,以適應(yīng) AI/ML 功能?!癈PU上的推理非常重要,我們看到合作伙伴正在利用我們的SVE管道和矩陣數(shù)學(xué)增強(qiáng)功能以及數(shù)據(jù)類(lèi)型來(lái)運(yùn)行推理。我們還看到,通過(guò)高速相干接口緊密耦合的人工智能加速器正在發(fā)揮作用,DPUs 正在擴(kuò)展其帶寬和智能,以便將節(jié)點(diǎn)連接在一起。"

多芯片集成是不可避免的

芯片行業(yè)非常清楚,對(duì)于許多計(jì)算密集型應(yīng)用而言,單芯片解決方案已變得不現(xiàn)實(shí)。過(guò)去十年的最大問(wèn)題是,向多芯片解決方案的轉(zhuǎn)變何時(shí)才能成為主流。Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說(shuō):”整個(gè)行業(yè)正處于一個(gè)拐點(diǎn),你不能再回避這個(gè)問(wèn)題了。我們談?wù)撝柖珊?SysMoore',但設(shè)計(jì)人員必須在 CPU 和 GPU 中增加更多功能,而由于版圖尺寸限制、產(chǎn)量限制等原因,他們根本無(wú)法做到這一點(diǎn)。多芯片在這里是不可避免的,這帶來(lái)了一些有趣的考慮。首先,拿一張紙對(duì)折。這基本上就是多芯片的一個(gè)例子。你拿一塊芯片,把它折疊起來(lái),如果你能巧妙地進(jìn)行設(shè)計(jì),你就能想到可以大大縮短時(shí)序。如果你要從頂部芯片到底部芯片,你可能只經(jīng)過(guò)一小部分芯片的布線,但它們大多是芯片之間的球形焊點(diǎn)或焊絲焊點(diǎn)?!?/p>

多芯片設(shè)計(jì)所面臨的挑戰(zhàn)包括:確定有多少條路徑需要同步、時(shí)序應(yīng)放在兩個(gè)芯片之間還是單獨(dú)關(guān)閉、L1 應(yīng)放在頂部芯片還是底部芯片上,以及是否可以增加 L4。

Kabir解釋說(shuō):"從三維角度來(lái)看布局設(shè)計(jì)變得非常有趣。你可以把一棟單層房屋改建成三層或四層,但隨之而來(lái)的還有其他設(shè)計(jì)挑戰(zhàn)。你不能再忽視散熱問(wèn)題了。散熱曾經(jīng)是PCB的事,而現(xiàn)在系統(tǒng)設(shè)計(jì)師們認(rèn)為這些芯片非常熱。黃仁勛(Jensen Huang)最近在 SNUG 上說(shuō),你在一端送入室溫水,另一端就會(huì)出來(lái)溫泉溫度。他是在開(kāi)玩笑,但事實(shí)是,從溫度的角度來(lái)看,這些芯片確實(shí)非常熱,如果你在布局設(shè)計(jì)時(shí)不考慮到這一點(diǎn),你的處理器就會(huì)被燒毀。這意味著你必須更早地開(kāi)始這樣做這些工作。在三維布局設(shè)計(jì)方面,當(dāng)涉及到工作負(fù)載時(shí),你如何確保已經(jīng)分析了多芯片的不同工作負(fù)載,并確保即使在沒(méi)有電路原理圖的情況下也能考慮到紅外、熱和時(shí)序等關(guān)鍵影響?我們稱之為零電路圖原理階段。這些考慮因素都變得非常有趣,因?yàn)槟阍僖矡o(wú)法避免做多芯片,所以從晶圓廠的角度、從 EDA 的角度,這些都是生態(tài)系統(tǒng)的前沿和中心,而設(shè)計(jì)人員則處于中間位置。

與數(shù)據(jù)中心芯片的散熱問(wèn)題相關(guān)的是低功耗設(shè)計(jì)問(wèn)題。

Ansys 產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Marc Swinnen 說(shuō):“這些數(shù)據(jù)中心耗電量巨大。我參加了舊金山 ISSCC,我們的展臺(tái)就在英偉達(dá)旁邊,英偉達(dá)正在展示其人工智能訓(xùn)練箱--一個(gè)裝有八個(gè)芯片、大量風(fēng)扇和散熱片的大箱子。我們問(wèn)它的耗電量有多大,他們說(shuō):'哦,最高時(shí)有 1 萬(wàn)瓦,但平均也有 6000 瓦。'功率真是越來(lái)越瘋狂了。”

Arm公司的Jeff也認(rèn)為,應(yīng)對(duì)數(shù)據(jù)中心芯片新挑戰(zhàn)的最佳方法是采用全系統(tǒng)方法,包括指令集架構(gòu)、軟件生態(tài)系統(tǒng)和特定優(yōu)化、CPU微架構(gòu)、互聯(lián)結(jié)構(gòu)、系統(tǒng)內(nèi)存管理和中斷控制,以及封裝內(nèi)和芯片外I/O?!蓖暾南到y(tǒng)方法使我們能夠與合作伙伴合作,根據(jù)現(xiàn)代工作負(fù)載和工藝節(jié)點(diǎn)定制 SoC 設(shè)計(jì),同時(shí)利用基于芯片組的設(shè)計(jì)方法。”

這種定制芯片設(shè)計(jì)方法使數(shù)據(jù)中心運(yùn)營(yíng)商能夠優(yōu)化其功耗成本和計(jì)算效率。Jeff 說(shuō):”我們 Neoverse N 系列的高效率使每個(gè)插槽的內(nèi)核數(shù)達(dá)到 128c 到 192c 甚至更高。這些相同的 N 系列產(chǎn)品可以在更小的空間內(nèi)擴(kuò)展到 DPU 和 6g L2 設(shè)計(jì)以及邊緣服務(wù)器。我們的 V 系列產(chǎn)品面向云計(jì)算,具有更高的單線程性能和更高的矢量性能(用于人工智能推理和視頻轉(zhuǎn)碼等工作負(fù)載),同時(shí)仍然提供高效率。加速器附件的廣泛選擇使我們的合作伙伴能夠?qū)⒍ㄖ铺幚砗驮圃?jì)算的正確組合集成到根據(jù)其工作負(fù)載定制的SoC中。“

結(jié)論

由于高性能計(jì)算的演進(jìn)性質(zhì),以及數(shù)據(jù)中心優(yōu)化的不同方面,最終結(jié)果幾乎無(wú)法預(yù)測(cè)。西門(mén)子的Hand說(shuō):”在網(wǎng)絡(luò)技術(shù)爆炸式發(fā)展的初期,人們開(kāi)始在數(shù)據(jù)中心內(nèi)部建立南北和東西的路由,這改變了所有的網(wǎng)絡(luò)交換架構(gòu),因?yàn)檫@是一大瓶頸。這導(dǎo)致了對(duì)數(shù)據(jù)中心的整體重新思考。類(lèi)似的事情也發(fā)生在內(nèi)存方面,當(dāng)你開(kāi)始集成光學(xué)技術(shù)和一些更智能的內(nèi)存時(shí),你會(huì)發(fā)現(xiàn)這將會(huì)是非常有趣的事情?!?/p>

Hand 提到了幾年前的一次英特爾開(kāi)發(fā)者大會(huì),當(dāng)時(shí)該公司解釋了如何利用硅光子學(xué)中的表面發(fā)射光學(xué)技術(shù)將內(nèi)存與數(shù)據(jù)中心機(jī)架中的存儲(chǔ)分離開(kāi)來(lái)。他說(shuō):“他們有一個(gè)統(tǒng)一的內(nèi)存結(jié)構(gòu),可以在服務(wù)器之間共享,也可以從不同的服務(wù)器分配內(nèi)存。因此,數(shù)據(jù)中心的拓?fù)浣Y(jié)構(gòu)開(kāi)始變得非常有趣。即使在機(jī)架中,你也可以看到像NVIDIA這樣的公司擁有的AI系統(tǒng)結(jié)構(gòu)。最大的變化是,人們可以看看它,如果有市場(chǎng)需求,你就可以構(gòu)建它。我們一直認(rèn)為,架構(gòu)的關(guān)鍵在于核心是否快速。我們從’內(nèi)核快不快?’過(guò)渡到’我有足夠的內(nèi)核嗎?’但問(wèn)題遠(yuǎn)不止于此。一旦開(kāi)始打破馮-諾依曼架構(gòu),開(kāi)始使用不同的內(nèi)存流,開(kāi)始關(guān)注內(nèi)存內(nèi)計(jì)算,它就會(huì)變得非???。然后你會(huì)思考,‘高性能計(jì)算到底意味著什么?”

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    452

    文章

    49985

    瀏覽量

    419661
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5402

    瀏覽量

    133709
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10772

    瀏覽量

    210439
  • 數(shù)據(jù)類(lèi)型

    關(guān)注

    0

    文章

    236

    瀏覽量

    13582
  • RISC-V
    +關(guān)注

    關(guān)注

    44

    文章

    2179

    瀏覽量

    45895

原文標(biāo)題:面向高性能計(jì)算的芯片架構(gòu)設(shè)計(jì)

文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片CPU

    ,精簡(jiǎn)指令集計(jì)算機(jī))架構(gòu)在處理器設(shè)計(jì)很有代表性。目前RISCR-V是比較火的架構(gòu)設(shè)計(jì),其優(yōu)點(diǎn):模塊設(shè)計(jì);精簡(jiǎn)和高效指令。 MIPS 的全稱為 Microprocessor witho
    發(fā)表于 10-20 12:03

    《算力芯片 高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——算力之巔:從基準(zhǔn)測(cè)試到CPU微架構(gòu)的深度探索

    ,全面評(píng)估了芯片在實(shí)際AI工作負(fù)載的表現(xiàn)。這兩項(xiàng)基準(zhǔn)測(cè)試共同構(gòu)成了一個(gè)全面的算力評(píng)估體系,推動(dòng)了芯片設(shè)計(jì)向多樣化和專(zhuān)用化方向發(fā)展。 2 流水線與分支預(yù)測(cè):CPU的華爾茲 第二章詳細(xì)介紹了高性
    發(fā)表于 10-19 01:21

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書(shū)概覽

    在 GPU 的應(yīng)用歷史 第9章 張量處理器設(shè)計(jì) 9.1 張量的定義 9.2 脈動(dòng)陣列計(jì)算單元 9.3 Volta 架構(gòu)引入張量核心 9.4 華為異騰Ascend910NPU芯片
    發(fā)表于 10-15 22:08

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    社會(huì)資源和資本力量關(guān)注算力芯片的發(fā)展,希望我們的國(guó)家能夠更獨(dú)立自主地設(shè)計(jì)制造高性能算力芯片。 內(nèi)容簡(jiǎn)介: 本書(shū)介紹了超級(jí)計(jì)算機(jī)算力和AI算力的異同,從CPU流水線開(kāi)始,描述主要的眾核處
    發(fā)表于 09-02 10:09

    帶你了解什么是高性能計(jì)算(HPC)

    國(guó)家層面設(shè)有專(zhuān)門(mén)機(jī)構(gòu)負(fù)責(zé)研究、制定高性能計(jì)算發(fā)展策略,我國(guó)也逐漸將高性能計(jì)算的發(fā)展提升到了國(guó)家戰(zhàn)略層面。我國(guó)高性能
    的頭像 發(fā)表于 07-20 08:28 ?403次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>(HPC)

    芯品# 高性能計(jì)算芯片

    (LSE:AWE)是全球技術(shù)基礎(chǔ)設(shè)施高速連接和計(jì)算芯片的全球領(lǐng)導(dǎo)者,與Arm合作開(kāi)發(fā)基于Arm ? Neoverse?計(jì)算子系統(tǒng)(CSS)的高級(jí)計(jì)算
    的頭像 發(fā)表于 06-27 10:28 ?6852次閱讀

    高性能計(jì)算集群的能耗優(yōu)化

    高性能計(jì)算(HighPerformanceComputing,HPC)是指利用大規(guī)模并行計(jì)算機(jī)集群來(lái)解決復(fù)雜的科學(xué)和工程問(wèn)題的技術(shù)。高性能計(jì)算
    的頭像 發(fā)表于 05-25 08:27 ?285次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>集群的能耗優(yōu)化

    高性能計(jì)算的原理與實(shí)踐:從基本概念到架構(gòu)解析

    高性能計(jì)算的概念最早可以追溯到上世紀(jì)40年代,當(dāng)時(shí)為了進(jìn)行原子彈的設(shè)計(jì)和模擬,美國(guó)建造了第一臺(tái)電子數(shù)字計(jì)算機(jī)[ENIAC],它可以每秒執(zhí)行約5000次運(yùn)算,相當(dāng)于當(dāng)時(shí)最快的機(jī)械計(jì)算器的
    的頭像 發(fā)表于 05-11 08:27 ?386次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>的原理與實(shí)踐:從基本概念到<b class='flag-5'>架構(gòu)</b>解析

    構(gòu)建高性能計(jì)算芯片

    計(jì)算的異構(gòu)多核架構(gòu),對(duì)整個(gè)芯片行業(yè)的高性能 CPU 開(kāi)發(fā)產(chǎn)生了影響。 這些芯片都不太可能進(jìn)行商業(yè)銷(xiāo)售。它們針對(duì)特定的數(shù)據(jù)類(lèi)型和工作負(fù)載進(jìn)行了
    的頭像 發(fā)表于 04-25 10:23 ?1247次閱讀
    構(gòu)建<b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b><b class='flag-5'>芯片</b>

    多核架構(gòu)高性能電機(jī)控制芯片

    基于傳統(tǒng)單核架構(gòu)的電機(jī)控制芯片已無(wú)法應(yīng)對(duì)新出現(xiàn)的嚴(yán)峻挑戰(zhàn),多核架構(gòu)的控制芯片應(yīng)運(yùn)而生。雙核架構(gòu)芯片
    的頭像 發(fā)表于 04-19 14:46 ?8094次閱讀
    多核<b class='flag-5'>架構(gòu)</b><b class='flag-5'>高性能</b>電機(jī)控制<b class='flag-5'>芯片</b>

    交換芯片架構(gòu)設(shè)計(jì)

    交換芯片架構(gòu)設(shè)計(jì)是網(wǎng)絡(luò)設(shè)備性能和功能的關(guān)鍵。一個(gè)高效的交換芯片架構(gòu)能夠處理大量的數(shù)據(jù)流量,支持高速數(shù)據(jù)傳輸,并提供先進(jìn)的網(wǎng)絡(luò)功能。
    的頭像 發(fā)表于 03-21 16:28 ?451次閱讀

    交換芯片架構(gòu)設(shè)計(jì)

    交換芯片架構(gòu)設(shè)計(jì)是網(wǎng)絡(luò)通信中的關(guān)鍵環(huán)節(jié),它決定了交換機(jī)的性能、功能和擴(kuò)展性。
    的頭像 發(fā)表于 03-18 14:12 ?521次閱讀

    揭秘GPU: 高端GPU架構(gòu)設(shè)計(jì)的挑戰(zhàn)

    計(jì)具體難在哪里?這包括許多方面的因素。1、能力均衡性的挑戰(zhàn)在架構(gòu)設(shè)計(jì),通用性要求GPU能夠適應(yīng)各種場(chǎng)景,易用性關(guān)乎客戶和開(kāi)發(fā)者的體驗(yàn),而高性能是硬件的靈魂。如何均衡
    的頭像 發(fā)表于 12-21 08:28 ?803次閱讀
    揭秘GPU: 高端GPU<b class='flag-5'>架構(gòu)設(shè)</b>計(jì)的挑戰(zhàn)

    異構(gòu)眾核系統(tǒng)高性能計(jì)算架構(gòu)

    隨著計(jì)算機(jī)技術(shù)的發(fā)展,單核處理器已經(jīng)難以滿足高性能計(jì)算的需求,眾核處理器成為了一種有效的解決方案。眾核處理器是指在一個(gè)芯片上集成多個(gè)處理器核心,通過(guò)并行
    的頭像 發(fā)表于 11-30 08:27 ?657次閱讀
    異構(gòu)眾核系統(tǒng)<b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b><b class='flag-5'>架構(gòu)</b>

    如何在 3DICC 基于虛擬原型實(shí)現(xiàn)多芯片架構(gòu)探索

    如何在 3DICC 基于虛擬原型實(shí)現(xiàn)多芯片架構(gòu)探索
    的頭像 發(fā)表于 11-23 09:04 ?418次閱讀
    如何在 3DICC <b class='flag-5'>中</b>基于虛擬原型實(shí)現(xiàn)多<b class='flag-5'>芯片</b><b class='flag-5'>架構(gòu)</b><b class='flag-5'>探索</b>