0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用AWS Graviton3上的SVE加速NVIDIA HPC軟件

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:48 ? 次閱讀

最新 NVIDIA HPC SDK 更新擴(kuò)展了可移植性,現(xiàn)在支持基于 Arm 的 AWS Graviton 3 processor 。在本文中,您將學(xué)習(xí)如何使用 NVIDIA 編譯器啟用可縮放矢量擴(kuò)展( Scalable Vector Extension , SVE )自動(dòng)矢量化,以最大限度地提高運(yùn)行在 AWS Graviton3 CPU 上的 HPC 應(yīng)用程序的性能。

HPC SDK NVIDIA 軟件包

NVIDIA HPC SDK 包括經(jīng)過(guò)驗(yàn)證的編譯器、庫(kù)和軟件工具,對(duì)于最大限度地提高開(kāi)發(fā)人員生產(chǎn)力和為 CPU 、 CPU 或云構(gòu)建 HPC 應(yīng)用 至關(guān)重要。

NVIDIA HPC compilers 為 NVIDIA GPU 和多核 Arm 、 OpenPOWER 或 x86-64 CPU 啟用跨平臺(tái) C 、 C ++和 Fortran 編程。對(duì)于使用 OpenMP 、 OpenACC 和 CUDA 以 C 、 C ++或 Fortran 編寫(xiě)的 HPC 建模和仿真應(yīng)用程序,這些都是理想的選擇。

例如,與 GCC 12.1 相比,使用 NVIDIA HPC 編譯器編譯時(shí), AWS Graviton 3 的 SPEC CPU ? 2017 基準(zhǔn)分?jǐn)?shù)預(yù)計(jì)增加 17% 。

編譯器還可以與優(yōu)化的 NVIDIA math libraries 、通信庫(kù)以及性能調(diào)優(yōu)和調(diào)試工具完全互操作。這些加速的數(shù)學(xué)庫(kù)最大限度地提高了普通 HPC 算法的性能,而優(yōu)化的通信庫(kù)支持基于標(biāo)準(zhǔn)的可擴(kuò)展系統(tǒng)編程。

集成的性能分析和調(diào)試工具簡(jiǎn)化了 HPC 應(yīng)用程序的移植和優(yōu)化,而容器化工具可以方便地在本地或云中部署。

臂和 AWS 重力 3

AWS Graviton3 于 2022 年 5 月推出,是 AWS 基于 Arm 的 CPU 。 Arm 體系結(jié)構(gòu)具有傳統(tǒng)的能效和對(duì)高內(nèi)存帶寬的支持,使其成為云和數(shù)據(jù)中心計(jì)算的理想選擇。 Amazon 報(bào)導(dǎo) :

Amazon EC2 C7g 實(shí)例由最新一代 AWS Graviton3 處理器提供支持,為計(jì)算密集型工作負(fù)載提供了 Amazon EC2 中最佳的性?xún)r(jià)比。 C7g 實(shí)例非常適合 HPC 、批處理、電子設(shè)計(jì)自動(dòng)化( EDA )、游戲、視頻編碼、科學(xué)建模、分布式分析、基于 CPU 的機(jī)器學(xué)習(xí)( ML )推理和廣告服務(wù)。與基于第六代 AWS Graviton2 的 C6g 實(shí)例相比,它們的性能提高了 25% 。

與 AWS Graviton2 相比, ANSYS 將 AWS Graviton3 的性能提高 35% 作為基準(zhǔn) 。一級(jí)方程式模擬速度也提高了 40% 。自推出 Arm Neoverse 產(chǎn)品線以來(lái),基于 Arm 的 CPU 一直在提供重大創(chuàng)新和性能增強(qiáng),當(dāng)時(shí) Neoverses N1 核心 超過(guò)績(jī)效預(yù)期30% 。

與 Arm 支持新計(jì)算技術(shù)的歷史保持一致, AWS Graviton3 的特點(diǎn)是 DDR5 內(nèi)存和 SVE 到 Arm 體系結(jié)構(gòu)。

Amazon EC2 C7g 實(shí)例是云中第一個(gè)使用 DDR5 內(nèi)存的實(shí)例,與 DDR4 內(nèi)存相比,它提供了 50% 的內(nèi)存帶寬,從而實(shí)現(xiàn)了對(duì)內(nèi)存中數(shù)據(jù)的高速訪問(wèn)。充分利用所有內(nèi)存帶寬的最佳方法是使用最新的矢量化技術(shù): Arm SVE 。

SVE 架構(gòu)

除了是第一個(gè)提供 DDR5 的云托管 CPU 之外, AWS Graviton3 也是第一個(gè)在云中使用 SVE 的。

SVE 首次引入富士通 A64FX CPU ,為 RIKEN Fugaku 超級(jí)計(jì)算機(jī)供電。當(dāng) Fugaku 推出時(shí),它打破了所有當(dāng)代 HPC CPU 基準(zhǔn),并在兩年內(nèi)自信地名列 TOP500 超級(jí)計(jì)算機(jī)榜首。

SVE 和高帶寬內(nèi)存是 A64FX 的主要設(shè)計(jì)特點(diǎn),是 HPC 的理想之選,而 AWS Graviton3 處理器中也有這兩個(gè)特點(diǎn)。

SVE 是 Arm 體系結(jié)構(gòu)的下一代 SIMD 擴(kuò)展。它可以使用 CPU 實(shí)現(xiàn)中的一系列可能值實(shí)現(xiàn)靈活的矢量長(zhǎng)度。矢量長(zhǎng)度可以從最小 128 位到最大 2048 位不等,增量為 128 位。

例如,富士通 A64FX 以 512 位實(shí)現(xiàn) SVE ,而 AWS Graviton3 以 256 位實(shí)現(xiàn)。與其他 SIMD 體系結(jié)構(gòu)不同,盡管硬件矢量位寬度不同,但相同的匯編代碼在兩個(gè) CPU 上運(yùn)行。這稱(chēng)為矢量長(zhǎng)度無(wú)關(guān)( VLA )編程。

VLA 代碼具有高度的可移植性,可以使編譯器生成更好的匯編代碼。但是,如果編譯器知道目標(biāo) CPU 的硬件矢量位寬度,它可以針對(duì)特定的體系結(jié)構(gòu)進(jìn)行進(jìn)一步優(yōu)化。這是矢量長(zhǎng)度特定( VLS )編程。

SVE 對(duì) VLA 和 VLS 使用相同的匯編語(yǔ)言。唯一的區(qū)別是,編譯器在生成代碼時(shí)可以自由地對(duì)數(shù)據(jù)布局、循環(huán)跳閘計(jì)數(shù)和其他相關(guān)特性進(jìn)行附加斷言。這會(huì)產(chǎn)生高度優(yōu)化的、特定于目標(biāo)的代碼,從而充分利用 CPU 。

SVE 還引入了一系列功能強(qiáng)大的高級(jí)功能,非常適合 HPC 和 ML 應(yīng)用:

收集加載和分散存儲(chǔ)指令允許對(duì)結(jié)構(gòu)數(shù)組和其他非連續(xù)數(shù)據(jù)進(jìn)行矢量化操作。

推測(cè)性矢量化支持對(duì)包含控制流的字符串操作函數(shù)和循環(huán)進(jìn)行 SIMD 加速。

水平和序列化矢量操作有助于數(shù)據(jù)縮減,并有助于優(yōu)化處理大型數(shù)據(jù)集的循環(huán)。

SVE 不是 NEON 指令集的擴(kuò)展或替代,后者也可在 AWS Gravition3 中使用。 SVE 經(jīng)過(guò)重新設(shè)計(jì),以提高 HPC 和 ML 的數(shù)據(jù)并行性。

使用 NVIDIA HPC 編譯器最大限度地提高 Graviton3 性能

編譯器自動(dòng)矢量化是利用 SVE 的最簡(jiǎn)單方法之一, NVIDIA HPC 編譯器在 22.7 版本中添加了對(duì) SVE 自動(dòng)矢量化的支持。

為了最大限度地提高性能,編譯器執(zhí)行分析以確定要生成的 SIMD 指令。 SVE 自動(dòng)矢量化使用目標(biāo)特定信息,根據(jù) CPU 核的矢量位寬度生成高度優(yōu)化的矢量長(zhǎng)度特定( VLS )代碼。

要啟用 SVE 自動(dòng)矢量化,請(qǐng)為目標(biāo) CPU 指定適當(dāng)?shù)?-tp 體系結(jié)構(gòu)標(biāo)志: -tp = neoverse-v1 。如果不指定 -tp 選項(xiàng),則假定應(yīng)用程序?qū)⒃诰幾g它的同一系統(tǒng)上執(zhí)行。

在 Graviton3 上使用 NVIDIA HPC 編譯器編譯的應(yīng)用程序會(huì)自動(dòng)充分利用 CPU 的 256 位 SVE SIMD 單元。 Graviton3 還向后兼容 -tp = neoverse-n1 選項(xiàng),但僅在其 128 位 NEON SIMD 單元上運(yùn)行矢量代碼。

NVIDIA HPC SDK 入門(mén)

NVIDIA HPC SDK 提供了一個(gè)全面且經(jīng)驗(yàn)證的軟件堆棧。它使 HPC 開(kāi)發(fā)人員能夠在 NVIDIA 平臺(tái)和 AWS Graviton3 等高性能系統(tǒng)上創(chuàng)建和優(yōu)化應(yīng)用程序性能。

通過(guò)提供廣泛的編程模型、庫(kù)和開(kāi)發(fā)工具,可以針對(duì)專(zhuān)用硬件高效開(kāi)發(fā)應(yīng)用程序,從而在 NVIDIA GPU 和支持 SVE 的處理器(如 AWS Graviton3 )等系統(tǒng)中實(shí)現(xiàn)最先進(jìn)的性能。

關(guān)于作者

John Linford 博士是 NVIDIA 的首席技術(shù)經(jīng)理,專(zhuān)注于開(kāi)發(fā) CPU 軟件生態(tài)系統(tǒng)。 John 此前曾擔(dān)任 HPC 工程部主任。 John 擁有近二十年的一線 HPC 應(yīng)用、系統(tǒng)和優(yōu)化經(jīng)驗(yàn),尤其喜歡與新興技術(shù)和極端規(guī)模的系統(tǒng)合作。約翰的總部設(shè)在德克薩斯州奧斯汀。

Scott Manley 是一名編譯器優(yōu)化工程師,也是 NVIDIA HPC SDK 的自動(dòng)矢量化主管。 Scott 的整個(gè)職業(yè)生涯都致力于矢量化和 HPC 編譯器。他曾在 Cray 編譯環(huán)境( CCE )工作,并在都柏林三一學(xué)院獲得博士學(xué)位,主要致力于優(yōu)化 SIMD ISAs 的使用。

Graham Lopez 在 NVIDIA 領(lǐng)導(dǎo)高性能計(jì)算編譯器的產(chǎn)品管理。此前,他曾與應(yīng)用程序合作,以在當(dāng)前和未來(lái)的領(lǐng)先級(jí)計(jì)算設(shè)施上大規(guī)模運(yùn)行。除了直接參與 HPC 應(yīng)用程序之外, Graham 還發(fā)表了編程模型、計(jì)算科學(xué)、異構(gòu)系統(tǒng)的應(yīng)用程序加速和基準(zhǔn)測(cè)試以及低級(jí)通信 API 等領(lǐng)域的研究成果。格雷厄姆過(guò)去三年一直是 ISO C ++標(biāo)準(zhǔn)委員會(huì)的成員。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4818

    瀏覽量

    102651
  • 編譯器
    +關(guān)注

    關(guān)注

    1

    文章

    1608

    瀏覽量

    48982
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    亞馬遜云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g實(shí)例正式可用

    )?R8g實(shí)例現(xiàn)已正式可用。Amazon EC2 R8g實(shí)例與基于Amazon Graviton3的實(shí)例相比性能提升高達(dá)30%,非常適用于如數(shù)據(jù)庫(kù)、內(nèi)存緩存和實(shí)時(shí)大數(shù)據(jù)分析等內(nèi)存密集型工作負(fù)載。這些實(shí)例均
    的頭像 發(fā)表于 07-15 16:09 ?318次閱讀

    亞馬遜網(wǎng)絡(luò)服務(wù)即將推出第四代Graviton處理器

    7月10日,雅虎財(cái)經(jīng)獨(dú)家報(bào)道了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)即將推出的重大技術(shù)進(jìn)展——其第四代Graviton處理器,即Graviton4芯片。這一重要信息由AWS的計(jì)算與人工智能產(chǎn)品管理總
    的頭像 發(fā)表于 07-10 15:51 ?526次閱讀

    NVIDIA突破美國(guó)禁令,將在中東部署其高性能AI/HPC GPU加速

    Ooredoo達(dá)成合作協(xié)議,將在中東地區(qū)部署其高性能AI/HPC GPU加速卡。這一舉動(dòng)不僅標(biāo)志著NVIDIA在中東市場(chǎng)的戰(zhàn)略布局取得了重大突破,也引發(fā)了外界對(duì)于如何防止這些先進(jìn)技術(shù)流向中國(guó)的廣泛討論。
    的頭像 發(fā)表于 06-24 14:47 ?766次閱讀

    NVIDIA 通過(guò) Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持

    Enterprise-IGX軟件現(xiàn)已在NVIDIA IGX平臺(tái)上正式可用,以滿足工業(yè)邊緣對(duì)實(shí)時(shí) AI 計(jì)算日益增長(zhǎng)的需求。它們將共同幫助醫(yī)療、工業(yè)和科學(xué)計(jì)算領(lǐng)域的解決方案提供商利用企業(yè)級(jí)軟件
    的頭像 發(fā)表于 06-04 10:21 ?434次閱讀

    利用NVIDIA的nvJPEG2000庫(kù)分析DICOM醫(yī)學(xué)影像的解碼功能

    本文將深入分析 DICOM 醫(yī)學(xué)影像的解碼功能。AWS HealthImaging 利用 NVIDIA 的 nvJPEG2000 庫(kù)來(lái)實(shí)現(xiàn)此功能。
    的頭像 發(fā)表于 05-28 14:27 ?627次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b>的nvJPEG2000庫(kù)分析DICOM醫(yī)學(xué)影像的解碼功能

    助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究

    科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。
    的頭像 發(fā)表于 05-14 09:17 ?331次閱讀
    助力科學(xué)發(fā)展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    NVIDIA AI微服務(wù)現(xiàn)已與AWS集成,加速藥物研發(fā)和數(shù)字醫(yī)療

    NVIDIA NIM 使數(shù)千家使用 AWS 的醫(yī)療和生命科學(xué)公司能夠快速、輕松開(kāi)發(fā)和部署生成式 AI。
    的頭像 發(fā)表于 05-09 09:21 ?1472次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開(kāi)源語(yǔ)言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開(kāi)源語(yǔ)言模型。TensorRT-LLM 是一個(gè)開(kāi)源庫(kù),用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?446次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行
    的頭像 發(fā)表于 04-20 09:39 ?583次閱讀

    Cadence與NVIDIA聯(lián)合推出利用加速計(jì)算和生成式AI重塑設(shè)計(jì)

    中國(guó)上海,2024 年 3 月 25 日——楷登電子(美國(guó) Cadence 公司,NASDAQ:CDNS)近日宣布,公司將深化與 NVIDIA 在 EDA、系統(tǒng)設(shè)計(jì)與分析、數(shù)字生物學(xué)和人工智能領(lǐng)域的多年合作,推出兩款變革性解決方案,利用
    的頭像 發(fā)表于 03-25 14:36 ?523次閱讀

    Nvidia 正在利用迄今為止最強(qiáng)大的芯片 H200 推動(dòng)人工智能革命

    ABSTRACT摘要Nvidia表示,H200TensorCoreGPU具有更大的內(nèi)存容量和帶寬,可加快生成AI和HPC工作負(fù)載的速度。NvidiaH200是首款提供HBM3e的GPU,HBM
    的頭像 發(fā)表于 01-17 08:25 ?648次閱讀
    <b class='flag-5'>Nvidia</b> 正在<b class='flag-5'>利用</b>迄今為止最強(qiáng)大的芯片 H200 推動(dòng)人工智能革命

    AWS成為第一個(gè)提供NVIDIA GH200 Grace Hopper超級(jí)芯片的提供商

    2023年的AWS re:Invent大會(huì)上,AWSNVIDIA宣布AWS將成為第一個(gè)提供NVIDIA GH200 Grace Hoppe
    的頭像 發(fā)表于 11-30 09:24 ?593次閱讀
    <b class='flag-5'>AWS</b>成為第一個(gè)提供<b class='flag-5'>NVIDIA</b> GH200 Grace Hopper超級(jí)芯片的提供商

    NVIDIA BioNeMo 在亞馬遜云科技上線,實(shí)現(xiàn)用于藥物研發(fā)的生成式 AI

    NVIDIA Clara 軟件和服務(wù),以加快醫(yī)療研究進(jìn)程。 這項(xiàng)計(jì)劃于太平洋時(shí)間 11 月 28 日在亞馬遜云科技 re:Invent 公布,讓使用 AWS 云資源的醫(yī)療和生命科學(xué)
    的頭像 發(fā)表于 11-29 21:10 ?529次閱讀

    西門(mén)子攜手Arm和AWS提供PAVE360數(shù)字孿生解決方案

    西門(mén)子數(shù)字化工業(yè)軟件攜手Arm和AWS,在AWS云服務(wù)中提供PAVE360數(shù)字孿生解決方案,利用云端汽車(chē)仿真幫助下一代軟件定義汽車(chē) (SDV
    的頭像 發(fā)表于 11-28 11:09 ?1428次閱讀

    加速SDV診斷開(kāi)發(fā)用例的HPC實(shí)施方案解析

    軟件定義車(chē)輛的快速轉(zhuǎn)變;車(chē)載/離線診斷工具和用于HPC實(shí)現(xiàn)的加速器; 現(xiàn)有的挑戰(zhàn)和需求正在推動(dòng)E/E體系結(jié)構(gòu)的演進(jìn)。連接的、軟件定義的車(chē)輛的需求
    的頭像 發(fā)表于 11-21 11:27 ?408次閱讀
    <b class='flag-5'>加速</b>SDV診斷開(kāi)發(fā)用例的<b class='flag-5'>HPC</b>實(shí)施方案解析