青春娱乐视频精品分类,美女一区二区三区欧美日韩国产在线,亚洲精品久欧美三级网站

在之前博客帖子我談到了使用任務(wù)并行編程模型來提高多核計(jì)算節(jié)點(diǎn)的性能和系統(tǒng)利用率的機(jī)會(huì)。任務(wù)分配所面臨的主要挑戰(zhàn)是不同計(jì)算線程之間的負(fù)載不平衡，以及叉連接并行模型有效利用并發(fā)執(zhí)行的局限性。結(jié)果表明，在來自不同供應(yīng)商的多個(gè)處理器中，使用任務(wù)分配共享內(nèi)存代碼具有更好的縮放和性能。性能改進(jìn)在10%到20%之間，執(zhí)行時(shí)間降低了35。這些優(yōu)化導(dǎo)致更快的模擬周轉(zhuǎn)時(shí)間，加速了全球高性能計(jì)算(HPC)用戶的科學(xué)進(jìn)步。

該研究的重點(diǎn)是共享內(nèi)存并行執(zhí)行在一個(gè)節(jié)點(diǎn)的計(jì)算使用 OpenMP。開放MP是HPC中共享內(nèi)存并行和加速器卸載的第一并行編程模型。然而，大型超級(jí)計(jì)算機(jī)不是單一的共享內(nèi)存系統(tǒng)，而是一組計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)都有自己的內(nèi)存，通過高帶寬、低延遲網(wǎng)絡(luò)連接。消息傳遞是這種分布式內(nèi)存系統(tǒng)的首選編程范例。消息傳遞接口 MPI是HPC分布式內(nèi)存系統(tǒng)的主要并行編程模型。

大多數(shù)科學(xué)和工程應(yīng)用都使用純MPI策略并行化，其中來自參與計(jì)算節(jié)點(diǎn)的每個(gè)計(jì)算線程都工作在總域問題的子域中。在MPI的上下文中，每個(gè)計(jì)算線程被稱為MPI進(jìn)程或秩。將一個(gè)大域劃分為分布在不同等級(jí)之間的較小子域的技術(shù)稱為域分解。通常，這種分區(qū)需要在域空間中作為鄰居的行列之間交換子域邊界數(shù)據(jù)。在這種情況下，相鄰的等級(jí)通過使用MPI接口發(fā)送和接收邊界數(shù)據(jù)來交換消息。然而，純MPI策略不是利用節(jié)點(diǎn)內(nèi)并行性的最佳選擇。應(yīng)用程序?qū)ω?fù)載不平衡變得更加敏感，因此重疊應(yīng)用程序階段和線程變得復(fù)雜。它們使用不必要的顯式消息進(jìn)行通信，而不是使用共享內(nèi)存空間。

之間最近的協(xié)作工作巴塞羅那超級(jí)計(jì)算中心 and Arm Research 報(bào)告的經(jīng)驗(yàn)，任務(wù)的自適應(yīng)網(wǎng)格細(xì)化代碼從美國Exascale計(jì)算項(xiàng)目在開放MP和MPI級(jí)別。本文發(fā)表了實(shí)現(xiàn)共享內(nèi)存和分布式內(nèi)存庫的互操作性的性能結(jié)果和收獲“ 面向自適應(yīng)網(wǎng)格細(xì)化應(yīng)用的數(shù)據(jù)流并行化 ”他說 IEEECluster 2020會(huì)議。本文詳細(xì)介紹了任務(wù)分配方法，該方法利用自動(dòng)全疊負(fù)載平衡和通信計(jì)算重疊來實(shí)現(xiàn)更好的縮放、更高的系統(tǒng)利用率、效率和性能。

MPI開放MP

在深入研究先進(jìn)的編程技術(shù)之前，除了純MPI方法外，我們還需要介紹科學(xué)代碼中使用的基本編程策略。最常見的替代方案是混合并行編程。將MPI和Open MP結(jié)合起來，使大規(guī)模的科學(xué)代碼并行化，為開發(fā)兩個(gè)世界的最佳代碼提供了一個(gè)機(jī)會(huì)，同時(shí)減輕了它們的弱點(diǎn)。混合MPI Open MP應(yīng)用程序創(chuàng)建一組MPI級(jí)別，然后每個(gè)級(jí)別都可以執(zhí)行一組OpenMP線程。

通常，科學(xué)應(yīng)用具有迭代算法。迭代通常在模擬中執(zhí)行一個(gè)時(shí)間步驟，其特征是對(duì)數(shù)據(jù)進(jìn)行操作的計(jì)算部分，以及一個(gè)通信部分，其中等級(jí)交換下一次迭代的更新數(shù)據(jù)。通常，在混合MPI開放MP代碼中，計(jì)算部分具有所有MPI級(jí)別中的所有OpenMP線程，通信部分具有MPI級(jí)別傳遞消息。通信部分通常由主線程串行執(zhí)行（下圖中用藍(lán)色顯示）。這種簡單的方法通常在混合編程的上下文中被命名為fork-join。

MPI具有完全并行和固有的局部性優(yōu)勢。 MPI應(yīng)用程序中的所有級(jí)別從初始化到執(zhí)行結(jié)束獨(dú)立運(yùn)行。它們?cè)跀?shù)據(jù)的私有分區(qū)或副本上工作，從而防止不必要的共享數(shù)據(jù)問題。另一方面，Open MP本質(zhì)上是串行的，并且只在并行部分上打開并行性，這些并行部分處理共享數(shù)據(jù)。它還可能受到遠(yuǎn)程緩存效果和一致性工件的影響，例如錯(cuò)誤共享。開放處理共享數(shù)據(jù)的MP具有避免數(shù)據(jù)復(fù)制以進(jìn)行消息傳遞的優(yōu)點(diǎn)，因?yàn)樗芯€程都可以訪問數(shù)據(jù)的單個(gè)副本。將這兩種方法結(jié)合起來，允許包含MPI級(jí)別，以利用合并消息傳遞模型在分布式內(nèi)存系統(tǒng)中進(jìn)行通信，每個(gè)級(jí)別運(yùn)行OpenMP輕量級(jí)線程，利用共享數(shù)據(jù)，減少了總體數(shù)據(jù)復(fù)制需求。

程序員肯定可以按照類似的方案使用Open MP編程。它們可以自始至終具有完整的并發(fā)執(zhí)行，并在仍然訪問共享數(shù)據(jù)的同時(shí)跨線程分發(fā)工作。然而，不幸的是，采用自下而上的方法與Open MP并行是一種常見的做法：并行單個(gè)循環(huán)并將串行部分保持在中間。這就規(guī)定了所規(guī)定的比例限制 Amdahl的法律.

混合應(yīng)用程序中等級(jí)的常見配置是每個(gè)計(jì)算節(jié)點(diǎn)一個(gè)等級(jí)，或每個(gè)非Uniform內(nèi)存訪問(NUMA)節(jié)點(diǎn)一個(gè)等級(jí)。在MPI級(jí)別中打開MP線程，通過共享內(nèi)存空間中的共享數(shù)據(jù)結(jié)構(gòu)隱式通信，而不是交換MPI消息。利用每個(gè)NUMA節(jié)點(diǎn)的一個(gè)秩通常會(huì)提高數(shù)據(jù)的局部性，因?yàn)榻o定秩中的線程訪問相同的NUMA節(jié)點(diǎn)的內(nèi)存。從不同的NUMA節(jié)點(diǎn)訪問內(nèi)存會(huì)在線程之間帶來顯著的內(nèi)存延遲差異，從而導(dǎo)致不平衡的場景。

MPI和Open MP之間的互操作性

這種混合模型提供了這兩種模型的優(yōu)點(diǎn)，但在表中留下了機(jī)會(huì)。異步傳輸(例如，MPI_Isend/MPI_Irecv)等特性通過允許一些通信和計(jì)算重疊來提供混合模型的一些好處。然而，具有全局同步的fork-join模型（如圖1中綠色所示）限制了計(jì)算-通信重疊的數(shù)量，并允許在不同級(jí)別的不同迭代中執(zhí)行的重疊。為了脫離fork-join模型，并允許開發(fā)更高級(jí)別的并行性，以及任務(wù)分配提供的異步計(jì)算和通信，MPI和OpenMP庫需要一起工作。

這種互操作性今天不存在。兩個(gè)庫相互獨(dú)立工作，兩者之間的編排由程序員負(fù)責(zé)。在當(dāng)前的MPI和OpenMP標(biāo)準(zhǔn)中，在并發(fā)任務(wù)中執(zhí)行MPI通信操作（例如，并行交換子域邊界的任務(wù)）是兩者危險(xiǎn)的 and 不稱職的.

一方面，從并發(fā)任務(wù)中調(diào)用阻塞MPI函數(shù)是不安全的。注意，阻塞MPI操作會(huì)阻塞MPI庫內(nèi)的當(dāng)前線程，直到操作完成。圖2說明了這個(gè)問題。我們假設(shè)一個(gè)混合應(yīng)用程序具有兩個(gè)MPI等級(jí)：一個(gè)實(shí)例化多個(gè)并發(fā)任務(wù)以發(fā)送不同的數(shù)據(jù)塊，另一個(gè)實(shí)例化相同數(shù)量的并發(fā)任務(wù)以接收數(shù)據(jù)。我們還假設(shè)它們調(diào)用常見的阻塞MPI_Send和MPI_Recv方法來發(fā)送和接收每個(gè)塊，并且每個(gè)塊數(shù)據(jù)消息都被標(biāo)記為其塊標(biāo)識(shí)符。

如果通信任務(wù)的數(shù)量大于可以運(yùn)行任務(wù)的OpenMP線程的數(shù)量，則程序可能掛起，在這種情況下，OpenMP線程的數(shù)量是每個(gè)級(jí)別兩個(gè)(每個(gè)核心一個(gè)。這是因?yàn)橥ㄐ湃蝿?wù)是并發(fā)的，所以O(shè)penMP調(diào)度程序可以根據(jù)調(diào)度策略和執(zhí)行情況自由地決定它們的執(zhí)行順序。由于不能保證兩個(gè)級(jí)別的執(zhí)行順序相同，運(yùn)行中的任務(wù)可能試圖交換一組不同的塊。這將阻塞MPI庫中兩個(gè)級(jí)別的Open MP線程，從而引發(fā)死鎖情況。請(qǐng)注意，當(dāng)OpenMP線程在MPI庫中阻塞時(shí)，OpenMP線程調(diào)度程序無法知道線程已被阻塞，因此無法在該核心上調(diào)度另一個(gè)OpenMP線程。因此，核心不能同時(shí)執(zhí)行其他“準(zhǔn)備”通信任務(wù)。

圖2：缺乏MPI開放的MP可操作性可能導(dǎo)致MPI調(diào)用任務(wù)的死鎖

另一方面，從任務(wù)中發(fā)布MPI操作通常是低效的。通信任務(wù)需要人工數(shù)據(jù)依賴，以定義所有級(jí)別的相同執(zhí)行順序，并防止以前的死鎖情況。非阻塞MPI操作(例如，MPI_Irecv)的執(zhí)行，它啟動(dòng)操作并返回一個(gè)MPI請(qǐng)求，以檢查其稍后的完成情況，很難管理內(nèi)部任務(wù)。用戶將負(fù)責(zé)手動(dòng)檢查MPI請(qǐng)求，在大多數(shù)情況下導(dǎo)致算法效率低下。

任務(wù)-軟件MPI(TAMPI)庫

The 任務(wù)-軟件MPI(TAMPI)庫目的是克服所有這些限制，允許安全和高效地執(zhí)行阻塞和非阻塞MPI操作，從任務(wù)內(nèi)部，在開放MP和 OmpSs-2 任務(wù)型模特。在調(diào)用阻塞MPI函數(shù)的任務(wù)(例如，MPI_Recv)的情況下，庫暫停任務(wù)，直到操作完成，允許其他“就緒”任務(wù)同時(shí)在該核心上執(zhí)行。該庫還為所有非阻塞MPI函數(shù)(例如TAMPI_Irecv)定義了TAMPI變體)。這些函數(shù)是非阻塞和異步的，將調(diào)用任務(wù)的完成綁定到它們所表示的相應(yīng)的非阻塞操作的最終確定(例如，MPI_Irecv)。該函數(shù)立即返回，以便即使MPI操作尚未完成，任務(wù)也可以完成其執(zhí)行。當(dāng)任務(wù)執(zhí)行完成時(shí)，任務(wù)被認(rèn)為是完成的，所有掛起的MPI操作都完成了。

圖3：HPC軟件堆棧與MPI和開放MP互操作性通過TAMPI。

我們?cè)谙旅娴拇a中展示了如何使用TAMPI支持進(jìn)行非阻塞操作的示例。程序同時(shí)接收并使用任務(wù)并行處理多個(gè)整數(shù)。第一個(gè)任務(wù)是接收機(jī)，它調(diào)用TAMPI_Irecv函數(shù)開始接收操作。這使得任務(wù)完成取決于接收操作的最終完成。注意，它聲明了對(duì)用于接收數(shù)據(jù)的緩沖區(qū)的輸出依賴（即數(shù)據(jù)將寫入緩沖區(qū)）。當(dāng)操作仍在進(jìn)行時(shí)，TAMPI函數(shù)可能會(huì)立即返回，因此緩沖區(qū)不能在那里被消耗。相反，我們可以在下面的后續(xù)任務(wù)中使用它，該任務(wù)將緩沖區(qū)作為輸入依賴項(xiàng)。這樣，當(dāng)MPI操作最終完成時(shí)，TAMPI庫將透明地完成接收任務(wù)并滿足消費(fèi)者任務(wù)的輸入依賴。這將最終運(yùn)行以消耗接收到的數(shù)據(jù)。這樣，TAMPI庫允許開發(fā)人員與多個(gè)任務(wù)并行執(zhí)行高效和安全的通信。

int recvdata[N]; MPI_Status status[N]; for (int i = 0; i < N; ++i) { #pragma omp task out(recvdata[i]) out(status[i]) { int tag = i; TAMPI_Irecv(&recvdata[i], 1, MPI_INT, 0, tag, MPI_COMM_WORLD, &status[i]); // non-blocking and asynchronous // recvdata cannot be accessed yet } #pragma omp task in(recvdata[i]) in(status[i]) { check_status(&status[i]); consume_data(&recvdata[i]); } } #pragma omp taskwait

通過利用OpenMP或OmpSS-2等任務(wù)分配模型和TAMPI庫，我們可以對(duì)大多數(shù)應(yīng)用程序進(jìn)行有效的任務(wù)化，包括計(jì)算和通信部分。這導(dǎo)致計(jì)算和通信的有效重疊，這是任務(wù)分配模型固有的。然后，開發(fā)人員可以集中精力公開他們的應(yīng)用程序的并行性，而不是擔(dān)心低級(jí)方面，例如任務(wù)發(fā)布的MPI操作的處理，這些操作隱藏在TAMPI中。這種策略還可以通過任務(wù)化高級(jí)函數(shù)來實(shí)現(xiàn)自上而下的并行化策略，而不是在叉接方法中看到的低效的自下而上策略。

運(yùn)用我們的方法

到目前為止，我們已經(jīng)探討了MPI和OpenMP之間缺乏互操作性所帶來的問題，以及它如何阻礙MPI級(jí)別的任務(wù)分配。我們還討論了提供在TAMPI中實(shí)現(xiàn)的這種互操作性的建議。在里面這個(gè)博客的第二部分我們研究了如何將所提出的方法應(yīng)用于自適應(yīng)網(wǎng)格細(xì)化應(yīng)用。由此產(chǎn)生的代碼使用任務(wù)跨MPI和開放MP與重要的加速高達(dá)12288核心。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編程

編程

+關(guān)注

關(guān)注
88

文章
3544

瀏覽量
93494
HPC

HPC

+關(guān)注

關(guān)注
0

文章
306

瀏覽量
23623

評(píng)論

相關(guān)推薦

AI與HPC技術(shù)推動(dòng)先進(jìn)封裝行業(yè)發(fā)展

“隨著人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的迅猛發(fā)展，半導(dǎo)體行業(yè)也迎來了新的變革浪潮?！薄@句話在2024年的今天，早已被喻為行業(yè)共識(shí)。

發(fā)表于 10-22 11:22 ?229次閱讀

云計(jì)算hpc的主要功能是什么

云計(jì)算HPC（High-Performance Computing）是指利用云計(jì)算技術(shù)來實(shí)現(xiàn)高性能計(jì)算的一種解決方案。云計(jì)算HPC將高性能計(jì)算能力以云服務(wù)的形式提供給用戶。

發(fā)表于 10-22 10:20 ?77次閱讀

HPC云計(jì)算前景

高性能計(jì)算（HPC）與云計(jì)算的結(jié)合，正逐步成為推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)升級(jí)的重要引擎。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和計(jì)算需求的日益復(fù)雜，HPC云計(jì)算展現(xiàn)出了巨大的潛力和價(jià)值。

發(fā)表于 10-16 10:17 ?108次閱讀

云計(jì)算hpc是什么意思

云計(jì)算HPC（High-Performance Computing）是指利用云計(jì)算技術(shù)來實(shí)現(xiàn)高性能計(jì)算的一種解決方案。

發(fā)表于 10-15 10:01 ?112次閱讀

工業(yè)機(jī)器人的四種編程（示教編程、離線編程、自增強(qiáng)現(xiàn)實(shí)編程主編程）剖析！

和工作量，提高編程效率，實(shí)現(xiàn)編程的自適應(yīng)性，從而提高生產(chǎn)效率，是機(jī)器人編程技術(shù)發(fā)展的終極追求。本文將就機(jī)器人編程技術(shù)的發(fā)展作一介紹，希望能給讀者帶來一些啟發(fā)。對(duì)工業(yè)

發(fā)表于 08-30 12:14 ?1038次閱讀

工業(yè)機(jī)器人的四種<b class='flag-5'>編程</b>（示教<b class='flag-5'>編程</b>、離線<b class='flag-5'>編程</b>、自增強(qiáng)現(xiàn)實(shí)<b class='flag-5'>編程</b>主<b class='flag-5'>編程</b>）剖析！

在多FPGA集群上實(shí)現(xiàn)高級(jí)并行編程

今天我們看的這篇論文介紹了在多FPGA集群上實(shí)現(xiàn)高級(jí)并行編程的研究，其主要目標(biāo)是為非FPGA專家提供一個(gè)成熟且易于使用的環(huán)境，以便在多個(gè)并行運(yùn)行的設(shè)備上擴(kuò)展高性能計(jì)算(HPC)應(yīng)用。

發(fā)表于 07-24 14:54 ?958次閱讀

SK加大投資,布局高性能計(jì)算(HPC)業(yè)務(wù)

SK電訊（SK Telecom）近日宣布了一項(xiàng)重大戰(zhàn)略舉措，計(jì)劃通過斥資2億美元購買SMART Global Holdings（SGH）的可轉(zhuǎn)換優(yōu)先股，從而獲得該公司10%的股權(quán)。此舉標(biāo)志著SK電訊在其AI版圖上的最大手筆投資，旨在加速其在高性能計(jì)算（

發(fā)表于 07-17 15:14 ?403次閱讀

助力科學(xué)發(fā)展，NVIDIA AI加速HPC研究

科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報(bào)、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。

發(fā)表于 05-14 09:17 ?331次閱讀

助力科學(xué)發(fā)展，NVIDIA AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

用DE1-SOC進(jìn)行硬件加速的2D N-Body重力模擬器設(shè)計(jì)

該項(xiàng)目的目標(biāo)是創(chuàng)建一個(gè)用DE1-SOC進(jìn)行硬件加速的2D N-Body重力模擬器。

發(fā)表于 04-09 11:08 ?457次閱讀

<b class='flag-5'>用</b>DE<b class='flag-5'>1</b>-SOC進(jìn)行硬件<b class='flag-5'>加速</b>的<b class='flag-5'>2</b>D N-Body重力模擬器設(shè)計(jì)

康佳特歡迎COM-HPC載板設(shè)計(jì)指南Rev. 2.2的發(fā)布 COM-HPC Mini規(guī)范現(xiàn)已完善

? 2024/4/2 中國上海 * * * 嵌入式和邊緣計(jì)算技術(shù)的領(lǐng)先供應(yīng)商德國康佳特--歡迎COM-HPC載板設(shè)計(jì)指南2.2修訂版的發(fā)布，該指南為開發(fā)人員新增了基于95毫米x70毫米COM-

發(fā)表于 04-02 10:47 ?519次閱讀

碩博電子推出一款基于CoDeSys3.5編程技術(shù)的高性能主控制器

碩博電子自主研發(fā)的移動(dòng)控制器SPC-SFMC-X2214A，采用了CoDeSys3.5編程技術(shù)，為分布式應(yīng)用場合提供了理想的主控制器解決方案。

發(fā)表于 03-01 11:34 ?996次閱讀

什么是HPC高性能計(jì)算

高性能計(jì)算（HighPerformanceComputing，簡稱HPC），是指利用集群、網(wǎng)格、超算等計(jì)算機(jī)技術(shù)，通過合理地組織計(jì)算機(jī)資源以及運(yùn)用適合的算法和程序，提高計(jì)算效率和處理能力，實(shí)現(xiàn)對(duì)大量

發(fā)表于 02-19 13:27 ?747次閱讀

加速SDV診斷開發(fā)用例的HPC實(shí)施方案解析

向軟件定義車輛的快速轉(zhuǎn)變；車載/離線診斷工具和用于HPC實(shí)現(xiàn)的加速器；現(xiàn)有的挑戰(zhàn)和需求正在推動(dòng)E/E體系結(jié)構(gòu)的演進(jìn)。連接的、軟件定義的車輛的需求

發(fā)表于 11-21 11:27 ?408次閱讀

C語言的基本概念和編程技術(shù)

電子發(fā)燒友網(wǎng)站提供《C語言的基本概念和編程技術(shù).pdf》資料免費(fèi)下載

發(fā)表于 11-20 10:18 ?0次下載

研揚(yáng)最新COM-HPC模塊讓您獲得源源不斷的強(qiáng)勁性能

HPC-RPSC的COM-HPC模塊擁有比以往任何產(chǎn)品更多的接口、存儲(chǔ)和處理能力，旨在為最苛刻的應(yīng)用提供最高性能。HPC-RPSC支持第12代和第13代IntelCore處理器，兼容超過10個(gè)

發(fā)表于 11-18 08:05 ?456次閱讀