電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程13.3之自動(dòng)并行

PyTorch教程13.3之自動(dòng)并行

2023-06-05 | pdf | 0.44 MB | 次下載 | 免費(fèi)

資料介紹

深度學(xué)習(xí)框架(例如 MXNet 和 PyTorch)在后端自動(dòng)構(gòu)建計(jì)算圖。使用計(jì)算圖,系統(tǒng)了解所有依賴(lài)關(guān)系,并可以選擇性地并行執(zhí)行多個(gè)非相互依賴(lài)的任務(wù)以提高速度。例如,第 13.2 節(jié)中的圖 13.2.2 獨(dú)立地初始化了兩個(gè)變量。因此,系統(tǒng)可以選擇并行執(zhí)行它們。

通常,單個(gè)運(yùn)算符將使用所有 CPU 或單個(gè) GPU 上的所有計(jì)算資源。例如,dot算子將使用所有 CPU 上的所有內(nèi)核(和線(xiàn)程),即使在一臺(tái)機(jī)器上有多個(gè) CPU 處理器這同樣適用于單個(gè) GPU。因此,并行化對(duì)于單設(shè)備計(jì)算機(jī)不是很有用。有了多個(gè)設(shè)備,事情就更重要了。雖然并行化通常在多個(gè) GPU 之間最相關(guān),但添加本地 CPU 會(huì)略微提高性能。例如,參見(jiàn) Hadjis等人。( 2016 年)專(zhuān)注于訓(xùn)練結(jié)合 GPU 和 CPU 的計(jì)算機(jī)視覺(jué)模型。借助自動(dòng)并行化框架的便利,我們可以在幾行 Python 代碼中實(shí)現(xiàn)相同的目標(biāo)。更廣泛地說(shuō),我們對(duì)自動(dòng)并行計(jì)算的討論集中在使用 CPU 和 GPU 的并行計(jì)算,以及計(jì)算和通信的并行化。

請(qǐng)注意,我們至少需要兩個(gè) GPU 才能運(yùn)行本節(jié)中的實(shí)驗(yàn)。

import torch
from d2l import torch as d2l
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

13.3.1。GPU 上的并行計(jì)算

讓我們首先定義一個(gè)要測(cè)試的參考工作負(fù)載:run 下面的函數(shù)使用分配到兩個(gè)變量中的數(shù)據(jù)在我們選擇的設(shè)備上執(zhí)行 10 次矩陣-矩陣乘法:x_gpu1x_gpu2。

devices = d2l.try_all_gpus()
def run(x):
  return [x.mm(x) for _ in range(50)]

x_gpu1 = torch.rand(size=(4000, 4000), device=devices[0])
x_gpu2 = torch.rand(size=(4000, 4000), device=devices[1])

現(xiàn)在我們將函數(shù)應(yīng)用于數(shù)據(jù)。為了確保緩存不會(huì)在結(jié)果中發(fā)揮作用,我們通過(guò)在測(cè)量之前對(duì)其中任何一個(gè)執(zhí)行單次傳遞來(lái)預(yù)熱設(shè)備。torch.cuda.synchronize() 等待 CUDA 設(shè)備上所有流中的所有內(nèi)核完成。它接受一個(gè)device參數(shù),即我們需要同步的設(shè)備。current_device()如果設(shè)備參數(shù)為(默認(rèn)),則它使用由 給出的當(dāng)前設(shè)備None

run(x_gpu1)
run(x_gpu2) # Warm-up all devices
torch.cuda.synchronize(devices[0])
torch.cuda.synchronize(devices[1])

with d2l.Benchmark('GPU1 time'):
  run(x_gpu1)
  torch.cuda.synchronize(devices[0])

with d2l.Benchmark('GPU2 time'):
  run(x_gpu2)
  torch.cuda.synchronize(devices[1])
GPU1 time: 0.4967 sec
GPU2 time: 0.5151 sec

如果我們刪除synchronize兩個(gè)任務(wù)之間的語(yǔ)句,系統(tǒng)就可以自由地自動(dòng)在兩個(gè)設(shè)備上并行計(jì)算。

with d2l.Benchmark('GPU1 & GPU2'):
  run(x_gpu1)
  run(x_gpu2)
  torch.cuda.synchronize()
GPU1 & GPU2: 0.5000 sec
devices = d2l.try_all_gpus()
def run(x):
  return [x.dot(x) for _ in range(50)]

x_gpu1 = np.random.uniform(size=(4000, 4000), ctx=devices[0])
x_gpu2 = np.random.uniform(size=(4000, 4000), ctx=devices[1])

Now we apply the function to the data. To ensure that caching does not play a role in the results we warm up the devices by performing a single pass on either of them prior to measuring.

run(x_gpu1) # Warm-up both devices
run(x_gpu2)
npx.waitall()

with d2l.Benchmark('GPU1 time'):
  run(x_gpu1)
  npx.waitall()

with d2l.Benchmark('GPU2 time'):
  run(x_gpu2)
  npx.waitall()
GPU1 time: 0.5233 sec
GPU2 time: 0.5158 sec

If we remove the waitall statement between both tasks the system is free to parallelize computation on both devices automatically.

with d2l.Benchmark('GPU1 & GPU2'):
  run(x_gpu1)
  run(x_gpu2)
  npx.waitall()
GPU1 & GPU2: 0.5214 sec

在上述情況下,總執(zhí)行時(shí)間小于其各部分的總和,因?yàn)樯疃葘W(xué)習(xí)框架會(huì)自動(dòng)安排兩個(gè) GPU 設(shè)備上的計(jì)算,而不需要代表用戶(hù)編寫(xiě)復(fù)雜的代碼。

13.3.2。并行計(jì)算與通信

在許多情況下,我們需要在不同設(shè)備之間移動(dòng)數(shù)據(jù),比如在 CPU 和 GPU 之間,或者在不同 GPU 之間。例如,當(dāng)我們想要執(zhí)行分布式優(yōu)化時(shí)會(huì)發(fā)生這種情況,我們需要在多個(gè)加速器卡上聚合梯度。讓我們通過(guò)在 GPU 上計(jì)算然后將結(jié)果復(fù)制回 CPU 來(lái)對(duì)此進(jìn)行模擬。

def copy_to_cpu(x, non_blocking=False):
  return [y.to('cpu', non_blocking=non_blocking) for y in x]

with d2l.Benchmark('Run on GPU1'):
  y = run(x_gpu1)
  torch.cuda.synchronize()

with d2l.Benchmark('Copy to CPU'):
  y_cpu = copy_to_cpu(y)
  torch.cuda.synchronize()
Run on GPU1: 0.5019 sec
Copy to CPU: 2.7168 sec

這有點(diǎn)低效。請(qǐng)注意,我們可能已經(jīng)開(kāi)始將 的部分內(nèi)容復(fù)制y到 CPU,而列表的其余部分仍在計(jì)算中。這種情況會(huì)發(fā)生,例如,當(dāng)我們計(jì)算小批量的(反向傳播)梯度時(shí)。一些參數(shù)的梯度將比其他參數(shù)更早可用。因此,在 GPU 仍在運(yùn)行時(shí)開(kāi)始使用 PCI-Express 總線(xiàn)帶寬對(duì)我們有利。在 PyTorch 中,幾個(gè)函數(shù)(例如to()和)copy_()承認(rèn)一個(gè)顯式non_blocking參數(shù),它允許調(diào)用者在不需要時(shí)繞過(guò)同步。設(shè)置non_blocking=True 允許我們模擬這種情況。

with d2l.Benchmark('Run on GPU1 and copy to CPU'):
  y = run(x_gpu1)
  y_cpu = copy_to_cpu(y, True)
  torch.cuda.synchronize()
Run on GPU1 and copy to CPU: 2.4682 sec
def copy_to_cpu(x):
  return [y.copyto(npx.cpu()) for y in x]

with d2l.Benchmark('Run on GPU1'):
  y = run(x_gpu1)
  npx.waitall()

with d2l.Benchmark('Copy to CPU'):
  y_cpu = copy_to_cpu(y)
  npx.waitall()
Run on GPU1: 0.5796 sec
Copy to CPU: 3.0989 sec

This is somewhat inefficient. Note that we could already start copying parts of y to the CPU while the remainder of the list is still being computed. This situation occurs, e.g., when we compute the gradient on a minibatch. The gradients of some of the parameters will be available earlier than that of others. Hence it works to our advantage to start using PCI-Express bus bandwidth while the GPU is still running. Removing waitall between both parts allows us to simulate this scenario.

with d2l.Benchmark('Run on GPU1 and copy to CPU'):
  y = run(x_gpu1)
  y_cpu = copy_to_cpu(y)
  npx.waitall()
Run on GPU1 and copy to CPU: 3.3488 sec

兩個(gè)操作所需的總時(shí)間(正如預(yù)期的那樣)小于它們各部分的總和。請(qǐng)注意,此任務(wù)不同于并行計(jì)算,因?yàn)樗褂貌煌馁Y源:CPU 和 GPU 之間的總線(xiàn)。事實(shí)上,我們可以同時(shí)在兩個(gè)設(shè)備上進(jìn)行計(jì)算和通信。如上所述,計(jì)算和通信之間存在依賴(lài)關(guān)系:y[i]必須在將其復(fù)制到 CPU 之前進(jìn)行計(jì)算。幸運(yùn)的是,系統(tǒng)可以y[i-1]邊計(jì)算邊 復(fù)制y[i],以減少總運(yùn)行時(shí)間。

我們以在一個(gè) CPU 和兩個(gè) GPU 上進(jìn)行訓(xùn)練時(shí)簡(jiǎn)單的兩層 MLP 的計(jì)算圖及其依賴(lài)關(guān)系的圖示作為結(jié)尾,如圖13.3.1所示。手動(dòng)安排由此產(chǎn)生的并行程序?qū)⒎浅M纯唷?/font>這就是擁有基于圖形的計(jì)算后端進(jìn)行優(yōu)化的優(yōu)勢(shì)所在。

https://file.elecfans.com/web2/M00/A9/CC/poYBAGR9OqiAEhMjADhnzKcOtWI169.svg

圖 13.3.1兩層 MLP 在一個(gè) CPU 和兩個(gè) GPU 上的計(jì)算圖及其依賴(lài)關(guān)系。

13.3.3。概括

  • 現(xiàn)代系統(tǒng)具有多種設(shè)備,例如多個(gè) GPU 和 CPU。它們可以并行、異步使用。

  • 現(xiàn)代系統(tǒng)還具有多種通信資源,例如 PCI Express、存儲(chǔ)(通常是固態(tài)驅(qū)動(dòng)器或通過(guò)網(wǎng)絡(luò))和網(wǎng)絡(luò)帶寬。它們可以并聯(lián)使用以達(dá)到最高效率。

  • 后端可以通過(guò)自動(dòng)并行計(jì)算和通信來(lái)提高性能。

13.3.4。練習(xí)

  1. run在本節(jié)定義的函數(shù)中執(zhí)行了八個(gè)操作。它們之間沒(méi)有依賴(lài)關(guān)系。設(shè)計(jì)一個(gè)實(shí)驗(yàn),看看深度學(xué)習(xí)框架是否會(huì)自動(dòng)并行執(zhí)行它們。

  2. 當(dāng)單個(gè)操作員的工作量足夠小時(shí),并行化甚至可以在單個(gè) CPU 或 GPU 上提供幫助。設(shè)計(jì)一個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證這一點(diǎn)。

  3. 設(shè)計(jì)一個(gè)實(shí)驗(yàn),在 CPU、GPU 上使用并行計(jì)算,并在兩個(gè)設(shè)備之間進(jìn)行通信。

  4. 使用 NVIDIA 的Nsight等調(diào)試器 來(lái)驗(yàn)證您的代碼是否有效。

  5. 設(shè)計(jì)包含更復(fù)雜數(shù)據(jù)依賴(lài)關(guān)系的計(jì)算任務(wù),并運(yùn)行實(shí)驗(yàn)以查看是否可以在提高性能的同時(shí)獲得正確的結(jié)果。


下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1山景DSP芯片AP8248A2數(shù)據(jù)手冊(cè)
  2. 1.06 MB  |  532次下載  |  免費(fèi)
  3. 2RK3399完整板原理圖(支持平板,盒子VR)
  4. 3.28 MB  |  339次下載  |  免費(fèi)
  5. 3TC358743XBG評(píng)估板參考手冊(cè)
  6. 1.36 MB  |  330次下載  |  免費(fèi)
  7. 4DFM軟件使用教程
  8. 0.84 MB  |  295次下載  |  免費(fèi)
  9. 5元宇宙深度解析—未來(lái)的未來(lái)-風(fēng)口還是泡沫
  10. 6.40 MB  |  227次下載  |  免費(fèi)
  11. 6迪文DGUS開(kāi)發(fā)指南
  12. 31.67 MB  |  194次下載  |  免費(fèi)
  13. 7元宇宙底層硬件系列報(bào)告
  14. 13.42 MB  |  182次下載  |  免費(fèi)
  15. 8FP5207XR-G1中文應(yīng)用手冊(cè)
  16. 1.09 MB  |  178次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234315次下載  |  免費(fèi)
  3. 2555集成電路應(yīng)用800例(新編版)
  4. 0.00 MB  |  33566次下載  |  免費(fèi)
  5. 3接口電路圖大全
  6. 未知  |  30323次下載  |  免費(fèi)
  7. 4開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
  8. 未知  |  21549次下載  |  免費(fèi)
  9. 5電氣工程師手冊(cè)免費(fèi)下載(新編第二版pdf電子書(shū))
  10. 0.00 MB  |  15349次下載  |  免費(fèi)
  11. 6數(shù)字電路基礎(chǔ)pdf(下載)
  12. 未知  |  13750次下載  |  免費(fèi)
  13. 7電子制作實(shí)例集錦 下載
  14. 未知  |  8113次下載  |  免費(fèi)
  15. 8《LED驅(qū)動(dòng)電路設(shè)計(jì)》 溫德?tīng)栔?/a>
  16. 0.00 MB  |  6656次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935054次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537798次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420027次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234315次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191187次下載  |  免費(fèi)
  13. 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
  14. 158M  |  183279次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138040次下載  |  免費(fèi)