美國南方衛(wèi)理公會(huì)大學(xué)使用 NVIDIA DGX SuperPOD 推動(dòng)德克薩斯州北部地區(qū)進(jìn)入 AI 時(shí)代;密西西比州立大學(xué)和德克薩斯農(nóng)工大學(xué)準(zhǔn)備使用 NVIDIA Quantum-2 網(wǎng)絡(luò);英國的一所大學(xué)則升級了其 InfiniBand 網(wǎng)絡(luò)。
?
正如達(dá)拉斯/沃斯堡機(jī)場已成為全美旅行樞紐一樣,南方衛(wèi)理公會(huì)大學(xué)(SMU)將助力德克薩斯州北部地區(qū)在 AI 行業(yè)發(fā)展中處于領(lǐng)先地位。
南方衛(wèi)理公會(huì)大學(xué)正在安裝一臺(tái) NVIDIA DGX SuperPOD 超級計(jì)算機(jī)。該大學(xué)希望這臺(tái)超級計(jì)算機(jī)為這個(gè)擁有12000多名學(xué)生和2400名教職員工的龐大社區(qū)推動(dòng)機(jī)器學(xué)習(xí)項(xiàng)目的發(fā)展。
除了該大學(xué)之外,美國中南部還有兩所大學(xué)也宣布計(jì)劃使用 NVIDIA 技術(shù)以推動(dòng)研究高速發(fā)展。
德克薩斯農(nóng)工大學(xué)和密西西比州立大學(xué)均計(jì)劃使用 NVIDIA 的 400 Gbit/s InfiniBand 網(wǎng)絡(luò)平臺(tái),NVIDIA Quantum-2 將作為其最新高性能計(jì)算機(jī)的主干網(wǎng)。此外,英國的一臺(tái)超級計(jì)算機(jī)剛剛升級了其 InfiniBand 網(wǎng)絡(luò)。
德克薩斯州喜獲 SuperPOD
提到今年早期在佛羅里達(dá)大學(xué)安裝的另一個(gè)系統(tǒng)時(shí),南方衛(wèi)理公會(huì)大學(xué)首席信息官 Michael Hites 表示:“我們是美國第二所獲得 DGX SuperPOD 系統(tǒng)的大學(xué),它將助力本社區(qū)在使用 AI 技術(shù)推動(dòng)學(xué)位課程,以及校企合作方面,均處于領(lǐng)先地位?!?/p>
9月,一篇報(bào)導(dǎo)稱,達(dá)拉斯地區(qū)因缺乏主要的 AI 研究而 “步履蹣跚”。巧合的是,報(bào)導(dǎo)登上當(dāng)?shù)貓?bào)紙之時(shí),也正是南方衛(wèi)理公會(huì)大學(xué)敲定其 DGX SuperPOD 計(jì)劃之日。
南方衛(wèi)理公會(huì)大學(xué)在 3 月的一份計(jì)劃預(yù)覽報(bào)告中表示,AI 是 “數(shù)字化轉(zhuǎn)型的核心……沒有任何社會(huì)部門能夠不受該技術(shù)的影響。AI 對 K-12 教育行業(yè)和勞動(dòng)力發(fā)展具有巨大的改善潛力,這將有助于該地區(qū)經(jīng)濟(jì)的持續(xù)增長?!?/p>
一項(xiàng) 15 億美元的籌款活動(dòng)——SMU Ignite——于9月正式啟動(dòng)。SMU Ignite 將推動(dòng) AI 倡議,幫助南方衛(wèi)理公會(huì)大學(xué)邁入全國頂級研究型大學(xué)的行列。該大學(xué)正在聘請一位首席創(chuàng)新官來協(xié)助指導(dǎo)此項(xiàng)工作。
打造一個(gè)計(jì)算煉金爐
南方衛(wèi)理公會(huì)大學(xué)研究者 IT 支持團(tuán)隊(duì)主管 Jason Warner 表示,這項(xiàng)工作的核心是人才。因此,他為南方衛(wèi)理公會(huì)大學(xué)福特研究與創(chuàng)新中心的一個(gè)新中心聘請了一批具有重大影響力的數(shù)據(jù)科學(xué)專家。Warner 將這座新中心稱為南方衛(wèi)理公會(huì)大學(xué)的 “計(jì)算煉金爐”。
這支團(tuán)隊(duì)由 Eric Godat 領(lǐng)導(dǎo),他在南方衛(wèi)理公會(huì)大學(xué)使用大型強(qiáng)子對撞機(jī)的數(shù)據(jù)為核結(jié)構(gòu)建模,并因此獲得了粒子物理學(xué)博士學(xué)位。
而今,他正協(xié)助南方衛(wèi)理公會(huì)大學(xué)的學(xué)生了解 DGX SuperPOD 所帶來的新機(jī)會(huì)。第一步,他邀請兩名南方衛(wèi)理公會(huì)大學(xué)的學(xué)生使用 NVIDIA Jetson 模塊建造一個(gè) DGX SuperPOD 的微型模型。
Godat 表示:“我們想讓大家感受一下未來的工作會(huì)是什么樣子的,尤其是那些沒有做過 AI 方面工作的非技術(shù)領(lǐng)域人員?!?/p>
南方衛(wèi)理公會(huì)大學(xué)本科生 Connor Ozenne 協(xié)助建立了一個(gè)微型 DGX SuperPOD,南方衛(wèi)理公會(huì)大學(xué)年度報(bào)告中對其進(jìn)行了介紹。這臺(tái)微型系統(tǒng)由 16 個(gè) Jetson 模塊組成,學(xué)生們將把它看作一個(gè) TOP500 系統(tǒng)來運(yùn)行 benchmark 測試
這臺(tái)全尺寸超級計(jì)算機(jī)由建立在 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)上的 20 個(gè) NVIDIA DGX A100 系統(tǒng)組成。憑借其積木式的模塊化結(jié)構(gòu),這臺(tái)超級計(jì)算機(jī)最早可以在1月啟動(dòng)和運(yùn)行。它將提供高達(dá) 100PFlops 的計(jì)算力,足以使其在全球最快超級計(jì)算機(jī)榜單 TOP500 上位居前列。
德克薩斯農(nóng)工大學(xué)為其 ACES 使用 NVIDIA Quantum-2 InfiniBand 技術(shù)
位于南面約 200 英里的德克薩斯農(nóng)工大學(xué)高性能計(jì)算中心,將成為首批接入 NVIDIA Quantum-2 InfiniBand 平臺(tái)的機(jī)構(gòu)之一。其 ACES 超級計(jì)算機(jī)由戴爾科技建造,將使用 400G InfiniBand 網(wǎng)絡(luò)為研究者連接來自四家廠商的五個(gè)加速器。
NVIDIA Quantum-2 確保 “在 ACES 上單項(xiàng)工作即可以擴(kuò)展到所有計(jì)算核和加速器。除了在吞吐量上比 NVIDIA Quantum-1 InfiniBand 的 200G 翻倍之外,它還具有更低的總擁有成本、更強(qiáng)大的網(wǎng)絡(luò)計(jì)算功能和更高的擴(kuò)展性”,ACES 首席研究員兼項(xiàng)目總監(jiān) Honggao Liu 表示。
德克薩斯農(nóng)工大學(xué)已經(jīng)為研究者提供了四套加速計(jì)算系統(tǒng),這四套系統(tǒng)包含 600 多個(gè)NVIDIA A100 Tensor Core 和上一代 GPU,其中兩個(gè)系統(tǒng)使用了較早版本的 NVIDIA InfiniBand 技術(shù)。
密西西比州立大學(xué)乘上 400G 網(wǎng)速列車
密西西比州立大學(xué)也將使用 NVIDIA Quantum-2 InfiniBand 平臺(tái)。它是構(gòu)建 Orion 新系統(tǒng)的首選網(wǎng)絡(luò),Orion 是密西西比州立大學(xué)管理的四個(gè)集群中最大的一個(gè)集群,這四個(gè)集群全部使用較早版本的 InfiniBand 網(wǎng)絡(luò)所構(gòu)建。
Orion 和新系統(tǒng)均由美國國家海洋和大氣管理局 (NOAA) 所資助,由戴爾科技建造。 Orion 和新系統(tǒng)將承擔(dān) NOAA 的工作任務(wù),以及密西西比州立大學(xué)的各項(xiàng)研究課題。
Orion 在 2019 年 6 月首次登上 TOP500 榜單,并被列為美國第四大學(xué)術(shù)超級計(jì)算機(jī)。
密西西比州立大學(xué)高性能計(jì)算總監(jiān) Trey Breckenridge 表示:“我們在密西西比州立大學(xué)的四代超級計(jì)算機(jī)中都使用了 InfiniBand,所以我們知道它既強(qiáng)大又成熟,可以可靠地運(yùn)行我們需要的大型工作?!?/p>
他補(bǔ)充道:“我們正在添加一套使用 NVIDIA Quantum-2 的新系統(tǒng),以保持在高性能計(jì)算領(lǐng)域的領(lǐng)先優(yōu)勢。”
Quantum 在英國掀起風(fēng)潮
在大洋彼岸的英國,萊斯特大學(xué)的數(shù)據(jù)密集型超級計(jì)算機(jī)——DIaL系統(tǒng)——已經(jīng)升級到200G 版本的 NVIDIA Quantum InfiniBand。
萊斯特大學(xué)理論天體物理學(xué)教授兼高性能計(jì)算中心總監(jiān) Mark Wilkinson 表示:“DIaL專為解決復(fù)雜的數(shù)據(jù)密集型問題而設(shè)計(jì),我們需要解決這些問題,才能推進(jìn)對周圍宇宙的理解?!?/p>
“這些專業(yè)應(yīng)用對帶寬和延遲的要求都是前所未有的,只有 InfiniBand 能夠滿足要求,使研究工作有效開展。”
DIaL 是英國 DiRAC 設(shè)施中使用 InfiniBand 的四臺(tái)超級計(jì)算機(jī)之一,另外還包括愛丁堡大學(xué)的 Tursa 系統(tǒng)。
InfiniBand 在技術(shù)評估上表現(xiàn)出色
在一次技術(shù)評估中,研究人員發(fā)現(xiàn)與使用另一種互連方式的純CPU系統(tǒng) Tesseract 相比,在由 Quantum 網(wǎng)絡(luò)和 NVIDIA GPU 加速器構(gòu)建的 Tursa 系統(tǒng)上運(yùn)行應(yīng)用性能可達(dá)5倍提升。
基準(zhǔn)應(yīng)用測試顯示,Tursa 系統(tǒng)上 16 個(gè)節(jié)點(diǎn)的性能是 Tesseract 系統(tǒng)上 512 個(gè)節(jié)點(diǎn)性能的兩倍。Tursa 系統(tǒng)的每個(gè)節(jié)點(diǎn)提供 10 TFlops 計(jì)算性能,使用90%的網(wǎng)絡(luò)帶寬,每千瓦性能相比 Tesseract 有顯著的提高。
這也說明了為什么世界上大多數(shù) TOP500 系統(tǒng)都在使用 NVIDIA 的技術(shù)。
評論
查看更多