隨著物聯(lián)網(wǎng) (IoT)、人工智能(AI) 、機(jī)器學(xué)習(xí)(ML)和 3-D 成像等技術(shù)的發(fā)展,數(shù)據(jù)的速度、種類和數(shù)量呈爆炸式增長(zhǎng),企業(yè)需要處理的數(shù)據(jù)規(guī)模和數(shù)量呈指數(shù)級(jí)增長(zhǎng)。
對(duì)許多行業(yè)來說,如體育直播賽事、新產(chǎn)品測(cè)試或股票趨勢(shì)分析等,對(duì)實(shí)時(shí)處理數(shù)據(jù)的能力要求非常高。為了在競(jìng)爭(zhēng)中領(lǐng)先一步,企業(yè)需要閃電般快速和高度可靠的IT基礎(chǔ)架構(gòu)來處理、存儲(chǔ)和分析大量數(shù)據(jù)。這種工具就是高性能計(jì)算!
一、
HPC(高性能計(jì)算)概述
1.什么是HPC(高性能計(jì)算)?
高性能計(jì)算 (High Performance Computing,又叫HPC、超級(jí)計(jì)算)是指比傳統(tǒng)計(jì)算機(jī)和服務(wù)器提供更高馬力聚合計(jì)算能力的計(jì)算方法。與超級(jí)計(jì)算機(jī)或硬件加速機(jī)器不同,高性能計(jì)算特別強(qiáng)調(diào)使用分布式資源來組合存儲(chǔ)、應(yīng)用程序、計(jì)算能力和網(wǎng)絡(luò)資源,以完成其他方式無法完成的任務(wù)。高性能計(jì)算需要處理的TB、PB、甚至ZB級(jí)別的數(shù)據(jù),并且需要接近實(shí)時(shí)地處理,比如在幾分鐘或者幾小時(shí)內(nèi)得到結(jié)果,而不是幾天或幾個(gè)星期。
2.HPC為什么重要?
HPC之所以重要,是因?yàn)樗軒椭覀兏斓赝瓿纱笮?a href="http://srfitnesspt.com/analog/" target="_blank">模擬和大型工作負(fù)載。
HPC比普通PC更快更強(qiáng)更省力,它每秒可以執(zhí)行千萬億次計(jì)算,配備3 GHz處理器的筆記本電腦或臺(tái)式機(jī)每秒可以執(zhí)行大約 30 億次計(jì)算。
HPC 通過集群/并行計(jì)算、最新的 CPU 和GPU、低延遲網(wǎng)絡(luò)和塊存儲(chǔ)設(shè)備去實(shí)現(xiàn)高速處理。
HPC系統(tǒng)更具可擴(kuò)展性。用戶可以在需要時(shí)進(jìn)行縱向擴(kuò)展(升級(jí) CPU、GPU、內(nèi)存或其他資源)和橫向擴(kuò)展(將更多節(jié)點(diǎn)添加到集群中)。從云服務(wù)提供商 (CSP) 租用 HPC 資源可以進(jìn)一步提高可擴(kuò)展性并降低成本。
三種HPC解決方案:
本地HPC:本地的HPC就是傳統(tǒng)的HPC數(shù)據(jù)中心,需要有高性能服務(wù)器和存儲(chǔ),用戶自己去搭建這個(gè)HPC集群。
HPC云:云上的高性能計(jì)算提供HPC即服務(wù),用戶使用公有云去完成計(jì)算工作。
混合HPC:一個(gè)應(yīng)用運(yùn)行在私有云(private cloud)或數(shù)據(jù)中心(data center)中,當(dāng)計(jì)算能力的需求達(dá)到頂峰時(shí)則動(dòng)態(tài)地向公有云服務(wù)器請(qǐng)求一定量的計(jì)算(或存儲(chǔ))能力。當(dāng)本地的工作負(fù)載積壓時(shí)會(huì)立即啟動(dòng)云資源,把工作負(fù)載遷移到公有云上去計(jì)算,支持的云比如說谷歌云、微軟云、Oracle云等。
3.HPC工作原理
HPC中處理信息的兩種主要方法是:
串行處理由中央處理單元 (CPU) 完成。每個(gè) CPU 內(nèi)核通常一次只處理一個(gè)任務(wù)。CPU 對(duì)于運(yùn)行操作系統(tǒng)和基本應(yīng)用程序(例如,文字處理、辦公效率)等功能至關(guān)重要。
可以使用多個(gè) CPU 或圖形處理單元 (GPU) 執(zhí)行并行處理。GPU 最初是為專用圖形開發(fā)的,可以同時(shí)跨數(shù)據(jù)矩陣(例如屏幕像素)執(zhí)行多個(gè)算術(shù)運(yùn)算。同時(shí)處理大量數(shù)據(jù)平面的能力使 GPU 非常適合機(jī)器學(xué)習(xí) (ML) 應(yīng)用程序任務(wù)中的并行處理,例如識(shí)別視頻中的對(duì)象。
二、
HPC應(yīng)用場(chǎng)景
HPC出現(xiàn)在 1960 年代,用于支持政府和學(xué)術(shù)研究。HPC 在 1970 年代開始進(jìn)入主要行業(yè),以加速復(fù)雜產(chǎn)品的開發(fā),例如汽車、航空航天、石油和天然氣、金融服務(wù)和制藥行業(yè)。在現(xiàn)在,各行各業(yè)都能用到,比如生命科學(xué)、天體物理學(xué)、基因組學(xué)、生物信息學(xué)、分子動(dòng)力學(xué)、天氣和氣候預(yù)測(cè)。具體應(yīng)用如圖所示:
三、
虹科高性能計(jì)算解決方案
1.Kubernetes上的高性能計(jì)算
Kubernetes作為目前容器管理框架的事實(shí)標(biāo)準(zhǔn),在當(dāng)下的應(yīng)用十分火熱。隨著微服務(wù)和容器在企業(yè)中越來越流行,它們也在進(jìn)軍機(jī)器學(xué)習(xí)和其他類似的HPC工作。這一趨勢(shì)模糊了傳統(tǒng)HPC和容器技術(shù)之間的界限,引發(fā)了對(duì)利用 Kubernetes進(jìn)行HPC的可能性的探索。
使用容器和 Kubernetes 來管理和運(yùn)行 HPC 應(yīng)用程序有很多好處:
容器化是一種強(qiáng)大的工具,可以打包復(fù)雜的依賴關(guān)系并提高可重復(fù)性。
隨著企業(yè)將 Kubernetes 作為應(yīng)用程序現(xiàn)代化的安全和多云平臺(tái),在共享環(huán)境中托管 HPC 和企業(yè)容器工作負(fù)載將簡(jiǎn)化運(yùn)營并降低成本。
Kubernetes 本質(zhì)上提供了一個(gè)包含 CPU、內(nèi)存和加速器的共享資源池,就像工作負(fù)載管理器一樣。
更多深入閱讀可以參考《kubernetes上的HPC》白皮書。
2.HK-Nimbix HPC平臺(tái)
(1)什么是JARVICE XE
JARVICE XE 是世界上第一個(gè)容器原生混合/多云 HPC 平臺(tái),可在任何與 Kubernetes 兼容的基礎(chǔ)設(shè)施上實(shí)現(xiàn)全球范圍的橫向擴(kuò)展和加速 HPC 和 AI 工作流(SaaS 和 PaaS)。
JARVICE提供加速的應(yīng)用程序和工作流,這些應(yīng)用程序和工作流可以利用任何基礎(chǔ)設(shè)施,無論是裸機(jī)還是虛擬化,包括專用Kubernetes基礎(chǔ)設(shè)施上的InfiniBand、GPU和FPGA
JARVICE 使客戶能夠輕松地從本地解決方案突發(fā)到來自 Google、AWS 和 Azure 等的公有云系統(tǒng),或者將內(nèi)部系統(tǒng)作為私有云進(jìn)行管理。
(2)使用JARVICE XE在 Kubernetes上運(yùn)行HPC
JARVICE XE通過兩個(gè)主要改進(jìn)彌補(bǔ)了在 Kubernetes上運(yùn)行HPC代碼的差距:
兩級(jí)HPC調(diào)度器
調(diào)度器提供2個(gè)級(jí)別,一個(gè)將傳統(tǒng)的HPC作業(yè)請(qǐng)求轉(zhuǎn)換為一組Kubernetes Pod,一個(gè)將Pod綁定到節(jié)點(diǎn)的組調(diào)度器,如果請(qǐng)求的規(guī)模不可用,則將整個(gè)作業(yè)排隊(duì)。而且組調(diào)度器提供一些重要功能去幫助pod調(diào)度
JARVICE XE使用來自 HyperHub目錄中應(yīng)用程序的元數(shù)據(jù)為最終用戶定義工作流,而不是要求用戶編寫PBS 或Slurm腳本來啟動(dòng)工作。
HPC運(yùn)行時(shí)環(huán)境
它在作業(yè)啟動(dòng)時(shí)動(dòng)態(tài)創(chuàng)建,可以根據(jù)來自調(diào)度程序的工作流請(qǐng)求的參數(shù)配置批處理運(yùn)行或交互界面,可以確保工作流的有限完成,無論求解器成功還是失敗,也可以讓傳統(tǒng)的HPC代碼可以不加修改地在JARVICE上運(yùn)行,如有需要,JARVICE XE還直接支持NFS和CephFS共享文件系統(tǒng),運(yùn)行時(shí)環(huán)境可以通過將主機(jī)級(jí)別的掛入點(diǎn)定義為機(jī)器定義的一部分來附加 Kubernetes原生不支持的存儲(chǔ)接口,并行存儲(chǔ)系統(tǒng),例如 WekaIO2。
(3)HyperHub應(yīng)用市場(chǎng)
Hyperhub是一個(gè)精選的點(diǎn)擊式目錄,提供HPC優(yōu)化的仿真模擬、Al/ML/DL軟件,比如ansys、COMSOL、西門子、Matlab、TensorFlow等等,它具有有數(shù)百個(gè)加速的高性能工作流,內(nèi)置支持高性能集群的自動(dòng)縮放應(yīng)用程序,將HPC和超級(jí)計(jì)算應(yīng)用程序作為點(diǎn)選式的工作流程,并且會(huì)自動(dòng)更新這些軟件到任何JARVICE XE部署中。
HYPERHUB與JARVICE XE相結(jié)合為nimbix cloud提供支持,使用戶能夠在任何基礎(chǔ)設(shè)施上以幾乎無限的超級(jí)計(jì)算能力訪問整個(gè)應(yīng)用程序目錄,除了已有的軟件,hyperhub中沒有的軟件支持用戶自定義安裝,使用Jarvice的PushToCompute Tool 可以輕松設(shè)置應(yīng)用程序。JARVICE提供了一個(gè)端到端的持續(xù)集成/持續(xù)部署(CI/CD)管道,用于編譯、部署、測(cè)試和維護(hù)容器化云計(jì)算應(yīng)用程序。這都是該平臺(tái)的PushToCompute功能的一部分。
(4)JARVICE XE 優(yōu)勢(shì)
“開箱即用”的計(jì)算能力
JARVICE XE支持私有云、公有云、混合云和多云部署
JARVICE XE使企業(yè)IT部門可以輕松地將HPC添加到他們的服務(wù)組合中
JARVICE XE附帶完整的 HPC 軟件目錄,該目錄會(huì)自動(dòng)更新最新版本(接管 IT 負(fù)擔(dān))
HK-Nimbix HyperHub 應(yīng)用程序目錄可幫助用戶定義工作流程
能夠?qū)?SLURM 作業(yè)轉(zhuǎn)換為低級(jí)“Pod”調(diào)度程序作業(yè)
通過容器靈活部署可擴(kuò)展的 HPC 作業(yè)
租戶隔離,沒有客戶端共享相同的資源
(5)HK-Nimbix 基礎(chǔ)設(shè)施趨勢(shì)
1)計(jì)算加速器
Nimbix在公有云中提供最廣泛的FPGA和GPU功能目錄 → 支持高級(jí)求解器以加快計(jì)算速度并降低客戶成本.
2)更高密度的節(jié)點(diǎn)(內(nèi)存、CPU 內(nèi)核)
Nimbix計(jì)算節(jié)點(diǎn)具有物理內(nèi)核(相對(duì)于“線程”或“VCPU”)
Nimbix計(jì)算節(jié)點(diǎn)的每個(gè)內(nèi)核至少有8GB的RAM
>>各種可用的GB RAM節(jié)點(diǎn)和GPU節(jié)點(diǎn)
>>128GB、256GB和512GB RAM節(jié)點(diǎn)可用于16核
>>192GB、384GB和768GB RAM節(jié)點(diǎn)可用于20核
>>通過云供應(yīng)商提供的業(yè)內(nèi)最快結(jié)構(gòu)中擴(kuò)展到數(shù)千個(gè)內(nèi)核
額外的GPU內(nèi)存因類型而異,但最高可達(dá) 24GB/GPU
3)最快的互連
所有Nimbix計(jì)算節(jié)點(diǎn)在節(jié)點(diǎn)之間有56Gbps InfiniBand,在Spine上有100Gbps
RDMA用于節(jié)點(diǎn)之間的MPI,系統(tǒng)范圍內(nèi)的延遲<2μs
四、
案例分享
HK-Nimbix幫助IDEX Biometrics在一周內(nèi)完成指紋傳感器的設(shè)計(jì):通過nimbix Cloud,IDEX可以使用相當(dāng)于四個(gè)HPC工作站及其關(guān)聯(lián)的并行計(jì)算能力,而無需自己維護(hù)基礎(chǔ)設(shè)施,能夠幫助IDEX公司加快新產(chǎn)品研發(fā)和上市的速度。
《數(shù)據(jù)改變社會(huì) BI助力發(fā)展》直播預(yù)告
直播講師:肖曉容
直播時(shí)間:10月27日 周四20點(diǎn)
直播精彩內(nèi)容預(yù)告:
1.大數(shù)據(jù)概述
大數(shù)據(jù)時(shí)代
數(shù)據(jù)的重要性
企業(yè)目前面臨的數(shù)據(jù)難題
如何有效解決數(shù)據(jù)問題
2.BI軟件的功能
數(shù)據(jù)集成
數(shù)據(jù)可視化
數(shù)據(jù)分析
移動(dòng)端應(yīng)用
共享與協(xié)作
……
3.案例解析
Hk-Omniscope COVID19模擬演示
Hk-Domo幫助艾默生為易變質(zhì)產(chǎn)品供應(yīng)鏈提供保障
審核編輯 :李倩
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8317瀏覽量
132161 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
80瀏覽量
13361
原文標(biāo)題:【虹科直播精彩回顧】高性能計(jì)算,讓數(shù)據(jù)擁有無限可能!
文章出處:【微信號(hào):Hongketeam,微信公眾號(hào):廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論