在未來,AI計(jì)算系統(tǒng)將要面臨計(jì)算平臺(tái)優(yōu)化設(shè)計(jì)、復(fù)雜異構(gòu)環(huán)境下計(jì)算效率、計(jì)算框架的高度并行與擴(kuò)展、AI應(yīng)用計(jì)算性能等挑戰(zhàn),提高整個(gè)AI計(jì)算系統(tǒng)的性能與效率迫在眉睫。為應(yīng)對(duì)上述挑戰(zhàn),浪潮AI首席架構(gòu)師張清在AI WORLD 2018世界人工智能峰會(huì)上分享了《AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化:從實(shí)驗(yàn)到生產(chǎn)》。
在深度學(xué)習(xí)激發(fā)的人工智能熱潮下,許多創(chuàng)新力很強(qiáng)的企業(yè)的人工智能技術(shù)正逐步從研究實(shí)驗(yàn)走向應(yīng)用與生產(chǎn),在這一過程中,AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化的重要性愈發(fā)明顯。
同時(shí)算法的發(fā)展對(duì)整個(gè)計(jì)算需求所造成的挑戰(zhàn)會(huì)變得更大,提高整個(gè)AI計(jì)算系統(tǒng)的性能與效率迫在眉睫。
在機(jī)遇與挑戰(zhàn)的雙重推動(dòng)下,有創(chuàng)新力的AI企業(yè)會(huì)研發(fā)出怎樣的產(chǎn)品去面對(duì)變革?9月20日,AI WORLD 2018世界人工智能峰會(huì)重磅發(fā)布AI領(lǐng)域年度大獎(jiǎng)——AI Era創(chuàng)新大獎(jiǎng),評(píng)選出2018年度對(duì)AI領(lǐng)域作出重大貢獻(xiàn),切實(shí)推動(dòng)AI進(jìn)步和發(fā)展的人物、企業(yè)和產(chǎn)品。本次峰會(huì)上,浪潮AI服務(wù)器成功登榜「AI產(chǎn)品影響力TOP10」。
浪潮是知名的AI計(jì)算力廠商,致力于從計(jì)算平臺(tái)、管理套件、框架優(yōu)化、應(yīng)用加速四個(gè)層次打造敏捷、高效、優(yōu)化的AI基礎(chǔ)設(shè)施。浪潮AI服務(wù)器采用創(chuàng)新設(shè)計(jì),為AI研發(fā)與應(yīng)用提供領(lǐng)先計(jì)算力,多款產(chǎn)品為業(yè)界首創(chuàng),如全球首款在2U空間內(nèi)高速互聯(lián)集成8顆最高性能GPU加速器的服務(wù)器AGX-2、單機(jī)可實(shí)現(xiàn)支持16個(gè)GPU的超大擴(kuò)展性節(jié)點(diǎn)的SR-AI整機(jī)柜服務(wù)器等。9月12日,浪潮又發(fā)布了一款A(yù)I超級(jí)服務(wù)器AGX-5,性能高達(dá)每秒2千萬(wàn)億次,是目前全球最強(qiáng)大的AI計(jì)算主機(jī)之一。AGX-5也是浪潮在計(jì)算量劇增的挑戰(zhàn)之下,追求更高研發(fā)效力的新成果。
在未來,AI計(jì)算系統(tǒng)將要面臨計(jì)算平臺(tái)優(yōu)化設(shè)計(jì)、復(fù)雜異構(gòu)環(huán)境下計(jì)算效率、計(jì)算框架的高度并行與擴(kuò)展、AI應(yīng)用計(jì)算性能等挑戰(zhàn)。浪潮AI首席架構(gòu)師張清在AI WORLD 2018世界人工智能峰會(huì)引用去年Jeff Dean報(bào)告里的一句話:“事實(shí)證明,我們真正需要的是超過現(xiàn)在100萬(wàn)倍的計(jì)算能力,而不僅僅是幾十倍的增長(zhǎng)?!?/p>
從計(jì)算需求來看,AI計(jì)算系統(tǒng)的設(shè)計(jì)與優(yōu)化之路似乎任重道遠(yuǎn)。因此,為應(yīng)對(duì)上述挑戰(zhàn),張清在本次峰會(huì)上從AI計(jì)算平臺(tái)與算法的Co-design、AI計(jì)算平臺(tái)管理、AI計(jì)算框架的高擴(kuò)展性設(shè)計(jì)、AI實(shí)際應(yīng)用性能優(yōu)化這四個(gè)方面來分析了AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化方法。
下面就是浪潮AI首席架構(gòu)師張清在AI WORLD 2018世界人工智能峰會(huì)上的演講《AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化:從實(shí)驗(yàn)到生產(chǎn)》的主要內(nèi)容。
張清:大家好!在深度學(xué)習(xí)激發(fā)的人工智能熱潮下,很多AI創(chuàng)新力很強(qiáng)的企業(yè)的人工智能技術(shù)正逐步從研究實(shí)驗(yàn)走向應(yīng)用與生產(chǎn)。在AI研究從實(shí)驗(yàn)到生產(chǎn)過程中,AI計(jì)算系統(tǒng)的設(shè)計(jì)和優(yōu)化也是非常關(guān)鍵。今天我主要想從工程和系統(tǒng)角度談?wù)勎业南敕ā?/p>
浪潮主要圍繞計(jì)算方面做了很多創(chuàng)新與研究,解決了不同行業(yè)、不同場(chǎng)景計(jì)算的平臺(tái)和架構(gòu),其中包括產(chǎn)品和方案工作。在人工智能方面,浪潮也做了較多的創(chuàng)新。
截止到2018年,浪潮AI處于高速增長(zhǎng)態(tài)勢(shì),AI增速達(dá)到600%,比全球150%增長(zhǎng)速度幅度快很多,在中國(guó)市場(chǎng),浪潮AI計(jì)算份額已達(dá)到57%。
在AI計(jì)算領(lǐng)域,浪潮不僅是提供基礎(chǔ)的計(jì)算平臺(tái),除了像GPU、CPU服務(wù)器的供應(yīng)之外,浪潮還會(huì)圍繞AI全棧方案,給到用戶關(guān)于系統(tǒng)管理的平臺(tái),例如AI Station,這包括性能分析工具Teye,以及高性能高擴(kuò)展AI計(jì)算框架,針對(duì)垂直行業(yè),浪潮也提供相關(guān)的AI應(yīng)用方案。
人工智能仍是最熱技術(shù)之一,AI計(jì)算領(lǐng)域愈發(fā)重要
在本次峰會(huì)上,很多專家探討人工智能是否進(jìn)入了寒冬時(shí)期這一問題?我個(gè)人的觀點(diǎn)是:AI現(xiàn)在尚處于起步發(fā)展階段,它仍是最熱的一個(gè)技術(shù)。
從Gartner 2018年數(shù)據(jù)看到,全球人工智能市場(chǎng)商業(yè)價(jià)值一直處于高速增長(zhǎng)趨勢(shì),到2018年,所催生的商業(yè)價(jià)值會(huì)達(dá)到1.3萬(wàn)億美元,而未來將會(huì)達(dá)到接近5萬(wàn)億美元。從技術(shù)成熟度曲線可以看到,未來2-5年會(huì)有大量AI技術(shù)實(shí)現(xiàn)從創(chuàng)新期到成長(zhǎng)期的過渡,現(xiàn)在仍有很多AI技術(shù)處于爬坡發(fā)展階段。
在推動(dòng)AI發(fā)展過程中,有三大要素起著主導(dǎo)作用,除算法、數(shù)據(jù)外,計(jì)算方面也越來越重要。根據(jù)浪潮與IDC研究聯(lián)合發(fā)布的《2018中國(guó)AI計(jì)算力發(fā)展報(bào)告》摘要版數(shù)據(jù)顯示,2021年計(jì)算方面的投資將占到整個(gè)AI投資的近一半以上,2017年至2022年將會(huì)達(dá)到近6倍的增長(zhǎng)。
接下來是關(guān)于AI計(jì)算的發(fā)展趨勢(shì),整個(gè)AI計(jì)算領(lǐng)域呈現(xiàn)了以下幾大趨勢(shì):
模式:從科研實(shí)驗(yàn)到應(yīng)用生產(chǎn);
規(guī)模:從單機(jī)計(jì)算到大規(guī)模集群或云計(jì)算;
架構(gòu):從通用CPU計(jì)算到定制化計(jì)算;
AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化迫在眉睫
但AI計(jì)算發(fā)展趨勢(shì)演變過程中面臨著巨大的挑戰(zhàn):隨著模型所需的精度越高,所需的計(jì)算量也會(huì)呈現(xiàn)增長(zhǎng)趨勢(shì)。
引用去年Jeff Dean報(bào)告里的一句話:“事實(shí)證明,我們真正需要的是超過現(xiàn)在100萬(wàn)倍的計(jì)算能力,而不僅僅是幾十倍的增長(zhǎng)。”也就是說,對(duì)于未來的我們,算法的發(fā)展對(duì)整個(gè)計(jì)算需求所造成的挑戰(zhàn)會(huì)變得更大,提高整個(gè)AI計(jì)算系統(tǒng)的性能與效率顯得尤為重要。
以下是我們需要去考慮的三個(gè)方面的問題:
1.計(jì)算規(guī)模從單機(jī)到集群再到大規(guī)模云計(jì)算,規(guī)模呈量級(jí)、指數(shù)級(jí)增長(zhǎng),計(jì)算復(fù)雜度會(huì)越來越大;
2.計(jì)算架構(gòu)從單一通用架構(gòu)CPU+GPU到混合異構(gòu)架構(gòu)CPU+GPU+FPGA+XPU,如何在異構(gòu)并行與協(xié)同計(jì)算方面考慮如何提升整體系統(tǒng)的效率也變得舉足輕重;
3.系統(tǒng)環(huán)境方面,需要單一用戶以及單一場(chǎng)景解決到現(xiàn)在多個(gè)用戶、多場(chǎng)景復(fù)雜環(huán)境的構(gòu)建,從而提升整個(gè)系統(tǒng)效率。
而從這三方面問題的考慮,實(shí)際上是對(duì)整個(gè)系統(tǒng)設(shè)計(jì)優(yōu)化分四個(gè)層面:
1.如何對(duì)AI計(jì)算平臺(tái)做一個(gè)合理的設(shè)計(jì)和構(gòu)建以及優(yōu)化;
2.隨著資源變大、計(jì)算系統(tǒng)變得更復(fù)雜,AI平臺(tái)管理設(shè)計(jì)與優(yōu)化的重要性愈發(fā)明顯;
3.需要更快的工具,即AI計(jì)算框架優(yōu)化;
4.AI應(yīng)用本身的性能優(yōu)化和算法設(shè)計(jì)方面也需要得到重視。
AI計(jì)算平臺(tái)的優(yōu)化需結(jié)合模型算法、應(yīng)用場(chǎng)景特點(diǎn)進(jìn)行Co-Design
對(duì)于AI計(jì)算平臺(tái)的設(shè)計(jì)優(yōu)化,需要把AI分成訓(xùn)練和推理兩大部分:
就訓(xùn)練方面而言,需要構(gòu)建一個(gè)高擴(kuò)展的計(jì)算平臺(tái),能夠支撐大規(guī)模分布式的并行框架,讓其擴(kuò)展性更強(qiáng)。而整個(gè)系統(tǒng)涉及到網(wǎng)絡(luò)、存儲(chǔ)、IO的吞吐能否跟上計(jì)算,則是需要計(jì)算平臺(tái)架構(gòu)方面考慮到的問題。
圍繞整個(gè)應(yīng)用、算法、模型、網(wǎng)絡(luò)的特點(diǎn),例如有的模型參數(shù)比較密集,對(duì)我們系統(tǒng)通信要求比較高,有的計(jì)算性能要求比較高,則需要圍繞性能方面考慮如何提升整個(gè)系統(tǒng)性能的能力,這里就需要從本身模型算法方面做一個(gè)Co-Design。
推理方面的復(fù)雜性比訓(xùn)練方面更高,它不僅體現(xiàn)在性能方面,更關(guān)心的是用戶的體驗(yàn)。當(dāng)對(duì)于大規(guī)模進(jìn)行部署云計(jì)算時(shí),我們需要考慮到它的運(yùn)維成本,需要低功耗平臺(tái)架構(gòu)來做支撐。
基于這些考慮,浪潮計(jì)算平臺(tái)圍繞未來AI計(jì)算平臺(tái),更多是關(guān)心算法模型一些計(jì)算的特點(diǎn),其應(yīng)用場(chǎng)景的特點(diǎn),來進(jìn)行Co-Design的設(shè)計(jì)。我們?cè)趪@不同場(chǎng)景方面打造計(jì)算平 臺(tái),試圖能夠更好地解決在特定場(chǎng)景下性能和延時(shí)、存儲(chǔ)的問題。
9月12日,浪潮最新發(fā)布了AGX-5,它比浪潮上一代AGX-2整體性能會(huì)更高,計(jì)算性能可達(dá)到2 PetaFlops,并且會(huì)搭載16×Tesla V100最強(qiáng)GPU來加速性能。在支撐GPU互聯(lián)架構(gòu)方面,現(xiàn)在采用NVSwitch互聯(lián)結(jié)構(gòu),可以支撐8對(duì)GPU,每一對(duì)GPU之間是300個(gè)GB/s,那么整個(gè)帶寬會(huì)達(dá)到2.4TB/s。另外,相比于此前需要采用模型并行的方式來說,有一些模型在512GB之內(nèi)不需要做模型并行,支持大模型的訓(xùn)練。
如何優(yōu)化AI平臺(tái)管理?計(jì)算資源需要做到共享與獨(dú)享
AI不同項(xiàng)目之間,可能每個(gè)組之間有小的GPU訓(xùn)練平臺(tái),當(dāng)規(guī)模達(dá)到一定量的時(shí)候,幾百個(gè)卡或更大規(guī)模時(shí),整個(gè)資源利用率實(shí)際上是很低的,可能低于50%以下。
由于AI應(yīng)用場(chǎng)景越來越多,資源整合和整體利用也變得尤為重要。如何能夠從整體上把這些資源進(jìn)一步打通,對(duì)不同用戶、不同應(yīng)用進(jìn)行資源配額優(yōu)化?計(jì)算資源需要做到共享與獨(dú)享。
在推理應(yīng)用方面時(shí),需要考慮計(jì)算資源的負(fù)載均衡策略優(yōu)化。結(jié)合AI計(jì)算全流程,從數(shù)據(jù)預(yù)處理、開發(fā)、訓(xùn)練到推理上線,對(duì)一個(gè)平臺(tái)的資源進(jìn)行管理。
基于這方面,浪潮AIStation計(jì)算管理平臺(tái)應(yīng)運(yùn)而生,它可以針對(duì)不同應(yīng)用采用比較便于安裝的方式,利用容器化的方式進(jìn)行打包、安裝和部署,只需一鍵便能實(shí)現(xiàn)。此前,部署一套框架需要1-2周的時(shí)間,并且需要靠人為方式去安裝,而現(xiàn)在,靠容器方式就可以實(shí)現(xiàn)。并且也支持可視化調(diào)試,加快模型開發(fā)時(shí)間,并且實(shí)現(xiàn)整個(gè)計(jì)算資源的統(tǒng)一管理和調(diào)度。
從實(shí)際案例效果來看,沒有部署AIStation和部署之后的效果對(duì)比相當(dāng)明顯:在部署前,整個(gè)GPU利用率只有40%,通過AI平臺(tái)統(tǒng)一管理后,GPU利用率可以達(dá)到70%以上。整個(gè)作業(yè)調(diào)度吞吐從原來支持的200個(gè)以上達(dá)到600個(gè)以上,整個(gè)資源效率實(shí)現(xiàn)大幅度提升。
AI計(jì)算框架與AI應(yīng)用性能優(yōu)化
圍繞AI計(jì)算框架,開源的框架很多,需針對(duì)性能和擴(kuò)展性兩個(gè)方面進(jìn)一步做更深入的優(yōu)化:
在計(jì)算方面,不僅僅是GPU滿負(fù)荷運(yùn)行,需實(shí)現(xiàn)CPU與GPU共同并行計(jì)算,進(jìn)一步提高資源利用率,同時(shí),圍繞新的芯片架構(gòu)的計(jì)算特點(diǎn),采用混合精度或半精度計(jì)算,發(fā)揮計(jì)算芯片的效率;在通信方面,可以采用異步或半異步方式實(shí)現(xiàn)計(jì)算與通訊隱藏的優(yōu)化,通過合并小數(shù)據(jù),提升通信效率來提升整個(gè)通信效果;在IO吞吐方面,采取多線程的數(shù)據(jù)讀取與預(yù)取機(jī)制。
在圍繞AI應(yīng)用性能的優(yōu)化方面,針對(duì)訓(xùn)練端AI應(yīng)用,需要從以下幾個(gè)維度考慮:
首先需要進(jìn)行應(yīng)用性能分析;其次,對(duì)整個(gè)硬件系統(tǒng)、軟件系統(tǒng)進(jìn)行適配優(yōu)化;另外,還需針對(duì)GPU架構(gòu)特點(diǎn)、框架特點(diǎn)、網(wǎng)絡(luò)算法特點(diǎn)進(jìn)行優(yōu)化。
例如,浪潮幫助某用戶實(shí)現(xiàn)高性能人臉識(shí)別訓(xùn)練應(yīng)用時(shí),優(yōu)化后性能與優(yōu)化之前相比提升了2.6倍以上;而面對(duì)用戶應(yīng)用從消費(fèi)級(jí)卡到工業(yè)級(jí)卡的升級(jí),我們針對(duì)工業(yè)卡的特性也做了一些相關(guān)優(yōu)化,相關(guān)應(yīng)用性能提升了4倍。
而針對(duì)推理端AI應(yīng)用性能優(yōu)化,整個(gè)架構(gòu)不僅僅是采用通用架構(gòu),如CPU與GPU,而是更多地開始關(guān)注定制化架構(gòu)平臺(tái),如TPU或其他PU。而充分發(fā)揮定制化芯片架構(gòu)的性能,則需要算法和硬件協(xié)同優(yōu)化。
最后,我將進(jìn)行簡(jiǎn)單地總結(jié):如今,AI面臨著巨大的計(jì)算挑戰(zhàn),提高AI計(jì)算系統(tǒng)性能與效率變得尤為重要,我們需要從系統(tǒng)的角度進(jìn)行綜合考慮。
而AI計(jì)算系統(tǒng)設(shè)計(jì)與優(yōu)化需要從四大方面著手:
通過計(jì)算平臺(tái)與算法、應(yīng)用場(chǎng)景的Co-Design;
通過計(jì)算平臺(tái)管理優(yōu)化,提升計(jì)算吞吐與并發(fā);
通過計(jì)算框架的并行優(yōu)化,提升擴(kuò)展效率與性能;
通過計(jì)算應(yīng)用自身的優(yōu)化,提升應(yīng)用性能。
-
AI
+關(guān)注
關(guān)注
87文章
29472瀏覽量
267804 -
計(jì)算系統(tǒng)
+關(guān)注
關(guān)注
0文章
38瀏覽量
10268 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5450瀏覽量
120816
原文標(biāo)題:AI算力需求100萬(wàn)倍增長(zhǎng),如何優(yōu)化AI計(jì)算系統(tǒng)彌平鴻溝?
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論