0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數(shù)據(jù)中心依靠服務器為其計算密集型架構提供支持

獨愛72H ? 來源:教育新聞網(wǎng) ? 作者:教育新聞網(wǎng) ? 2020-04-28 17:04 ? 次閱讀

(文章來源:教育新聞網(wǎng))

支持AI和ML部署的數(shù)據(jù)中心依靠基于圖形處理單元(GPU)的服務器為其計算密集型架構提供支持。在多個行業(yè)中,到2024年,GPU使用量的增長將落后于GPU服務器預計超過31%的復合年增長率。這意味著將承擔更多的系統(tǒng)架構師的職責,以確保GPU系統(tǒng)具有最高的性能和成本效益。

然而,為這些基于GPU的AI / ML工作負載優(yōu)化存儲并非易事。存儲系統(tǒng)必須高速處理海量數(shù)據(jù),同時應對兩個挑戰(zhàn):

服務器利用率1)。GPU服務器對于訓練大型AI / ML數(shù)據(jù)集所需的矩陣乘法和卷積非常高效。但是,GPU服務器的成本是典型CPU服務器的3倍。為了保持ROI,IT員工需要保持GPU繁忙。不幸的是,豐富的部署經(jīng)驗表明GPU僅以30%的容量使用。

該2)。ML訓練數(shù)據(jù)集通常遠遠超過GPU的本地RAM容量,從而創(chuàng)建了一個I / O瓶頸,分析人員將其稱為GPU存儲瓶頸。AI和ML系統(tǒng)最終要等待訪問存儲資源,這是因為它們的龐大規(guī)模阻礙了及時訪問,從而影響了性能。為了解決這個問題,NVMe閃存固態(tài)硬盤逐漸取代了標準閃存固態(tài)硬盤,成為Al / ML存儲的首選。

NVMe支持大規(guī)模的IO并行性,性能約為同類SATA SSD的6倍,并且延遲降低了10倍,并且具有更高的電源效率。正如GPU推動了高性能計算的發(fā)展一樣,NVMe閃存在降低延遲的同時,實現(xiàn)了更高的存儲性能,帶寬和IO / s。NVMe閃存解決方案可以將AI和ML數(shù)據(jù)集加載到應用程序的速度更快,并且可以避免GPU匱乏。

此外,可通過高速網(wǎng)絡虛擬化NVMe資源的基于光纖的NVMe(NVMeoF)啟用了特別適用于AI和ML的存儲架構。NVMeoF使GPU可以直接訪問NVMe的彈性池,因此可以使用本地閃存性能來訪問所有資源。它使AI數(shù)據(jù)科學家和HPC研究人員可以向應用程序提供更多數(shù)據(jù),以便他們更快地獲得更好的結果。

要獲得最佳的GPU存儲性能,就需要根據(jù)業(yè)務目標對基礎架構進行微調。這里有四種方法可供考慮:

有效擴展GPU存儲容量1)例如,InstaDeep為可能不需要或不需要運行自己的AI堆棧的組織提供了AI即服務解決方案。因此,InstaDeep需要最大的ROI和可擴展性。特別是,對多租戶的需求意味著基礎架構必須隨時準備就緒,以滿足各種工作負載和客戶端的性能要求。

InstaDeep基礎架構團隊在部署其第一個GPU服務器系統(tǒng)的早期就了解到,本地GPU服務器的存儲容量將太有限,只有4TB的本地存儲,而客戶的工作量則需要10到100 TB的TB。該團隊研究了外部存儲選項,并注意到,使用傳統(tǒng)陣列它們將獲得更多的容量,但性能最終會阻礙AI工作負載,因為應用程序需要將數(shù)據(jù)移入和移出GPU系統(tǒng),從而中斷工作流程并影響系統(tǒng)效率。

通過使用軟件定義的存儲在快速的RDMA網(wǎng)絡上合并NVMe閃存(一種將數(shù)據(jù)集加載速度提高10倍的方法),InstaDeep可以實現(xiàn)更高的GPU容量利用率,消除了GPU瓶頸并提高了ROI,因為現(xiàn)有的GPU變得更加完整利用。
(責任編輯:fqj)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    8849

    瀏覽量

    84952
  • 數(shù)據(jù)中心

    關注

    16

    文章

    4577

    瀏覽量

    71806
收藏 人收藏

    評論

    相關推薦

    簡述數(shù)據(jù)中心網(wǎng)絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎設施,網(wǎng)絡架構與連接技術的發(fā)展變得尤為關鍵。
    的頭像 發(fā)表于 10-22 16:23 ?92次閱讀

    需要合理規(guī)劃數(shù)據(jù)中心不能盲目建設

    的資源,把現(xiàn)有閑置的服務器等資源整合起來,建立虛擬的數(shù)據(jù)中心,但是現(xiàn)在的運營商卻大肆的購買新設備,建立大量密集數(shù)據(jù)中心。原來的服務器資源有
    的頭像 發(fā)表于 08-21 11:11 ?198次閱讀

    哪些是數(shù)據(jù)中心的重要系統(tǒng)?

    數(shù)據(jù)中心是現(xiàn)代IT基礎設施的核心,支持了大量企業(yè)和服務的運營。以下是數(shù)據(jù)中心中一些關鍵的重要系統(tǒng)和組件: 1. 服務器 應用
    的頭像 發(fā)表于 08-16 13:37 ?183次閱讀

    借助電源完整性測試提高人工智能數(shù)據(jù)中心的能效

    數(shù)據(jù)中心正在部署基于人工智能 (AI) 的技術,處理密集型服務器正在推動能源需求的增長,下表說明了這種發(fā)展趨勢所帶來的巨大影響。國際能源署 (IEA) 預測,到2030年,
    的頭像 發(fā)表于 07-30 09:36 ?466次閱讀
    借助電源完整性測試提高人工智能<b class='flag-5'>數(shù)據(jù)中心</b>的能效

    探索新潮流 — AI服務器引領數(shù)據(jù)中心的發(fā)展

    電子發(fā)燒友網(wǎng)站提供《探索新潮流 — AI服務器引領數(shù)據(jù)中心的發(fā)展.pdf》資料免費下載
    發(fā)表于 07-26 13:35 ?322次下載

    ai服務器是什么架構類型

    AI服務器,即人工智能服務器,是專門為人工智能應用設計的高性能計算服務器。AI服務器架構類型有
    的頭像 發(fā)表于 07-02 09:51 ?768次閱讀

    數(shù)據(jù)中心液冷需求、技術及實際應用

    夏日炎炎,數(shù)據(jù)中心制冷技術全新升級,液冷散熱,讓服務器清涼一夏。本文將帶您一起探索數(shù)據(jù)中心液冷需求、技術及實際應用。 1 數(shù)據(jù)中心液冷需求 AI浪潮來襲,
    的頭像 發(fā)表于 06-19 11:12 ?641次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>液冷需求、技術及實際應用

    博泰“車聯(lián)網(wǎng)云服務平臺”入選2023年度專利密集型產(chǎn)品名單

    近日,中國專利保護協(xié)會首次組織開展了專利密集型產(chǎn)品認定工作,并于近期發(fā)布2023年專利密集型產(chǎn)品名單,博泰的“車聯(lián)網(wǎng)云服務平臺”入選2023年度專利密集型產(chǎn)品名單。
    的頭像 發(fā)表于 03-29 10:23 ?373次閱讀
    博泰“車聯(lián)網(wǎng)云<b class='flag-5'>服務</b>平臺”入選2023年度專利<b class='flag-5'>密集型</b>產(chǎn)品名單

    韓國大帶寬服務器數(shù)據(jù)中心位置

    很多用戶會選擇韓國大寬帶服務器,那么韓國大帶寬服務器數(shù)據(jù)中心位置在哪,rak小編為您整理發(fā)布韓國大帶寬服務器數(shù)據(jù)中心位置。
    的頭像 發(fā)表于 03-15 10:47 ?354次閱讀

    面向下一代數(shù)據(jù)中心的全新CXL 3.1控制IP

    人工智能的快速發(fā)展正在引發(fā)數(shù)據(jù)中心的深入變革;計算密集型工作負載對CPU、加速和存儲之間的低延遲、高帶寬連接提出了前所未有的高要求。
    的頭像 發(fā)表于 03-12 14:41 ?306次閱讀
    面向下一代<b class='flag-5'>數(shù)據(jù)中心</b>的全新CXL 3.1控制<b class='flag-5'>器</b>IP

    什么是FPGA?帶你初步揭開它的面紗

    ?首先,隨著人工智能、大數(shù)據(jù)等web服務的規(guī)模指數(shù)級增長,通用處理(CPU)的性能提升遇到了瓶頸。而FPGA的可編程屬性使其成為加速常見計算任務的理想選擇。例如,在云
    發(fā)表于 02-21 16:10

    瀾起科技津逮服務器平臺數(shù)據(jù)中心帶來卓越的安全與性能

    津逮?服務器平臺,一款由瀾起科技精心打造的云計算數(shù)據(jù)中心解決方案,旨在為關鍵領域提供卓越的數(shù)據(jù)運算安全性和穩(wěn)定性。該平臺集成了津逮?CPU和混合安全內存模組(HSDIMM?)兩大核心組
    的頭像 發(fā)表于 01-31 11:43 ?1051次閱讀

    數(shù)據(jù)中心服務器功率一般多大 數(shù)據(jù)中心服務器操作系統(tǒng)三大類包括

    可以達到幾千瓦到幾十千瓦的范圍,而大型數(shù)據(jù)中心服務器功率則可以達到數(shù)百千瓦甚至數(shù)兆瓦的級別。 數(shù)據(jù)中心服務器操作系統(tǒng)三大類包括: Windows Server系列操作系統(tǒng):Windows Server系列是由微軟開發(fā)的
    的頭像 發(fā)表于 01-25 10:10 ?2232次閱讀

    IDc數(shù)據(jù)中心需要哪些產(chǎn)品

    IDC數(shù)據(jù)中心是一個專門提供服務器和網(wǎng)絡設備的租用、托管和管理服務的場所。它通常由大型的硬件設施和專業(yè)的技術團隊組成,可以為企業(yè)和機構提供
    的頭像 發(fā)表于 01-16 17:40 ?1756次閱讀

    機架式服務器行業(yè)定義、分類及特征

    高密度、可擴展的服務器架構,通常用于數(shù)據(jù)中心和企業(yè)級應用中。被設計能夠在機架中安裝和堆疊,以節(jié)省空間并
    的頭像 發(fā)表于 12-06 10:36 ?924次閱讀
    機架式<b class='flag-5'>服務器</b>行業(yè)定義、分類及特征