0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

亞馬遜云科技與英偉達攜手開發(fā)下一代基礎(chǔ)設(shè)施

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2023-03-22 18:05 ? 次閱讀

助力大型機器學(xué)習模型訓(xùn)練和生成式AI應(yīng)用程序構(gòu)建

部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5實例經(jīng)過充分優(yōu)化,可以利用英偉達Hopper GPU加速生成式AI的大規(guī)模訓(xùn)練和推理

北京2023年3月22日/美通社/ --亞馬遜旗下的亞馬遜云科技和英偉達宣布了一項多方合作,致力于構(gòu)建全球最具可擴展性且按需付費的人工智能(AI)基礎(chǔ)設(shè)施,以便訓(xùn)練日益復(fù)雜的大語言模型(LLM)和開發(fā)生成式AI應(yīng)用程序。

借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5實例,以及亞馬遜云科技最先進的網(wǎng)絡(luò)和可擴展性,此次合作將提供高達20 exaFLOPS的計算性能來幫助構(gòu)建和訓(xùn)練更大規(guī)模的深度學(xué)習模型。P5實例將是第一個利用亞馬遜云科技第二代Amazon Elastic Fabric Adapter(EFA)網(wǎng)絡(luò)技術(shù)的GPU實例,可提供3200 Gbps的低延遲和高帶寬網(wǎng)絡(luò)吞吐量。因此客戶能夠在Amazon EC2 UltraCluster中擴展多達2萬個H100 GPU,滿足按需訪問超級計算機的AI性能需求。

"亞馬遜云科技和英偉達合作已超過12年,為人工智能、機器學(xué)習、圖形、游戲和高性能計算(HPC)等各種應(yīng)用提供了大規(guī)模、低成本的GPU解決方案。"亞馬遜云科技首席執(zhí)行官Adam Selipsky表示,"亞馬遜云科技在交付基于GPU的實例方面擁有無比豐富的經(jīng)驗,每一代實例都大大增強了可擴展性,如今眾多客戶將機器學(xué)習訓(xùn)練工作負載擴展到1萬多個GPU。借助第二代Amazon EFA,客戶能夠?qū)⑵銹5實例擴展到超過2萬個英偉達H100 GPU,為包括初創(chuàng)公司、大企業(yè)在內(nèi)的所有規(guī)??蛻籼峁┧璧某売嬎隳芰?。"

"加速計算和人工智能已經(jīng)到來,而且適逢其時。加速計算提升性能的同時,降低了成本和功耗,讓企業(yè)事半功倍。生成式AI已促使企業(yè)重新思考產(chǎn)品和商業(yè)模式,力求成為顛覆者,而不是被顛覆。"英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,"亞馬遜云科技是英偉達的長期合作伙伴,也是首家提供英偉達GPU的云服務(wù)提供商。我們很高興能夠結(jié)合各自的專長、規(guī)模和業(yè)務(wù)范圍,幫助客戶利用加速計算和生成式AI抓住未來的大好機遇。"

新的超級計算集群

新的P5實例構(gòu)建于亞馬遜云科技和英偉達十多年來在AI和HPC基礎(chǔ)設(shè)施交付方面的合作基礎(chǔ)之上,也立足于雙方在P2、P3、P3dn和P4d(e)前四代實例方面的合作。P5實例是基于英偉達GPU的第五代亞馬遜云科技產(chǎn)品,與最初部署的英偉達GPU(始于CG1實例)已相隔近13年。

P5實例非常適合對日益復(fù)雜的LLM和計算機視覺模型進行訓(xùn)練和運行推理,并應(yīng)用于要求嚴苛的計算密集型生成式AI應(yīng)用程序,包括問題回答、代碼生成、視頻圖像生成和語音識別等領(lǐng)域。

對于致力于以可擴展和安全的方式將AI賦能的創(chuàng)新推向市場的企業(yè)和初創(chuàng)公司而言,P5實例是不二之選。P5實例采用8個英偉達H100 GPU,能夠在一個Amazon EC2實例中實現(xiàn)16 petaFLOPs的混合精度性能、640 GB的高帶寬內(nèi)存和3200 Gbps的網(wǎng)絡(luò)連接(比上一代實例高出8倍)。P5實例性能的提升使機器學(xué)習模型訓(xùn)練時間加快了6倍(將訓(xùn)練時間從數(shù)天縮短到數(shù)小時),額外的GPU內(nèi)存可幫助客戶訓(xùn)練更龐大更復(fù)雜的模型。預(yù)計P5實例的機器學(xué)習模型訓(xùn)練成本將比上一代降低40%。相比靈活性較差的云產(chǎn)品或昂貴的本地系統(tǒng),它為客戶提供了更高的效率。

Amazon EC2 P5實例部署在Amazon EC2 UltraCluster的超大規(guī)模集群中,該集群由云端最高性能的計算、網(wǎng)絡(luò)和存儲系統(tǒng)組成。每個EC2 UltraCluster都是世界上功能最強大的超級計算機之一,助力客戶運行最復(fù)雜的多節(jié)點機器學(xué)習訓(xùn)練和分布式HPC工作負載。它們采用PB級無阻塞網(wǎng)絡(luò),基于Amazon EFA,這種面向Amazon EC2實例的網(wǎng)絡(luò)接口使客戶能夠在亞馬遜云科技上運行需要在大規(guī)模高級節(jié)點間通信的應(yīng)用程序。EFA的定制操作系統(tǒng)繞過硬件接口,并與英偉達GPUDirect RDMA整合,可降低延遲、提高帶寬利用率,從而提升實例間通信性能,這對于在數(shù)百個P5節(jié)點上擴展深度學(xué)習模型的訓(xùn)練至關(guān)重要。借助P5實例和EFA,機器學(xué)習應(yīng)用程序可以使用NVIDIA Collective Communications Library(NCCL)擴展到多達2萬個H100 GPU。因此,客戶可以通過亞馬遜云科技的按需彈性和靈活擴展能力,獲得本地HPC集群的應(yīng)用性能。除了這些出色的計算能力外,客戶可以使用業(yè)界最廣泛最深入的服務(wù)組合,比如面向?qū)ο蟠鎯Φ腁mazon S3、面向高性能文件系統(tǒng)的Amazon FSx,以及用于構(gòu)建、訓(xùn)練和部署深度學(xué)習應(yīng)用的Amazon SageMaker。P5實例將在今后幾周提供有限預(yù)覽版。欲了解詳情,請訪問https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的Amazon EC2 P5實例,Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客戶將能夠大規(guī)模構(gòu)建和訓(xùn)練最龐大的機器學(xué)習模型?;谄渌鼛状鶤mazon EC2實例的合作將幫助初創(chuàng)公司、大企業(yè)和研究人員無縫擴展來滿足各自的機器學(xué)習需求。

Anthropic構(gòu)建了可靠、可解釋和可操控的AI系統(tǒng),將創(chuàng)造巨大商業(yè)價值并造福公眾。"Anthropic正在努力構(gòu)建可靠、可解釋和可操控的AI系統(tǒng)。雖然當前已有的大型通用AI系統(tǒng)大有助益,但它們卻是不可預(yù)測、不可靠和不透明的。我們的目的是解決這些問題,為人們部署更實用的系統(tǒng)。"Anthropic的聯(lián)合創(chuàng)始人Tom Brown表示,"我們是全球為數(shù)不多的在深度學(xué)習研究領(lǐng)域建立基礎(chǔ)模型的組織之一。這種模型高度復(fù)雜,為了開發(fā)和訓(xùn)練先進的模型,我們需要在龐大的GPU集群中有效地分布這些模型。我們正在廣泛應(yīng)用Amazon EC2 P4實例,我們更為即將發(fā)布的P5實例感到興奮。預(yù)計P5實例會提供比P4d實例更顯著的性價比優(yōu)勢,它們可以滿足構(gòu)建下一代大語言模型和相關(guān)產(chǎn)品的大規(guī)模需求。"

Cohere是自然語言AI領(lǐng)域的先驅(qū),它幫助開發(fā)者和企業(yè)使用世界領(lǐng)先的自然語言處理(NLP)技術(shù)構(gòu)建出色的產(chǎn)品,同時確保數(shù)據(jù)的隱私和安全。"Cohere不遺余力地幫助企業(yè)利用自然語言AI的強大功能,以自然直觀的方式探索、生成和搜索信息,并做出反應(yīng),并將產(chǎn)品部署在多云的數(shù)據(jù)環(huán)境中,為客戶提供最佳體驗。"Cohere首席執(zhí)行官Aidan Gomez表示,"基于英偉達H100的Amazon EC2 P5實例將釋放企業(yè)潛能,利用計算能力以及Cohere最先進的LLM和生成式AI能力,更快地開發(fā)產(chǎn)品、拓展業(yè)務(wù)和擴大規(guī)模。"

Hugging Face的使命是普及優(yōu)秀的機器學(xué)習。"作為發(fā)展最迅猛的機器學(xué)習開源社區(qū),我們?nèi)缃裨诿嫦騈LP、計算機視覺、生物學(xué)和強化學(xué)習等領(lǐng)域的平臺上提供逾15萬個預(yù)訓(xùn)練模型和2.5萬個數(shù)據(jù)集。"Hugging Face首席技術(shù)官兼聯(lián)合創(chuàng)始人Julien Chaumond表示,"鑒于大語言模型和生成式AI取得了顯著進步,我們正與亞馬遜云科技合作,以構(gòu)建和貢獻未來的開源模型。我們希望在結(jié)合了EFA的UltraCluster集群中通過大規(guī)模Amazon SageMaker使用Amazon EC2 P5實例,加快為所有客戶交付新的基礎(chǔ)AI模型。"

如今,全球超過4.5億人通過Pinterest尋找視覺靈感,以購買符合自己品味的個性化產(chǎn)品、尋求線下創(chuàng)意,并發(fā)現(xiàn)最有才華的創(chuàng)作者。"我們在用例中廣泛使用深度學(xué)習技術(shù),比如對上傳到我們平臺上的數(shù)十億張照片進行標記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜索能力。"Pinterest首席架構(gòu)師David Chaiken表示,"我們使用P3和最新的P4d等Amazon GPU實例構(gòu)建和部署了這些應(yīng)用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5實例,加快產(chǎn)品開發(fā),為我們的客戶提供共情式AI(Empathetic AI)體驗。"

作為多模態(tài)、開源AI模型開發(fā)和部署領(lǐng)域的領(lǐng)導(dǎo)者,Stability AI與公共和私營部門的合作伙伴合作,將這種下一代基礎(chǔ)架構(gòu)提供給全球受眾。"Stability AI的目標是最大限度地提高現(xiàn)代AI的普及性,以激發(fā)全球創(chuàng)造力和創(chuàng)新性。"Stability AI首席執(zhí)行官Emad Mostaque表示,"我們于2021年開始與亞馬遜云科技合作,使用Amazon EC2 P4d實例構(gòu)建了一個潛在的文本到圖像擴散模型Stable Diffusion,我們將該模型部署在大規(guī)模環(huán)境下,將模型訓(xùn)練時間從數(shù)月縮短到數(shù)周。當致力于開發(fā)下一代開源生成式AI模型并擴展到新模型時,我們很高興能使用第二代EC2 UltraCluster中的Amazon EC2 P5實例。我們預(yù)計P5實例會進一步將我們的模型訓(xùn)練時間縮短4倍,從而使我們能夠以更低的成本更快地提供突破性的AI。"

為可擴展、高效的AI采用新的服務(wù)器設(shè)計

在H100發(fā)布之前,英偉達和在熱力、電氣機械領(lǐng)域擁有專業(yè)知識的亞馬遜云科技工程團隊合作設(shè)計了服務(wù)器,以利用GPU提供大規(guī)模AI,重點關(guān)注亞馬遜云科技基礎(chǔ)設(shè)施的能源效率。在某些AI工作負載下,GPU的能效通常是CPU的20倍,對于LLM而言,H100的能效比CPU高300倍。

雙方的合作包括開發(fā)系統(tǒng)散熱設(shè)計、集成式安全和系統(tǒng)管理、與Amazon Nitro硬件加速虛擬機管理程序一起實現(xiàn)安全性,以及針對亞馬遜云科技定制EFA網(wǎng)絡(luò)結(jié)構(gòu)的英偉達GPUDirect?優(yōu)化技術(shù)。

在亞馬遜云科技和英偉達專注于服務(wù)器優(yōu)化工作的基礎(chǔ)上,兩家公司現(xiàn)已開始合作開發(fā)未來的服務(wù)器設(shè)計,以借助新一代系統(tǒng)設(shè)計、冷卻技術(shù)和網(wǎng)絡(luò)可擴展性提高擴展效率。

審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29393

    瀏覽量

    267688
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46356

    瀏覽量

    236528
  • 機器學(xué)習
    +關(guān)注

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132175
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3683

    瀏覽量

    90491
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2613

    瀏覽量

    83031
收藏 人收藏

    評論

    相關(guān)推薦

    日立與英偉攜手打造鐵路安全檢測系統(tǒng)

    日立制作所近日宣布,已攜手美國英偉公司成功研發(fā)出套先進的鐵路基礎(chǔ)設(shè)施安全檢測系統(tǒng)。該系統(tǒng)專為鐵路軌道、架線及信號器等關(guān)鍵
    的頭像 發(fā)表于 09-25 14:19 ?201次閱讀

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    的技術(shù)標準也在不斷完善。從此 DPU 不再是行業(yè)巨頭的“專享”技術(shù),基礎(chǔ)設(shè)施計算相關(guān)產(chǎn)業(yè)參與者都在尋求種簡單高效的方法,將 DPU 的優(yōu)勢運用到自身業(yè)務(wù)系統(tǒng)之中,例如 Red Hat
    發(fā)表于 07-24 15:32

    ASMPT與美光攜手開發(fā)下一代HBM4鍵合設(shè)備

    在半導(dǎo)體制造技術(shù)的持續(xù)演進中,韓國后端設(shè)備制造商ASMPT與全球知名的內(nèi)存解決方案提供商美光公司近日宣布了項重要的合作。據(jù)悉,ASMPT已向美光提供了專用于高帶寬內(nèi)存(HBM)生產(chǎn)的演示熱壓(TC)鍵合機,雙方將攜手開發(fā)下一代
    的頭像 發(fā)表于 07-01 11:04 ?691次閱讀

    德州儀器與臺電子合作開發(fā)下一代電動汽車車載充電和電源解決方案

    近日,德州儀器 (TI) 宣布與全球電源和能源管理制造商臺電子 (Delta Electronics) 達成長期合作,共同開發(fā)下一代電動汽車 (EV) 車載充電和電源解決方案。此次合作將利用兩家
    的頭像 發(fā)表于 06-26 14:39 ?481次閱讀

    亞馬遜AWS稱未停止任何英偉芯片訂單

    針對近期關(guān)于“亞馬遜計算部門暫停訂購英偉Hopper芯片”的報道,亞馬遜AWS部門近日給出了明確回應(yīng)。AWS發(fā)言人表示,公司并未停止任何
    的頭像 發(fā)表于 05-22 11:39 ?480次閱讀

    豐田、日產(chǎn)和本田將合作開發(fā)下一代汽車的AI和芯片

    豐田、日產(chǎn)和本田等日本主要汽車制造商確實計劃聯(lián)手開發(fā)下一代汽車的軟件,包括在生成式人工智能(AI)和半導(dǎo)體(芯片)等領(lǐng)域進行合作。
    的頭像 發(fā)表于 05-20 10:25 ?896次閱讀

    日本車企聯(lián)手開發(fā)下一代汽車軟件

    豐田、日產(chǎn)、本田等日本汽車制造商宣布將共同開發(fā)下一代汽車軟件,結(jié)合各自在AI和半導(dǎo)體領(lǐng)域的優(yōu)勢。隨著汽車行業(yè)數(shù)字化轉(zhuǎn)型的推進,日本經(jīng)濟產(chǎn)業(yè)省即將公布的發(fā)展路線圖強調(diào)了汽車制造商間的合作重要性,尤其聚焦在軟件定義汽車(SDV)上。
    的頭像 發(fā)表于 05-17 11:14 ?489次閱讀

    亞馬遜將向新加坡基礎(chǔ)設(shè)施追加投資90億美元

    亞馬遜計劃在新加坡的基礎(chǔ)設(shè)施上追加高達90億美元的投資,以應(yīng)對全球?qū)?b class='flag-5'>云技術(shù)和服務(wù)持續(xù)增長的渴求。亞馬遜旗下的
    的頭像 發(fā)表于 05-09 09:55 ?274次閱讀

    DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

    4月19日,在以“重構(gòu)世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表,受邀出席了中國智算中心創(chuàng)新論壇,發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講,勾勒出在通往AGI之路上,DPU技術(shù)賦能下一代AI算力
    的頭像 發(fā)表于 04-20 11:31 ?745次閱讀

    三星電子已開始與Naver合作開發(fā)下一代AI芯片Mach-2

    三星電子與Naver合作開發(fā)下一代AI芯片Mach-2,這舉措標志著兩家公司在人工智能領(lǐng)域的深度合作進步加強。
    的頭像 發(fā)表于 04-18 14:40 ?624次閱讀

    英偉擬將收購AI基礎(chǔ)設(shè)施虛擬化初創(chuàng)企業(yè)Run:ai

    據(jù)外媒最新報道,英偉公司正考慮收購家名為Run:ai的AI基礎(chǔ)設(shè)施虛擬化初創(chuàng)企業(yè),雙方的交易金額最高可能達到驚人的10億美元。
    的頭像 發(fā)表于 03-22 10:47 ?605次閱讀

    新思科技攜手英偉:基于加速計算、生成式AI和Omniverse釋放下一代EDA潛能

    將雙方數(shù)十年的合作深入擴展到新思科技EDA全套技術(shù)棧 摘要: 新思科技攜手英偉,將其領(lǐng)先的AI驅(qū)動型電子設(shè)計自動化(EDA)全套技術(shù)棧部署于英偉
    發(fā)表于 03-20 13:43 ?207次閱讀
    新思科技<b class='flag-5'>攜手</b><b class='flag-5'>英偉</b><b class='flag-5'>達</b>:基于加速計算、生成式AI和Omniverse釋放<b class='flag-5'>下一代</b>EDA潛能

    英偉下一代AI芯片

    根據(jù)英偉(Nvidia)的路線圖,它將推出其下一代black well架構(gòu)很快。該公司總是先推出個新的架構(gòu)與數(shù)據(jù)中心產(chǎn)品,然后在幾個月后公布削減的GeForce版本,所以這也是這次
    的頭像 發(fā)表于 03-08 10:28 ?799次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>的<b class='flag-5'>下一代</b>AI芯片

    英偉智能駕駛的核心芯片——Thor

    英偉原定于 2024 年推出 Atlan,現(xiàn)在雷神(Thor)現(xiàn)已取代Atlan,帶來了顯著的性能提升,Thor 帶來了兩杯的性能,推動下一代 GPU 以及新的 Grace Neoverse V2 驅(qū)動的核心,進入
    發(fā)表于 01-03 14:33 ?3101次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>智能駕駛的核心芯片——Thor

    英偉亞馬遜聯(lián)手打造了臺擁有16384個超級芯片的超級計算機

    ,將下一代英偉Grace Hopper Superchips 與亞馬遜科技的 EFA 強大網(wǎng)絡(luò)、EC2 UltraClusters 的超
    的頭像 發(fā)表于 12-06 16:01 ?680次閱讀