0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌、Facebook 和微軟的下一代高性能計算機的新藍圖

芯長征科技 ? 來源:半導(dǎo)體行業(yè)觀察 ? 作者:編譯自hpcwire ? 2022-10-26 10:06 ? 次閱讀

在最近的開放計算項目峰會上出現(xiàn)了準(zhǔn)備改變傳統(tǒng)服務(wù)器架構(gòu)的新一代設(shè)計,谷歌、Facebook 和微軟在峰會上展示了高性能計算機的新藍圖。

在加利福尼亞州圣克拉拉舉行的貿(mào)易展上展示的硬件表明,云提供商繼續(xù)降低 CPU 的優(yōu)先級,同時更多地關(guān)注網(wǎng)絡(luò)、存儲和加速器,如 GPUAI 芯片。服務(wù)器制造商可以復(fù)制和改進 OCP 設(shè)計。

本次峰會上的焦點之一是 Meta 設(shè)計的名為 Grand Teton 的服務(wù)器,該公司正在為數(shù)據(jù)中心部署該服務(wù)器以運行人工智能應(yīng)用程序。Meta 的工程副總裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目標(biāo)是為其大型數(shù)據(jù)中心帶來更多的 AI 能力,這支撐了其社交媒體平臺上的許多功能,同時也為其 metaverse 的未來做好準(zhǔn)備。

半導(dǎo)體研究機構(gòu) SemiAnalysis 的創(chuàng)始人 Dylan Patel 表示,OCP 包括服務(wù)器世界的名人錄——Meta、Google 和其他公司——在戴爾、HPE 和聯(lián)想的標(biāo)準(zhǔn)機架之前,所有很酷的新硬件都在這里出現(xiàn)。

“當(dāng)我們談?wù)撚布r,它的功率要高得多,但也很高效。它可能是高功率,因為它用于 Facebook 的 AI,或者它可能是高功率,因為它是一個非常密集的服務(wù)器,”Patel 說。

Patel 還指出,許多下一代服務(wù)器也展示了代號為 Sapphire Rapids 的 Intel 下一代 Xeon 服務(wù)器 CPU 和 AMD 即將推出的 Genoa。

Bjorlin 上個月表示,Meta 計劃到2025 年建立擁有超過 4,000 個加速器的大型集群。這些核心將被組織為一個網(wǎng)格,加速器之間的帶寬將達到每秒 1 TB。Bjorlin 上個月在 AI 硬件峰會上的一次演講中詳細介紹了這些計劃,但沒有分享硬件細節(jié)。該公司廣泛使用 Nvidia GPU。

Meta 的服務(wù)器設(shè)計基本方法包括去除不必要的組件,并在系統(tǒng)和芯片級別縮小硬件。系統(tǒng)和芯片尺寸的縮小將有助于創(chuàng)建 AI 訓(xùn)練集群,這些集群將消耗更多功率,同時也提供顯著更高的每瓦性能。

Bjorlin 在 Grand Teton 的公告中說,深度學(xué)習(xí)模型正在顯著增長到數(shù)十萬億個參數(shù),并且“可能需要 zettaflop 的計算來訓(xùn)練”。

“人工智能和機器學(xué)習(xí)模型正變得越來越強大和復(fù)雜,需要更多高性能基礎(chǔ)設(shè)施來匹配,”Bjorlin 說。

Grand Teton 是 2021 年推出的 Zion-EX 橫向擴展系統(tǒng)的繼任者。Grand Teton 的速度明顯快于其前身,主機到 GPU 帶寬提高了四倍,計算能力和吞吐量提高了兩倍。

“與包含多個獨立子系統(tǒng)的 Zion-EX 相比,Grand Teton 還具有集成底盤,”Bjorlin 說。

微軟展示了一個名為 Mt. Shasta 的模塊化系統(tǒng),這是一個可以容納人工智能和高性能計算加速器的機箱。該模塊通過 48 伏電源饋入高性能服務(wù)器。該模塊可以熱插拔并容納多個加速器。該系統(tǒng)由 Molex 和 Quanta 設(shè)計,并與 OCP 的 Open Rack V3 設(shè)計兼容,該設(shè)計為系統(tǒng)打開了機架級分解。

微軟在一篇博文中表示,Mt. Shasta 模塊解決了在數(shù)據(jù)中心實施加速器時面臨的常見問題。加速器可以在數(shù)據(jù)中心的電源、冷卻和連接指南內(nèi)輕松實施,并自動與基于軟件的管理接口進行硬件控制。節(jié)點級掛鉤使模塊可熱插拔,這在 PCI Gen 3.0 接口中也很困難,該接口較舊,但仍在較舊的服務(wù)器上使用。

Insight 64 首席分析師 Nathan Brookwood 表示,加速器的多樣化服務(wù)器硬件一直是當(dāng)務(wù)之急,但今年圍繞 CXL(Compute Express Link)引起了很多興奮,因為它提供了輕松添加一系列加速器的鉤子。

“很明顯,那些在云中部署的人——你看到的是谷歌、微軟等——他們知道他們需要什么。他們可能會去掉 HPE 和戴爾在通用企業(yè)級產(chǎn)品中投入的更多花里胡哨的東西,”Brookwood說。

CXL 是一個關(guān)鍵的構(gòu)建塊,旨在改變服務(wù)器的設(shè)計、定制和配置方式。CXL 允許更輕松地選擇和組裝服務(wù)器的構(gòu)建塊。該技術(shù)提供了計算、內(nèi)存和存儲系統(tǒng)之間的通信鏈接,并包括跨服務(wù)器提供和管理計算的工具。

“CXL 正在迅速被接受,這令人驚訝,因為支持它的通用處理器尚未發(fā)布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 說。

雖然 Facebook 的 Grand Teton 是一個集成服務(wù)器,但 Google 專注于未來的“多腦”服務(wù)器,它將存儲、加速器、內(nèi)存和基礎(chǔ)設(shè)施處理單元整合到單獨的托盤中。模塊化硬件架構(gòu)基于包括 CXL 和 NVMe 在內(nèi)的互連以及 OpenBMC 和 RedFish 等分布式系統(tǒng)管理工具。

Brookwood 說,小型服務(wù)器制造商同樣對 CXL 感到興奮。

“隨著這些產(chǎn)品的推出,我認為小型服務(wù)器制造商,尤其是云計算領(lǐng)域的制造商,將會關(guān)注這一點,”Brookwood說。

IT 基礎(chǔ)設(shè)施公司 Wiwynn 是臺灣緯創(chuàng)資通集團的子公司,專注于定制服務(wù)器設(shè)計的構(gòu)建模塊。該公司以前專門從事 OCP 的集成服務(wù)器設(shè)計,但今年的重點是根據(jù)特定要求構(gòu)建的定制設(shè)計。

Wiwynn 的構(gòu)建模塊包括 OCP 認證的冷卻、電源、組件、互連、NIC 和安全模塊。CXL 互連也在設(shè)計中,位于中間以促進存儲、內(nèi)存和處理單元之間的通信。

該設(shè)計適用于英特爾和 AMD 的各種 x86 服務(wù)器芯片,以及 Ampere 的 CPU 等 Arm 服務(wù)器芯片。它還支持英特爾的 Habana Gaudi AI 處理器等加速器。

Wiwynn 銷售支持執(zhí)行董事 Steven Hwang 在 OCP 峰會前的新聞發(fā)布會上表示,客戶對構(gòu)建塊的關(guān)注點發(fā)生了變化,因為他們有興趣構(gòu)建更接近其數(shù)據(jù)中心要求的服務(wù)器。

具體來說,人們對功率轉(zhuǎn)換組件很感興趣,Hwang 說,并補充說,“許多數(shù)據(jù)中心正在走向綠色,能源變得非常非常敏感……所以從直流到交流和交流到直流的功率損耗肯定是人們可以立即從中受益的東西?!?/p>

在 OCP,谷歌、微軟、Nvidia 和 AMD 還合作創(chuàng)建了一個名為 Caliptra 的規(guī)范,允許系統(tǒng)制造商在芯片和系統(tǒng)級別嵌入安全層。該規(guī)范在 0.5 版中,側(cè)重于在硅中創(chuàng)建信任根。

微軟 Azure 首席技術(shù)官 Mark Russinovich 在一篇博客文章中表示:“作為可重用的開源、硅級塊,用于集成到片上系統(tǒng)(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信賴且易于驗證的證明?!?/p>

Caliptra 規(guī)范包括一系列用于存儲和加密數(shù)據(jù)的塊,并確保只有授權(quán)方才能訪問安全飛地中的數(shù)據(jù)。它還確保數(shù)據(jù)的安全性,因此在本地或云中時不會受到 Spectre 和 Meltdown 等基于硬件的黑客攻擊。云提供商對 Caliptra 感興趣,以改進機密計算產(chǎn)品和保護虛擬機。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5402

    瀏覽量

    133708
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8848

    瀏覽量

    84949
  • 虛擬機
    +關(guān)注

    關(guān)注

    1

    文章

    897

    瀏覽量

    27961

原文標(biāo)題:下一代服務(wù)器設(shè)計藍圖浮現(xiàn)!

文章出處:【微信號:芯長征科技,微信公眾號:芯長征科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    云端超級計算機怎么用

    云端超級計算機種基于云計算高性能計算服務(wù),它將大量計算資源和存儲資源集中在
    的頭像 發(fā)表于 10-18 10:14 ?23次閱讀

    M.2 連接器,滿足高性能計算機設(shè)備的數(shù)據(jù)傳輸需求

    硬盤是影響計算機性能的重要組件 面對迅速更新?lián)Q代的硬盤市場 更小、更快的硬盤接口——M.2 連接器 正逐步成為市場主流 產(chǎn)品速覽 M.2 連接器是種用于連接高性能固態(tài)硬盤的連接器。相
    的頭像 發(fā)表于 09-23 09:38 ?146次閱讀
    M.2 連接器,滿足<b class='flag-5'>高性能計算機</b>設(shè)備的數(shù)據(jù)傳輸需求

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    大規(guī)模生產(chǎn)環(huán)境落地應(yīng)用的條件。某種程度上,IoD 技術(shù)已成為下一代高性能算力底座的核心技術(shù)與最佳實踐。 白皮書下載:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技
    發(fā)表于 07-24 15:32

    24芯M16插頭在下一代技術(shù)中的潛力

      德索工程師說道隨著科技的飛速發(fā)展,下一代技術(shù)正逐漸展現(xiàn)出其獨特的魅力和潛力。在這背景下,24芯M16插頭作為高性能、多功能的連接器,將在
    的頭像 發(fā)表于 06-15 18:03 ?250次閱讀
    24芯M16插頭在<b class='flag-5'>下一代</b>技術(shù)中的潛力

    工業(yè)計算機與普通計算機的區(qū)別

    在信息化和自動化日益發(fā)展的今天,計算機已經(jīng)成為了我們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡墓ぞ?。然而,?b class='flag-5'>計算機領(lǐng)域中,工業(yè)計算機和普通計算機雖然都具備基本的計算
    的頭像 發(fā)表于 06-06 16:45 ?921次閱讀

    微軟發(fā)布AI專用計算機,引領(lǐng)計算新紀(jì)元

    微軟近日宣布,其全新的人工智能專用計算機正式問世,這款計算機性能上實現(xiàn)了重大突破,相較于MACBOOK AIR M3,速度提升了驚人的58%。這
    的頭像 發(fā)表于 05-22 09:27 ?398次閱讀

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機消息屬實。
    的頭像 發(fā)表于 04-11 10:14 ?457次閱讀

    【昉·星光 2 高性能RISC-V單板計算機體驗】VisionFive2開箱+安裝Ubuntu

    【昉·星光 2 高性能RISC-V單板計算機體驗】VisionFive2開箱+安裝Ubuntu 前言 很感謝賽昉科技及iCeasy提供的樣片,讓我第次接觸高性能的RISC-V的開發(fā)板
    發(fā)表于 02-21 17:49

    什么是HPC高性能計算

    高性能計算(HighPerformanceComputing,簡稱HPC),是指利用集群、網(wǎng)格、超算等計算機技術(shù),通過合理地組織計算機資源以及運用適合的算法和程序,提高
    的頭像 發(fā)表于 02-19 13:27 ?734次閱讀
    什么是HPC<b class='flag-5'>高性能</b><b class='flag-5'>計算</b>

    中國第三自主超導(dǎo)量子計算機“本源悟空”上線運行

    1月6日上午9時,中國第三自主超導(dǎo)量子計算機“本源悟空”,在本源量子計算科技(合肥)股份有限公司(簡稱本源量子)正式上線運行。圖為中國第三自主超導(dǎo)量子
    的頭像 發(fā)表于 01-07 08:21 ?717次閱讀
    中國第三<b class='flag-5'>代</b>自主超導(dǎo)量子<b class='flag-5'>計算機</b>“本源悟空”上線運行

    工業(yè)計算機和PLC的區(qū)別

    存在些區(qū)別。 首先,工業(yè)計算機高性能的通用計算機,它具有強大的計算、存儲和通信能力。工業(yè)
    的頭像 發(fā)表于 12-15 10:10 ?802次閱讀

    人工智能服務(wù)器高性能計算需求

    人工智能(AI)服務(wù)器是種專門為了運行人工智能應(yīng)用和提供大數(shù)據(jù)處理能力而設(shè)計的高性能計算機。它既可以支持本地應(yīng)用程序和網(wǎng)頁,也可以為云和本地服務(wù)器提供復(fù)雜的AI模型和服務(wù)。
    的頭像 發(fā)表于 12-08 09:44 ?445次閱讀

    媒體聚焦 | ?RENSAS瑞薩公開下一代車用處理器藍圖,全面擁抱平臺化

    媒體聚焦 | ?RENSAS瑞薩公開下一代車用處理器藍圖,全面擁抱平臺化
    的頭像 發(fā)表于 11-28 13:34 ?505次閱讀
    媒體聚焦 | ?RENSAS瑞薩公開<b class='flag-5'>下一代</b>車用處理器<b class='flag-5'>藍圖</b>,全面擁抱平臺化

    瑞薩公布下一代oC和MCU計劃

    瑞薩還分享了即將推出的下一代R-Car產(chǎn)品家族兩款MCU產(chǎn)品規(guī)劃:款為全新跨界MCU系列,旨在為下一代汽車E/E架構(gòu)中的域和區(qū)域電子控制單元(ECU)打造所需的高性能,這款產(chǎn)品將縮小
    發(fā)表于 11-09 10:49 ?392次閱讀
    瑞薩公布<b class='flag-5'>下一代</b>oC和MCU計劃

    Blackwell GB100能否在超級計算機和AI市場保持領(lǐng)先優(yōu)勢?

    NVIDIA 下一代 Blackwell GB100 傳將采用芯片堆棧設(shè)計提升效能和效率,但也面臨工藝和封裝的挑戰(zhàn),能否在超級計算機和 AI 市場保持領(lǐng)先優(yōu)勢?
    的頭像 發(fā)表于 10-24 17:43 ?903次閱讀