0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為網(wǎng)絡(luò)管理員導(dǎo)航生成式 AI

NVIDIA英偉達(dá) ? 來源:未知 ? 2023-06-19 19:15 ? 次閱讀

眾所周知,人工智能正在改變世界。對(duì)于網(wǎng)絡(luò)管理員而言,人工智能可以以一些令人驚嘆的方式改善日常運(yùn)營(yíng):

  • 重復(fù)性任務(wù)的自動(dòng)化:這包括監(jiān)控、故障排除和升級(jí),可以節(jié)省時(shí)間,同時(shí)降低人為錯(cuò)誤的風(fēng)險(xiǎn)。

  • 網(wǎng)絡(luò)安全:人工智能可以幫助實(shí)時(shí)檢測(cè)和應(yīng)對(duì)安全威脅。例如,NVIDIA Morpheus 使網(wǎng)絡(luò)安全開發(fā)者能夠創(chuàng)建經(jīng)過優(yōu)化的實(shí)時(shí)數(shù)據(jù) AI 流水線。

  • 拓?fù)鋬?yōu)化:借助合適的遙測(cè)技術(shù),人工智能可以分析流量模式并提出更改建議,從而優(yōu)化網(wǎng)絡(luò)性能。

  • 主動(dòng)式網(wǎng)絡(luò)規(guī)劃:人工智能可以使用同樣的高級(jí)網(wǎng)絡(luò)遙測(cè)技術(shù)來評(píng)估趨勢(shì),以預(yù)測(cè)潛在問題,并在問題發(fā)生之前提出更改建議,從而避免問題的發(fā)生。

然而,人工智能無(wú)法取代經(jīng)驗(yàn)豐富的網(wǎng)絡(luò)管理員的專業(yè)知識(shí)。人工智能旨在增強(qiáng)您的能力,就像一個(gè)虛擬助理一樣。因此,人工智能可能會(huì)成為您最好的朋友,但生成式 AI 是一種新的數(shù)據(jù)中心工作負(fù)載,它帶來了新的范式轉(zhuǎn)變:NVIDIA 集合通信庫(kù)(NCCL)。

數(shù)據(jù)中心的演變

網(wǎng)絡(luò)管理員不得不處理許多其他近期更改:

  • 如何配置網(wǎng)絡(luò)

  • 如何監(jiān)控和管理網(wǎng)絡(luò)

  • 如何設(shè)計(jì)網(wǎng)絡(luò)

  • 網(wǎng)絡(luò)上的協(xié)議和工作負(fù)載

不久前,我們可能已經(jīng)通過特定網(wǎng)絡(luò)命令行界面(CLI)的專業(yè)水平來衡量新網(wǎng)絡(luò)管理員的價(jià)值。隨著混合云計(jì)算和 DevOps 的出現(xiàn),從 CLI 到 API 的轉(zhuǎn)變也在不斷發(fā)展。

甚至您監(jiān)控和管理網(wǎng)絡(luò)的方式也發(fā)生了變化。您已經(jīng)從使用 SNMP 和 NetFlow 在數(shù)據(jù)中心輪詢?cè)O(shè)備的工具轉(zhuǎn)向了新的基于交換機(jī)的遙測(cè)模型,在該模型中,交換機(jī)會(huì)主動(dòng)以流式傳輸提供基于流的診斷詳細(xì)信息。

您可以實(shí)操將新的工作負(fù)載引入數(shù)據(jù)中心,其中許多數(shù)據(jù)中心都有獨(dú)特的網(wǎng)絡(luò)需求。您已經(jīng)看到傳統(tǒng)數(shù)據(jù)庫(kù)被數(shù)據(jù)分析和大數(shù)據(jù)集群所取代。

現(xiàn)在,當(dāng)被要求構(gòu)建人工智能集群時(shí),人們很容易認(rèn)為人工智能只是一個(gè)規(guī)模更大、速度更快的大數(shù)據(jù)應(yīng)用程序。但人工智能是不同的,如果沒有合適的工具,人工智能可能會(huì)很難實(shí)現(xiàn)。

生成式 AI 和 NCCL 的影響

您是一家大型企業(yè)的網(wǎng)絡(luò)管理員。您的 CTO 參加了 GTC 2023,并了解了生成式 AI 他們希望通過構(gòu)建像 ChatGPT 這樣的大型語(yǔ)言模型來響應(yīng)最終用戶,并與最終用戶進(jìn)行交互,從而改變業(yè)務(wù)運(yùn)營(yíng)方式。該模型必須經(jīng)過訓(xùn)練。這需要一個(gè)大型人工智能訓(xùn)練集群,許多 GPU 加速的服務(wù)器通過高速網(wǎng)絡(luò)連接。

這個(gè)人工智能訓(xùn)練集群帶來了許多新的挑戰(zhàn):

  • 網(wǎng)絡(luò)流量模式和流量特性發(fā)生了顯著變化,而傳統(tǒng) ECMP 表現(xiàn)不佳。

  • AI 集群參考設(shè)計(jì)需要用于計(jì)算/ GPU 、存儲(chǔ)甚至帶內(nèi)管理的專用網(wǎng)絡(luò)。

  • 網(wǎng)絡(luò)流量是異構(gòu)的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。

  • 人工智能集群必須能夠適應(yīng)在一臺(tái)服務(wù)器上、多臺(tái)服務(wù)器上運(yùn)行作業(yè),甚至是在一臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行多個(gè)作業(yè)。

  • 網(wǎng)絡(luò)配置發(fā)生變化,參數(shù)可優(yōu)化 RoCE 和 GPU 直接通信。

  • 人工智能作業(yè)必須在多次迭代中具有一致且可預(yù)測(cè)的作業(yè)完成時(shí)間。

  • 具有更高帶寬交換機(jī)的新型扁平化拓?fù)洹?/p>

  • 需要學(xué)習(xí)的新縮寫詞:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。

  • 新的監(jiān)控工具:他們?nèi)绾沃?AI 和 NCCL 是否表現(xiàn)良好?

那么,什么是 NCCL?以下是教科書般的答案:

NVIDIA Collective Communication Library(NCCL)實(shí)現(xiàn)了針對(duì) NVIDIA GPU 和網(wǎng)絡(luò)優(yōu)化的多 GPU 和多節(jié)點(diǎn)通信原語(yǔ)。NCCL 提供了諸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及點(diǎn)對(duì)點(diǎn)發(fā)送和接收之類的例程,這些例程經(jīng)過優(yōu)化,可通過節(jié)點(diǎn)內(nèi)的 PCIe 和 NVLink 高速互連以及節(jié)點(diǎn)間的 NVIDIA 網(wǎng)絡(luò)實(shí)現(xiàn)高帶寬和低延遲。

資料來源:

NVIDIA Collective Communication Library (NCCL)


對(duì)于網(wǎng)絡(luò)管理員,NCCL 負(fù)責(zé)控制全新 AI 集群的流量模式。這意味著您需要針對(duì) NCCL 進(jìn)行優(yōu)化的網(wǎng)絡(luò)設(shè)計(jì)、針對(duì) NCCL 優(yōu)化的網(wǎng)絡(luò)監(jiān)控工具以及針對(duì) NCCL 優(yōu)化的以太網(wǎng)交換機(jī)。

NCCL 是實(shí)現(xiàn) AI 集群上運(yùn)行的工作負(fù)載的高性能、一致性和可預(yù)測(cè)性的關(guān)鍵。NCCL 也是一個(gè)交匯點(diǎn):網(wǎng)絡(luò)管理員和數(shù)據(jù)科學(xué)家都必須講出并理解它。當(dāng)他們都能流利地講出它時(shí),NCCL 可以成為這些具有不同所需技能的專業(yè)人士之間的共同語(yǔ)言。

鑒于 NCCL 的重要性,合適的網(wǎng)絡(luò)可以決定和突破 AI 集群的性能。人工智能集群有一些獨(dú)特的要求:

  • 抗噪能力強(qiáng)

  • 對(duì)故障具有彈性

  • 導(dǎo)軌優(yōu)化拓?fù)?/p>

  • 無(wú)損網(wǎng)絡(luò)轉(zhuǎn)發(fā)

  • 性能隔離

  • 無(wú)阻塞網(wǎng)絡(luò)架構(gòu)

那么,接下來是什么呢?

您的工作是防止網(wǎng)絡(luò)減緩人工智能集群的速度,但人工智能網(wǎng)絡(luò)需要什么?高帶寬、低延遲和高彈性是必要的,但還不夠。您將如何選擇合適的基礎(chǔ)設(shè)施?

  • 基于產(chǎn)品手冊(cè)?并不完全。

  • 根據(jù)供應(yīng)商告訴您的?有點(diǎn)冒險(xiǎn),因?yàn)樗麄兿胭u給您一些東西。

  • 基于數(shù)據(jù)科學(xué)家們所要求的?他們不是網(wǎng)絡(luò)專家,所以大多數(shù)人都不知道。

  • 基于經(jīng)驗(yàn)豐富的網(wǎng)絡(luò)管理員的建議?很有可能他們認(rèn)為是 CPU,而不是 GPU,并且需求已經(jīng)發(fā)生了變化。

人工智能的網(wǎng)絡(luò)可能很難?!皼]有人會(huì)因?yàn)橘?gòu)買 X 而被解雇”這句格言與摩爾定律一樣過時(shí),因?yàn)槿斯ぶ悄艿?X 因素與通用計(jì)算不同。即使是擁有專門的人工智能工程團(tuán)隊(duì)來預(yù)先測(cè)試集群性能的大型 IT 供應(yīng)商,當(dāng)性能隨著更多用戶的添加和多個(gè)作業(yè)的同時(shí)運(yùn)行而急劇下降時(shí),也會(huì)經(jīng)常感到驚訝。

保證人工智能集群性能的最佳方法是遵循 NVIDIA 發(fā)布的人工智能參考架構(gòu)之一,并使用具有人工智能可見性功能的基礎(chǔ)設(shè)施來驗(yàn)證您的人工智能集群的健康狀況和供給情況。

無(wú)論您的人工智能集群使用以太網(wǎng)還是 InfiniBand,NVIDIA 都會(huì)為您提供所需的工具、支持和培訓(xùn),以使您成功并成為人工智能網(wǎng)絡(luò)專家。

掃描下方二維碼,查看更多有關(guān) NVIDIA 集合通信庫(kù)(NCCL)的信息。

921c3bec-0e8f-11ee-962d-dac502259ad0.png


9238495e-0e8f-11ee-962d-dac502259ad0.gif ?

更多精彩內(nèi)容 使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)加速生成式 AI 工作負(fù)載
使用 NVIDIA Cumulus Linux 實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)自動(dòng)化
借助 NVIDIA WJH 更快地診斷網(wǎng)絡(luò)問題
COMPUTEX2023 | NVIDIA 推出面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺(tái)


原文標(biāo)題:為網(wǎng)絡(luò)管理員導(dǎo)航生成式 AI

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3689

    瀏覽量

    90535

原文標(biāo)題:為網(wǎng)絡(luò)管理員導(dǎo)航生成式 AI

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    網(wǎng)管的五大功能是什么

    在數(shù)字化時(shí)代,網(wǎng)絡(luò)已成為企業(yè)運(yùn)營(yíng)不可或缺的一部分。網(wǎng)絡(luò)管理員,作為維護(hù)和管理這些網(wǎng)絡(luò)系統(tǒng)的專業(yè)人員,扮演著至關(guān)重要的角色。他們的工作不僅確保了網(wǎng)絡(luò)
    的頭像 發(fā)表于 10-17 14:54 ?130次閱讀

    RMON的最大作用是什么?

    網(wǎng)絡(luò)管理協(xié)議),使網(wǎng)絡(luò)管理員能夠遠(yuǎn)程監(jiān)控網(wǎng)絡(luò)流量和設(shè)備狀態(tài)。RMON最初的設(shè)計(jì)目的是為了減少管理流量,使得
    的頭像 發(fā)表于 10-10 17:11 ?113次閱讀
    RMON的最大作用是什么?

    三行代碼完成生成AI部署

    OpenVINO2024.2版本跟之前版本最大的不同是OpenVINO2024.2分兩個(gè)安裝包分別是基礎(chǔ)包與生成AI支持包,新發(fā)布的GenAI開發(fā)包支持C++與Python語(yǔ)言接口
    的頭像 發(fā)表于 08-30 16:49 ?333次閱讀
    三行代碼完成<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>部署

    DHCP服務(wù)異常與IP地址管理挑戰(zhàn)

    DHCP是一種計(jì)算機(jī)網(wǎng)絡(luò)協(xié)議,主要用于自動(dòng)分配IP地址、子網(wǎng)掩碼、網(wǎng)關(guān)、DNS等網(wǎng)絡(luò)參數(shù)給客戶端設(shè)備。它是局域網(wǎng)中實(shí)現(xiàn)自動(dòng)IP地址分配的重要協(xié)議,極大地簡(jiǎn)化了網(wǎng)絡(luò)管理員對(duì)IP地址的管理
    的頭像 發(fā)表于 08-30 14:35 ?657次閱讀

    生成AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系

    生成AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個(gè)核心概念,它們?cè)谕苿?dòng)技術(shù)進(jìn)步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細(xì)探討生成
    的頭像 發(fā)表于 07-02 15:03 ?507次閱讀

    原來這才是【生成AI】??!

    隨著ChatGPT、文心一言等AI產(chǎn)品的火爆,生成AI已經(jīng)成為了大家茶余飯后熱議的話題??墒牵瑸槭裁匆?b class='flag-5'>AI前面加上“
    的頭像 發(fā)表于 06-05 08:04 ?290次閱讀
    原來這才是【<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>】?。? />    </a>
</div>                            <div   id=

    微軟宣布:企業(yè)IT管理員可使用Windows Update for Business部署服務(wù)

    Windows Update for Business原本主要負(fù)責(zé)尋找與系統(tǒng)有關(guān)的更新,伴隨著這一最新變動(dòng),用戶將能夠以可選項(xiàng)的形式自主選擇是否需要先行更新。在此過程中,IT管理員仍具有最終決定權(quán),他們可以為設(shè)備制定分階段推出計(jì)劃或者設(shè)定延遲更新時(shí)間。
    的頭像 發(fā)表于 05-23 15:02 ?610次閱讀

    生成AI如何重塑通信業(yè)?愛立信最新嘗試給出了答案

    我們的網(wǎng)絡(luò)運(yùn)營(yíng)管理網(wǎng)絡(luò)運(yùn)行模式帶來怎樣的變革?在以下視頻中,愛立信基于多年的AI探索和實(shí)踐積累,率先創(chuàng)新性地將生成
    的頭像 發(fā)表于 05-13 17:10 ?334次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>如何重塑通信業(yè)?愛立信最新嘗試給出了答案

    dhcp是什么在路由器怎么設(shè)置

    DHCP。 一、DHCP是什么 DHCP是一種網(wǎng)絡(luò)協(xié)議,用于自動(dòng)分配IP地址、子網(wǎng)掩碼、默認(rèn)網(wǎng)關(guān)和其他網(wǎng)絡(luò)參數(shù)。通過使用DHCP,網(wǎng)絡(luò)管理員可以集中管理和配置
    的頭像 發(fā)表于 01-25 11:17 ?1.2w次閱讀

    駕馭創(chuàng)造的力量: 生成 AI 時(shí)代的 MLOps 演進(jìn)

    的生命周期管理、自動(dòng)化部署、監(jiān)控和故障排除、數(shù)據(jù)管理和安全合規(guī)等功能,幫助團(tuán)隊(duì)更好地開發(fā)、部署和管理生成
    的頭像 發(fā)表于 12-21 18:05 ?292次閱讀

    Amazon Connect新增生成AI功能

    Connect Contact Lens客戶互動(dòng)添加了AI生成摘要功能,幫助管理人員評(píng)估和優(yōu)化坐席表現(xiàn); Amazon Connect中的Amazon Lex現(xiàn)已利用
    的頭像 發(fā)表于 12-18 17:34 ?494次閱讀

    生成AI技術(shù)的應(yīng)用前景

    生成 AI(人工智能)與我們熟知的 AI 有何不同?這篇文章將為我們一探究竟!
    的頭像 發(fā)表于 11-29 12:20 ?1222次閱讀

    linux如何進(jìn)入管理員模式

    Linux操作系統(tǒng)以其穩(wěn)定性和安全性而聞名,并且在服務(wù)器和嵌入設(shè)備領(lǐng)域廣泛使用。在Linux中,管理員模式也稱為超級(jí)用戶模式或root模式,它提供了對(duì)整個(gè)系統(tǒng)的完全控制權(quán)限。在本文中,我將詳細(xì)介紹
    的頭像 發(fā)表于 11-23 10:56 ?6919次閱讀

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成 AI

    近日,NVIDIA 發(fā)布了 Jetson 生成 AI 實(shí)驗(yàn)室(Jetson Generative AI Lab),使開發(fā)者能夠通過 NVIDIA Jetson 邊緣設(shè)備在現(xiàn)實(shí)世界中探
    的頭像 發(fā)表于 11-07 21:25 ?859次閱讀
    利用 NVIDIA Jetson 實(shí)現(xiàn)<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b>

    全新NVIDIA Spectrum-X網(wǎng)絡(luò)平臺(tái)構(gòu)筑阿里生成AI云底座

    全新 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)構(gòu)筑阿里生成 AI 云底座。
    的頭像 發(fā)表于 11-02 09:07 ?672次閱讀
    全新NVIDIA Spectrum-X<b class='flag-5'>網(wǎng)絡(luò)</b>平臺(tái)構(gòu)筑阿里<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>云底座