0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA ConnectX網(wǎng)卡助力社交網(wǎng)絡(luò)關(guān)鍵任務(wù)的分布式應(yīng)用

世強(qiáng)SEKORM ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-08-23 11:18 ? 次閱讀

NVIDIA ConnectX 網(wǎng)卡助力社交網(wǎng)絡(luò)關(guān)鍵任務(wù)的分布式應(yīng)用實(shí)現(xiàn)精確計(jì)時(shí)功能。

Facebook 正在開放其開源計(jì)算項(xiàng)目 —— 時(shí)間設(shè)備項(xiàng)目(OCP TAP)的源代碼,該項(xiàng)目以經(jīng)濟(jì)高效的方式提供高度精確的計(jì)時(shí)功能,以及跨數(shù)據(jù)中心時(shí)間同步功能。在 NVIDIA ConnectX-6 Dx 網(wǎng)卡(NIC)的支持下,這項(xiàng)解決方案中的 Time Card 通過(guò)精確計(jì)時(shí)協(xié)議,可以將幾乎所有商用現(xiàn)成的(COTS)服務(wù)器變成精確的計(jì)時(shí)設(shè)備,與整個(gè)數(shù)據(jù)中心內(nèi)的其他服務(wù)器共享精確計(jì)時(shí)。

Facebook Time Card 和 NVIDIA 網(wǎng)卡這對(duì)組合為數(shù)據(jù)中心運(yùn)營(yíng)商提供了一個(gè)先進(jìn)和低成本的時(shí)間同步解決方案,并且該解決方案具有開源、安全、可靠和可擴(kuò)展等特點(diǎn)。

精確的時(shí)間為什么對(duì)于數(shù)據(jù)中心至關(guān)重要

隨著應(yīng)用的擴(kuò)展并且 IT 運(yùn)營(yíng)遍布全球,保持?jǐn)?shù)據(jù)中心內(nèi)不同服務(wù)器,或位于各大洲不同數(shù)據(jù)中心的數(shù)據(jù)同步,變得更加重要和困難。

分布式數(shù)據(jù)庫(kù)必須追蹤事件的確切順序以保持一致性并顯示因果關(guān)系。如果有兩個(gè)人試圖購(gòu)買同一只股票,那么根據(jù)公平性(和合規(guī)性)原則,就必須知道買單的先后順序。同樣,當(dāng)每小時(shí)有上千萬(wàn)人發(fā)布內(nèi)容,數(shù)百萬(wàn)用戶喜歡/稱贊/喜愛這些帖子時(shí),F(xiàn)acebook 必須知道每個(gè)帖子、每次點(diǎn)贊、每條回復(fù)或每個(gè)表情符號(hào)的實(shí)際發(fā)生順序。

保持?jǐn)?shù)據(jù)同步的方法之一是讓每個(gè)數(shù)據(jù)中心在每件事務(wù)操作完成后向其他中心發(fā)送更新,但由于數(shù)據(jù)中心之間的延遲太高,以至于無(wú)法支持每小時(shí)數(shù)百萬(wàn)個(gè)事件,這種做法很快就變得無(wú)法維持。

更好的方法是讓每個(gè)服務(wù)器和數(shù)據(jù)中心同步到精確的時(shí)間,使彼此之間的時(shí)間誤差不超過(guò)一微秒。這樣每個(gè)站點(diǎn)都能追蹤時(shí)間,并且當(dāng)它們與其他數(shù)據(jù)中心共享事件時(shí),能夠正確排序每個(gè)事件。

時(shí)間同步越精確,應(yīng)用性能就越快。最近的一項(xiàng)測(cè)試表明,將計(jì)時(shí)精度提高 80 倍(將任何時(shí)間差異減小 80 倍)能夠使分布式數(shù)據(jù)庫(kù)的運(yùn)行速度提高 3 倍。在相同的服務(wù)器硬件上僅僅通過(guò)提高更精確和更可靠的時(shí)間就能實(shí)現(xiàn)顯著的性能提升。

網(wǎng)卡和網(wǎng)絡(luò)在時(shí)間同步中的作用

OCP TAP 項(xiàng)目(以及 Facebook 關(guān)于開源時(shí)間設(shè)備的博客文章)確切地定義了 Time Card 如何接收和處理來(lái)自 GPS 衛(wèi)星網(wǎng)絡(luò)的時(shí)間信號(hào),即使在衛(wèi)星信號(hào)暫時(shí)不可用時(shí),也能保持精確的時(shí)間并與時(shí)間服務(wù)器共享這一精確的時(shí)間。同時(shí),網(wǎng)絡(luò)以及所使用的網(wǎng)卡也發(fā)揮著至關(guān)重要的作用。

時(shí)間設(shè)備中的網(wǎng)卡必須有一個(gè)用于連接 Time Card 的每秒時(shí)間脈沖(PPS)端口。這能確保每個(gè)時(shí)間服務(wù)器中 Time Card 和網(wǎng)卡之間的精確時(shí)間同步(精確到幾納秒之內(nèi))。ConnectX-6 Dx 是首批支持此功能的現(xiàn)代 25/50/100/200Gb/s網(wǎng)卡之一。它還能過(guò)濾和檢查傳入的 PPS 信號(hào),并使用其 ASIC 中的硬件在內(nèi)部維護(hù)時(shí)間,從而確保精確性和一致性。

計(jì)時(shí)精度達(dá)到次微秒級(jí)的時(shí)間裝置可以與數(shù)百個(gè)使用網(wǎng)絡(luò)時(shí)間協(xié)議(NTP)的普通服務(wù)器或數(shù)萬(wàn)個(gè)使用精確時(shí)間協(xié)議(PTP)的服務(wù)器共享該計(jì)時(shí)。由于網(wǎng)絡(luò)會(huì)增加時(shí)間信號(hào)的延遲,因此 NTP 和 PTP 通過(guò)為數(shù)據(jù)包添加時(shí)間戳來(lái)測(cè)量?jī)蓚€(gè)方向的傳輸時(shí)間、將抖動(dòng)和延遲考慮在內(nèi)并計(jì)算出每個(gè)服務(wù)器上的正確時(shí)間(PTP 的精度更高,因此它開始取代 NTP 協(xié)議)。

另一種方法是使用軟件解決方案來(lái)添加時(shí)間戳,但在由于擁堵或 CPU 的干擾,用軟件添加時(shí)間戳的誤差可能達(dá)到幾毫秒,因此以今天的軟件方案添加時(shí)間戳是過(guò)于難預(yù)測(cè)、不精確、甚至是不可行的。

相反,ConnectX-6 Dx 網(wǎng)卡和 BlueField-2 DPU 可以在高達(dá) 100Gb/s的速度下,在接收的數(shù)據(jù)包到達(dá)后和發(fā)送的數(shù)據(jù)包進(jìn)入網(wǎng)絡(luò)前,立即為它們添加硬件時(shí)間戳。ConnectX-6 Dx 可以為每一個(gè)數(shù)據(jù)包添加時(shí)間戳,即使在網(wǎng)絡(luò)負(fù)載極大的情況下,時(shí)間戳的精度誤差也小于 4 納秒(4ns)。

其他大多數(shù)具有時(shí)間功能的網(wǎng)卡只對(duì)部分?jǐn)?shù)據(jù)包進(jìn)行標(biāo)記并且精度抖動(dòng)很大,因此在網(wǎng)絡(luò)流量大的情況下,它們的時(shí)間精確性就會(huì)下降。

NVIDIA 網(wǎng)絡(luò)解決方案為商用網(wǎng)卡提供最精確的延遲測(cè)量,從而在所有服務(wù)器上實(shí)現(xiàn)最精確的時(shí)間,應(yīng)用層面的時(shí)間誤差通常低于一微秒(《1us)。

網(wǎng)絡(luò)計(jì)時(shí)精度的提升意味著每臺(tái)服務(wù)器上的時(shí)間變得更加精確,這將為分布式應(yīng)用帶來(lái)更快的性能(并且為每個(gè)人帶來(lái)更多的 Facebook “點(diǎn)贊數(shù)”)。

精確時(shí)間同步,人人皆可受益

OCP 時(shí)間設(shè)備項(xiàng)目使任何組織都能獲得精準(zhǔn)的計(jì)時(shí)功能。來(lái)自 Facebook、NVIDIA 和 OCP 的開源時(shí)間服務(wù)器和開源管理工具提供了一個(gè)讓每個(gè)人都可以像超大規(guī)模用戶一樣輕松使用這項(xiàng)功能的方法。

NVIDIA 所提供的精確時(shí)間功能網(wǎng)卡和 DPU(數(shù)據(jù)處理器)具有精確計(jì)時(shí)設(shè)備所需的超精確時(shí)間戳和網(wǎng)絡(luò)同步功能。當(dāng)使用 BlueField DPU 時(shí),就可以在其 Arm 核上運(yùn)行 PTP 棧,從而將時(shí)間棧與其他服務(wù)器軟件隔離、持續(xù)驗(yàn)證該服務(wù)器內(nèi)的時(shí)間精確性并持續(xù)計(jì)算整個(gè)數(shù)據(jù)中心的最大時(shí)間誤差范圍。

為了發(fā)揮經(jīng)過(guò)優(yōu)化的時(shí)間服務(wù)器和時(shí)間同步所帶來(lái)的優(yōu)勢(shì),云服務(wù)和數(shù)據(jù)庫(kù)已經(jīng)增加了基于時(shí)間的新命令和 API。這些解決方案一同開啟了精確計(jì)時(shí)的新時(shí)代,提高了分布式應(yīng)用的性能并為云和企業(yè)帶來(lái)新型解決方案。

關(guān)于 OCP TAP 的技術(shù)規(guī)格、原理圖、機(jī)械原理、物料清單和源代碼等詳細(xì)信息,歡迎訪問(wèn):http://www.ocptap.com。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4816

    瀏覽量

    102633
  • 網(wǎng)卡
    +關(guān)注

    關(guān)注

    3

    文章

    298

    瀏覽量

    27302
  • 源代碼
    +關(guān)注

    關(guān)注

    96

    文章

    2943

    瀏覽量

    66570
  • OCP
    OCP
    +關(guān)注

    關(guān)注

    0

    文章

    76

    瀏覽量

    16337

原文標(biāo)題:NVIDIA 助力 Facebook 新一代計(jì)時(shí)系統(tǒng)實(shí)現(xiàn)精確計(jì)時(shí)

文章出處:【微信號(hào):sekorm_info,微信公眾號(hào):世強(qiáng)SEKORM】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    分布式電源分配網(wǎng)絡(luò)建模及去耦設(shè)計(jì)研究

    電子發(fā)燒友網(wǎng)站提供《分布式電源分配網(wǎng)絡(luò)建模及去耦設(shè)計(jì)研究.pdf》資料免費(fèi)下載
    發(fā)表于 09-19 17:42 ?0次下載

    基于分布式存儲(chǔ)WDS的金融信創(chuàng)云承載數(shù)據(jù)庫(kù)類關(guān)鍵應(yīng)用

    基于分布式存儲(chǔ)WDS的金融信創(chuàng)云承載數(shù)據(jù)庫(kù)類關(guān)鍵應(yīng)用
    的頭像 發(fā)表于 08-16 09:42 ?188次閱讀
    基于<b class='flag-5'>分布式</b>存儲(chǔ)WDS的金融信創(chuàng)云承載數(shù)據(jù)庫(kù)類<b class='flag-5'>關(guān)鍵</b>應(yīng)用

    基于分布式計(jì)算的AR光波導(dǎo)中測(cè)試圖像的仿真

    各種迭代分發(fā)到網(wǎng)絡(luò)中的計(jì)算機(jī)上。為了啟用分布式計(jì)算,只需導(dǎo)航到相應(yīng)的選項(xiàng)卡,并配置可用的計(jì)算機(jī)和客戶端的數(shù)量。然后像往常一樣開始模擬,將數(shù)據(jù)傳輸?shù)娇蛻舳撕徒Y(jié)果的收集將自動(dòng)完成(與本地執(zhí)行的參數(shù)掃描
    發(fā)表于 08-07 14:13

    面向企業(yè)關(guān)鍵業(yè)務(wù)場(chǎng)景的分布式存儲(chǔ)軟件ExponTech WDS

    面向企業(yè)關(guān)鍵業(yè)務(wù)場(chǎng)景的分布式存儲(chǔ)軟件ExponTech WDS
    的頭像 發(fā)表于 06-05 09:41 ?262次閱讀
    面向企業(yè)<b class='flag-5'>關(guān)鍵</b>業(yè)務(wù)場(chǎng)景的<b class='flag-5'>分布式</b>存儲(chǔ)軟件ExponTech WDS

    鴻蒙OS 分布式任務(wù)調(diào)度

    鴻蒙OS 分布式任務(wù)調(diào)度概述 在 HarmonyO S中,分布式任務(wù)調(diào)度平臺(tái)對(duì)搭載 HarmonyOS 的多設(shè)備構(gòu)筑的“超級(jí)虛擬終端”提供統(tǒng)一的組件管理能力,為應(yīng)用定義統(tǒng)一的能力基線、
    的頭像 發(fā)表于 01-29 16:50 ?422次閱讀

    分布式大屏控制系統(tǒng)對(duì)網(wǎng)絡(luò)環(huán)境的要求

    分布式大屏控制系統(tǒng)對(duì)網(wǎng)絡(luò)環(huán)境的要求較高,主要是因?yàn)樵撓到y(tǒng)需要實(shí)時(shí)傳輸大量的視頻信號(hào)數(shù)據(jù),以保證多個(gè)顯示屏幕的同步顯示。以下是幾個(gè)關(guān)鍵網(wǎng)絡(luò)環(huán)境要求: 高帶寬:
    的頭像 發(fā)表于 01-29 14:52 ?499次閱讀

    設(shè)計(jì)高效分布式智慧終端系統(tǒng)的關(guān)鍵要素

    設(shè)計(jì)高效分布式智慧終端系統(tǒng)的關(guān)鍵要素包括以下幾個(gè)方面: 安全性 :安全性是設(shè)計(jì)分布式智慧終端系統(tǒng)的首要考慮因素。由于終端系統(tǒng)涉及到多個(gè)節(jié)點(diǎn)和用戶的數(shù)據(jù),因此必須采取有效的安全措施來(lái)保護(hù)數(shù)據(jù)的安全性
    的頭像 發(fā)表于 01-24 14:52 ?304次閱讀

    什么是分布式架構(gòu)?

    分布式架構(gòu)是指將一個(gè)系統(tǒng)或應(yīng)用拆分成多個(gè)獨(dú)立的節(jié)點(diǎn),這些節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)連接進(jìn)行通信和協(xié)作,以實(shí)現(xiàn)共同完成任務(wù)的一種架構(gòu)模式。這種架構(gòu)模式旨在提高系統(tǒng)的可擴(kuò)展性、可靠性和性能表現(xiàn)。 一、分布式
    的頭像 發(fā)表于 01-12 15:04 ?1075次閱讀
    什么是<b class='flag-5'>分布式</b>架構(gòu)?

    分布式系統(tǒng)硬件資源池原理和接入實(shí)踐

    把各個(gè)設(shè)備的硬件外設(shè)抽象為外設(shè)信息單元,外設(shè)信息在各個(gè)可信設(shè)備之間自動(dòng)同步,如此,實(shí)現(xiàn)了外設(shè)信息的全局可見;結(jié)合分布式硬件虛擬化技術(shù),實(shí)現(xiàn)任意設(shè)備之間的硬件外設(shè)能力跨設(shè)備調(diào)用;分布式硬件資源池作為系統(tǒng)
    發(fā)表于 12-06 10:02

    redis分布式鎖的缺點(diǎn)

    :Redis分布式鎖無(wú)法保證絕對(duì)的精確性和一致性。由于分布式系統(tǒng)中的網(wǎng)絡(luò)延遲、故障和并發(fā)訪問(wèn)等因素的存在,鎖的獲得和釋放可能不是完全同步的。這可能導(dǎo)致某些線程或進(jìn)程在未獲得鎖的情況下繼續(xù)執(zhí)行操作,從而破壞了資源的互斥訪問(wèn)。 高并
    的頭像 發(fā)表于 12-04 14:05 ?1131次閱讀

    redis分布式鎖的應(yīng)用場(chǎng)景有哪些

    系統(tǒng)中,多個(gè)節(jié)點(diǎn)可能同時(shí)訪問(wèn)共享資源,例如數(shù)據(jù)庫(kù)、文件系統(tǒng)等。使用Redis分布式鎖可以保證在同一時(shí)刻只有一個(gè)節(jié)點(diǎn)能夠訪問(wèn)該資源,避免了并發(fā)沖突問(wèn)題,確保數(shù)據(jù)的一致性。 分布式任務(wù)調(diào)度 在分布
    的頭像 發(fā)表于 12-04 11:21 ?1319次閱讀

    zookeeper分布式原理

    Zookeeper是一個(gè)開源的分布式協(xié)調(diào)服務(wù),可以用于構(gòu)建高可用、高性能的分布式系統(tǒng)。它提供了一個(gè)簡(jiǎn)單且高效的層次命名空間,可以用來(lái)存儲(chǔ)配置信息、狀態(tài)信息、命名服務(wù)等。Zookeeper的設(shè)計(jì)目標(biāo)
    的頭像 發(fā)表于 12-03 16:33 ?567次閱讀

    分布式通信是什么 分布式網(wǎng)絡(luò)搭建

    智能機(jī)器人的功能繁多,全都放在一個(gè)計(jì)算機(jī)里,經(jīng)常會(huì)遇到計(jì)算能力不夠、處理出現(xiàn)卡頓等情況,如果可以將這些任務(wù)拆解,分配到多個(gè)計(jì)算機(jī)中運(yùn)行豈不是可以減輕壓力? 這就是分布式系統(tǒng),可以實(shí)現(xiàn)多計(jì)算平臺(tái)
    的頭像 發(fā)表于 11-27 15:49 ?684次閱讀
    <b class='flag-5'>分布式</b>通信是什么 <b class='flag-5'>分布式</b><b class='flag-5'>網(wǎng)絡(luò)</b>搭建

    #分布式電源 助力慶陽(yáng)打造“西部數(shù)谷”#明德源能 #分布式電源DPS

    分布式電源
    jf_64111305
    發(fā)布于 :2023年11月17日 17:28:27

    springclould分布式教程

    的基本概念、主要組件以及如何使用Spring Cloud構(gòu)建分布式系統(tǒng)。 一、Spring Cloud的基本概念 分布式系統(tǒng) 分布式系統(tǒng)是由多個(gè)獨(dú)立計(jì)算機(jī)集合而成的系統(tǒng),這些計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-16 10:59 ?425次閱讀