0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NetQ實(shí)現(xiàn)全網(wǎng)可觀察性排除網(wǎng)絡(luò)故障

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Michael Kashin ? 2022-04-17 10:25 ? 次閱讀

EVPN已成為現(xiàn)代數(shù)據(jù)中心架構(gòu)的標(biāo)準(zhǔn)解決方案。對于終端用戶來說,受益于基于BGP的控制平面所具有的穩(wěn)定性,EVPN提供了擴(kuò)展其廣播域的靈活性。但這些增加的益處是以提高配置的復(fù)雜性為代價(jià)的。

當(dāng)前所面對的不再是相對固定、簡單,可以通過維護(hù)人員直觀分析來發(fā)現(xiàn)錯誤的網(wǎng)絡(luò)配置。真正的生產(chǎn)性EVPN配置可能包括多個深度嵌套結(jié)構(gòu),而且隨網(wǎng)絡(luò)中的租戶數(shù)量成比例增長。

EVPN配置復(fù)雜性可以且必須通過適當(dāng)?shù)淖詣踊鉀Q方案予以解決,這可以減少人為出錯的可能性,而NVIDIA Cumulus Linux正是解決該問題的合適解決方案。但僅有自動化還不夠,錯誤仍然可以通過數(shù)據(jù)源引入系統(tǒng),例如配置管理數(shù)據(jù)庫(CMDB)的人為錯誤。

可觀察性的重要性

這就是為什么對于任何具有合理復(fù)雜程度的基礎(chǔ)設(shè)施,用戶應(yīng)該有辦法來采集各類日志、指標(biāo),并且調(diào)試、輸出、匯總、關(guān)聯(lián)和處理這些信息,從而嘗試推斷系統(tǒng)的內(nèi)部狀態(tài)。實(shí)現(xiàn)這一點(diǎn)的能力通常被稱為系統(tǒng)的“可觀察性”,而且隨著底層基礎(chǔ)設(shè)施復(fù)雜性的增加,它正變得日益重要。在CNCF云原生環(huán)境 中,“可觀察性和分析”部分不斷增長的項(xiàng)目數(shù)量已證明了這一全行業(yè)趨勢。對此,NVIDIA也持同樣的觀點(diǎn)。

poYBAGJberaAJ0rLAADZzd8xRh8409.png

圖 1 數(shù)據(jù)中心演進(jìn)

通過NetQ實(shí)現(xiàn)的全網(wǎng)可觀察性

長期以來,整個網(wǎng)絡(luò)的可觀察性僅限于拓?fù)湟晥D——有些圖包括從物理鏈接到L2,L3接口再到控制平面協(xié)議等不同層次的細(xì)節(jié)。但這些代表高層次意圖的圖只有在有人維護(hù)時(shí)才能保證準(zhǔn)確。它們永遠(yuǎn)無法反映每個設(shè)備中所包含的網(wǎng)絡(luò)的實(shí)際狀態(tài)。NetQ在設(shè)計(jì)上解決了這些問題并為整個網(wǎng)絡(luò)的運(yùn)行狀態(tài)提供了一個統(tǒng)一的觀察窗口。

一方面,NetQ從其遠(yuǎn)程代理處收集和匯總多項(xiàng)指標(biāo),這些代理可能運(yùn)行在網(wǎng)絡(luò)交換機(jī)、通用計(jì)算服務(wù)器等任何位置。這些指標(biāo)包括但不限于:接口統(tǒng)計(jì)和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面狀態(tài),以及用于幫助診斷任一數(shù)據(jù)平面丟包的故障快照(What Just Happened)事件。

另一方面,NetQ使用這些指標(biāo)來推斷網(wǎng)絡(luò)的內(nèi)部狀態(tài)并作出針對協(xié)議的診斷。這些檢查包括從簡單的MTU和鏈路狀態(tài)一致性到BGP和EVPN狀態(tài)驗(yàn)證再到端到端連接性測試。

故障排除演示

在這篇文章中,將演示如何使用NetQ來排除一些使用以下拓?fù)浣Y(jié)構(gòu)的常見配置錯誤。葉節(jié)點(diǎn)被配置為MLAG對,并且該結(jié)構(gòu)內(nèi)部正在運(yùn)行帶有對稱IRB的EVPN和基于PIM的BUM復(fù)制 。

pYYBAGJbereAEVLbAADJpTIgeMY040.png

圖 2 NVIDIA 空氣中的拓?fù)?/p>

環(huán)境設(shè)置

該測試拓?fù)浣Y(jié)構(gòu)可以在名為NVIDIA Air的云基礎(chǔ)設(shè)施模擬平臺上啟動。如要了解更多信息,請參閱《NVIDIA Air用戶指南》。

1、選擇創(chuàng)建模擬、演示市場和使用NetQ的網(wǎng)絡(luò)故障排除選項(xiàng)卡。

在接下來的部分中,將討論各種故障排除情景,并展示NetQ如何幫助確定問題的來源。

情景1:服務(wù)器01無法與服務(wù)器02通信

第一個問題很簡單:兩臺服務(wù)器都連接到同一對葉節(jié)點(diǎn)交換機(jī)上,因此需要檢查的地方僅限于以下幾個方面:

所有服務(wù)器鏈接的L1和Bond接口配置

peerlink的MLAG狀態(tài)和配置

vlan 10和vlan 20的L3和VRR接口配置

通過NetQ,只需點(diǎn)擊幾下就可以完成所有這些檢查。

1、在模擬頁面,選擇啟動NetQ,輸入用戶名和密碼

2、在工作臺標(biāo)題中,選擇驗(yàn)證并創(chuàng)建一個新的MLAG驗(yàn)證。

poYBAGJberiAUYTRAACgjYzzLkI801.png

圖 3 情景 1 結(jié)果

當(dāng)驗(yàn)證完成后,NetQ發(fā)現(xiàn)雙宿設(shè)備有四個錯誤。對于每一個出現(xiàn)錯誤的檢查,用戶都可以查看更詳細(xì)的信息并了解NetQ認(rèn)為的錯誤是什么。

pYYBAGJberiAP0UWAADV9rGGj0g820.png

圖 4 場景# 1 詳細(xì)信息

在本情景中,NetQ清楚地指向接口bond1的VLAN配置,現(xiàn)在可以通過登錄和比較兩臺葉節(jié)點(diǎn)交換機(jī)上的配置來進(jìn)行快速驗(yàn)證和糾正。

用戶可按照實(shí)驗(yàn)指導(dǎo)來依次解決問題。

第二個情景涉及VXLAN EVPN結(jié)構(gòu)上的VLAN內(nèi)通信。這種故障的常用故障排除流程可能涉及以下步驟:

1、確認(rèn)所有BGP會話都已建立,并且所有對等層的EVPN地址族都已啟用。

2、確認(rèn)所有四個葉節(jié)點(diǎn)交換機(jī)上的VLAN至VNI映射是一致的。

3、確保導(dǎo)出和導(dǎo)入所需的Type-2路由使用同一組路由目標(biāo)。

4、檢查BGP是否被配置為發(fā)布所有已配置的VNI。

必須在所有葉節(jié)點(diǎn)交換機(jī)上比較這些數(shù)值。下面將展示用NetQ檢查上述信息有多么簡單。

1、在主工作臺標(biāo)題選擇選項(xiàng)卡并打開EVPN會話選項(xiàng)卡。

2、在全屏視圖中打開此選項(xiàng)卡,查看所有會話屏幕(圖5)。

情景2:服務(wù)器01無法與服務(wù)器04通信

poYBAGJbermAfnM5AAEx2HzVOIU629.png

圖 5 場景# 2 詳細(xì)信息

現(xiàn)在可以在屏幕上看到所有的相關(guān)值,這些值以表格的形式呈現(xiàn)并且可以進(jìn)行排序及過濾以縮小搜索范圍。在該情景中,很容易發(fā)現(xiàn)葉節(jié)點(diǎn)01/02和葉節(jié)點(diǎn)03/04之間Vlan10的VNI映射差異。

用戶可按照實(shí)驗(yàn)指導(dǎo)依次解決問題。

情景3:服務(wù)器01無法與服務(wù)器05通信

最后一個情景涉及VXLAN EVPN的VLAN間對稱路由。這次,需要驗(yàn)證的內(nèi)容有所增加,包括以下額外步驟:

每個VRF的BGP配置和會話狀態(tài)

EVPN 5型路由在葉節(jié)點(diǎn)交換機(jī)之間的傳播

檢查L3 VNI的配置是否一致以及每個MLAG對是否有唯一的Router MAC

L3 VNI到VRF在所有交換機(jī)上的映射

通過NetQ EVPN驗(yàn)證功能,所有這些假設(shè)都可以在幾秒鐘內(nèi)得到驗(yàn)證。

1、在主工作臺標(biāo)題中選擇驗(yàn)證并創(chuàng)建一個新的按需EVPN驗(yàn)證。幾秒鐘后,用戶即可看到結(jié)果(圖6)

poYBAGJberqAGQUBAAClzuIlf2s179.png

圖 6 情景# 3 結(jié)果

通過點(diǎn)擊VRF一致性警告,用戶可以清楚地看到錯誤位置。解決問題的時(shí)間縮短到幾秒鐘,管理員現(xiàn)在可以繼續(xù)糾正葉節(jié)點(diǎn)03/04上的VNI至VRF映射。

pYYBAGJberuARagmAACxAkqRBLI404.png

圖 7 場景# 3 詳細(xì)信息

請查看實(shí)驗(yàn)室指南,了解解決這個問題所需的具體指令。

總結(jié)

在這篇文章中,展示了NetQ根據(jù)管理設(shè)備采集的各種指標(biāo)來分析和推斷網(wǎng)絡(luò)狀態(tài)的能力。以上三個情景展示了如何利用NetQ的驗(yàn)證和協(xié)議專用選項(xiàng)卡將根本原因分析的時(shí)長從幾分鐘或幾小時(shí)縮短到幾秒鐘。這些驗(yàn)證可以按需求運(yùn)行,也可以定期運(yùn)行,甚至可以在過去的數(shù)據(jù)上運(yùn)行,這是因?yàn)樗腥罩径即鎯υ谝粋€時(shí)間序列數(shù)據(jù)庫中。

NetQ的能力遠(yuǎn)遠(yuǎn)超出了這篇文章中所展示和討論的內(nèi)容,并且其功能還包含設(shè)備庫存、軟件生命周期管理、基于閾值的警報(bào)以及與第三方平臺(如Slack、PagerDuty和Grafana)的集成。NetQ將繼續(xù)擴(kuò)展并增加更多的功能和第三方集成,在未來為用戶創(chuàng)造更多價(jià)值。

關(guān)于作者

Michael Kashin 是 NVIDIA 網(wǎng)絡(luò)組的解決方案架構(gòu)師,專注于數(shù)據(jù)中心、自動化和可觀測性。他對軟件開發(fā)、網(wǎng)絡(luò)和云本地技術(shù)有著濃厚的興趣,并熱衷于利用自己的知識和專長幫助客戶解決業(yè)務(wù)問題。在 2021 年加入 NVIDIA 之前, Michael 曾為多家技術(shù)供應(yīng)商工作,幫助他們的客戶構(gòu)建云并開發(fā)基礎(chǔ)設(shè)施管理軟件。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4823

    瀏覽量

    102656
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8875

    瀏覽量

    84985
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4589

    瀏覽量

    71827
收藏 人收藏

    評論

    相關(guān)推薦

    RS-485網(wǎng)絡(luò)故障查找與排除

    RS-485網(wǎng)絡(luò)故障查找與排除盡管更加現(xiàn)代化的替代技術(shù)日益增多,但RS-485技術(shù)仍然在無數(shù)的通信網(wǎng)絡(luò)中保持著中流砥柱的地位。以下是檢查常見故障和建立比較麻煩的RS-485
    發(fā)表于 02-26 15:37

    集中式網(wǎng)絡(luò)故障診斷

    集中式網(wǎng)絡(luò)故障診斷
    發(fā)表于 08-08 14:22

    使用Percepio的Tracealyzer和DevAlert實(shí)現(xiàn)FreeRTOS的可觀察!

    時(shí)間線、事件日志、CPU負(fù)載圖、內(nèi)存使用情況、任務(wù)依賴關(guān)系和許多其他有用的可視化結(jié)果。這些功能有助于實(shí)現(xiàn)可觀察。您可以在FreeRTOS應(yīng)用程序的深層追蹤任務(wù)以及內(nèi)核API調(diào)用。下圖是在筆記本電腦上運(yùn)行
    發(fā)表于 05-18 13:41

    巧用Ping和Traceroute命令排除網(wǎng)絡(luò)故障

    在分析Ping 和Traceroute 命令工作原理和影響因素的基礎(chǔ)上,詳細(xì)介紹了使用Ping 和Traceroute 命令檢查網(wǎng)絡(luò)連接、查看信息路徑從而排除網(wǎng)絡(luò)故障的方法和技巧。p
    發(fā)表于 08-11 08:25 ?35次下載

    局域網(wǎng)網(wǎng)絡(luò)故障排除策略

    局域網(wǎng)網(wǎng)絡(luò)故障排除策略 【簡 介】當(dāng)我們組建好了一個小型網(wǎng)吧后,為了使網(wǎng)吧運(yùn)轉(zhuǎn)正常,網(wǎng)絡(luò)維護(hù)就顯得很重要了。由于網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)設(shè)備的復(fù)雜
    發(fā)表于 08-01 10:53 ?426次閱讀

    網(wǎng)絡(luò)故障節(jié)點(diǎn)的判斷技巧

      利用交換機(jī)說明一定位網(wǎng)絡(luò)故障節(jié)點(diǎn)的方法和技巧   一、將交換機(jī)的故障日志作為第一手材料
    發(fā)表于 11-23 10:57 ?1793次閱讀

    網(wǎng)絡(luò)設(shè)備故障排除指南

    p網(wǎng)絡(luò)故障處理技術(shù)概述 p一般網(wǎng)絡(luò)故障的解決步驟 pQuidway中低端路由器產(chǎn)品介紹 p路由器常用診斷工具介紹 p故障處理常用方法 p故障處理對網(wǎng)
    發(fā)表于 03-16 15:37 ?0次下載

    筆記本網(wǎng)絡(luò)故障排除

    電子發(fā)燒友為您提供了筆記本網(wǎng)絡(luò)故障排除,幫助你解決 筆記本 出現(xiàn)網(wǎng)絡(luò)故障時(shí)對您的干擾,希望對您有所幫助!
    發(fā)表于 07-11 16:11 ?194次下載
    筆記本<b class='flag-5'>網(wǎng)絡(luò)故障</b><b class='flag-5'>排除</b>

    朗訊ATM網(wǎng)絡(luò)故障案例分析

    朗訊ATM網(wǎng)絡(luò)故障案例分析
    發(fā)表于 09-05 09:22 ?3次下載

    智能網(wǎng)絡(luò)故障管理系統(tǒng)

    當(dāng)前網(wǎng)絡(luò)故障管理系統(tǒng)正朝著自動化智能化的方向發(fā)展。為了提高傳統(tǒng)網(wǎng)絡(luò)故障管理系統(tǒng)的智能化水平,基于專家系統(tǒng)規(guī)則引擎Jess和SNMP協(xié)議,設(shè)計(jì)了一個智能網(wǎng)絡(luò)故障管理系統(tǒng)。該系統(tǒng)可實(shí)時(shí)監(jiān)控被管網(wǎng)絡(luò)
    發(fā)表于 11-11 15:47 ?4次下載
    智能<b class='flag-5'>網(wǎng)絡(luò)故障</b>管理系統(tǒng)

    16個網(wǎng)絡(luò)工程師常用的網(wǎng)絡(luò)故障排除工具

    網(wǎng)絡(luò)故障排除對于網(wǎng)絡(luò)技術(shù)專家和網(wǎng)絡(luò)工程師是頗具挑戰(zhàn)的工作。每當(dāng)添加新的設(shè)備或網(wǎng)絡(luò)發(fā)生變更時(shí),新的問題就會出現(xiàn),而且很難確定問題出在哪里。每一
    的頭像 發(fā)表于 08-25 11:37 ?1w次閱讀

    常見的計(jì)算機(jī)網(wǎng)絡(luò)故障及處理辦法

    對其計(jì)算機(jī)出現(xiàn)的網(wǎng)絡(luò)故障來說,有時(shí)確實(shí)難于避免,這時(shí)候面對出現(xiàn)的問題,親們必須冷靜對待,按照科學(xué)的步驟和診斷方法來分析和解決網(wǎng)絡(luò)故障問題。小諾收集整理了一些常見的網(wǎng)絡(luò)故障及處理辦法,幫助親們實(shí)
    的頭像 發(fā)表于 12-25 15:19 ?7260次閱讀

    NVIDIA NetQ使網(wǎng)絡(luò)工作流程更易于故障排除和自動化

    NVIDIA NetQ 是一種高度可擴(kuò)展的現(xiàn)代網(wǎng)絡(luò)操作工具,為 NVIDIA Spectrum Ethernet 平臺提供可操作的可見性。它將高級遙測技術(shù)與用戶界面相結(jié)合,使網(wǎng)絡(luò)工作流程更易于
    的頭像 發(fā)表于 06-15 10:44 ?1334次閱讀

    網(wǎng)絡(luò)故障排查思路和處理方法

    網(wǎng)絡(luò)故障是最容易出現(xiàn)的,且難以解決的問題。本文提供的網(wǎng)絡(luò)故障排查思路和處理方法,可解決日常工作中大部分網(wǎng)絡(luò)問題。
    發(fā)表于 10-31 09:14 ?9214次閱讀

    虹科分享 | NetFlow數(shù)據(jù)能夠?yàn)?b class='flag-5'>網(wǎng)絡(luò)故障排除提供什么? | 網(wǎng)絡(luò)流量監(jiān)控

    虹科分享NetFlow數(shù)據(jù)能夠?yàn)?b class='flag-5'>網(wǎng)絡(luò)故障排除提供什么?NetFlow是網(wǎng)絡(luò)設(shè)備中標(biāo)準(zhǔn)化的功能,用于收集流量測量值并將其導(dǎo)出到另一個系統(tǒng)進(jìn)行分析。對該流數(shù)據(jù)的分析通知網(wǎng)絡(luò)管理器
    的頭像 發(fā)表于 04-20 09:26 ?552次閱讀
    虹科分享 | NetFlow數(shù)據(jù)能夠?yàn)?b class='flag-5'>網(wǎng)絡(luò)故障</b><b class='flag-5'>排除</b>提供什么? | <b class='flag-5'>網(wǎng)絡(luò)</b>流量監(jiān)控