某企業(yè)的5G行業(yè)項目無人集卡遠程駕駛視頻回傳業(yè)務受到影響,具體表現(xiàn)為從終端上傳到采控平臺的監(jiān)控視頻存在花屏問題,采控平臺對終端的操控受到影響,產(chǎn)生偶發(fā)性卡頓,視頻花屏示例如下圖所示。企業(yè)園區(qū)的視頻回傳和卡車操控業(yè)務均受到影響。
無人集卡視頻業(yè)務組網(wǎng)如下圖所示。
上行方向:終端攝像頭→ 視頻網(wǎng)關→ CPE → 基站→ 防火墻→ 承載→ UPF業(yè)務交換機→ 下沉UPF → UPF業(yè)務交換機→ 企業(yè)防火墻→ 企業(yè)服務器控制臺
針對視頻花屏一類的問題,大部分情況下都是由于網(wǎng)絡報文丟包和報文亂序引起的。這是因為視頻碼流的傳輸是建立在傳輸層協(xié)議的基礎上,即TCP協(xié)議和UDP協(xié)議。而視頻監(jiān)控場景大多采用UDP面向不可靠連接協(xié)議。 因此排查方向為檢查網(wǎng)絡中的UDP報文,排查思路有以下四點:
問題定位:判斷網(wǎng)絡中是否存在UDP丟包率或亂序率高的問題,定位手段為使用Wireshark工具抓包分析,定位點為企業(yè)的視頻服務器。
問題定界:若有UDP丟包率或亂序率高的現(xiàn)象,則需要定界丟包或亂序的引入點在哪里。必要時需要進行端到端網(wǎng)絡抓包分析,目的是逐步縮小引入丟包或亂序點位的范圍,直至抓出問題設備。
問題優(yōu)化:定位到問題設備進行分析、解決。有可能是多個設備,涉及無線、承載、核心網(wǎng)各專業(yè)產(chǎn)品,具體的分析解決過程由問題產(chǎn)品對應的團隊負責,目標是使整個端到端網(wǎng)絡的丟包率或亂序率降低。
效果驗證:網(wǎng)絡的丟包率或亂序率降低后,觀察花屏問題是否得到改善或解決。
TCP面向連接:當傳輸中斷,發(fā)送端是感知的,可以重新建立連接。因此采用TCP傳輸?shù)膬?yōu)勢是不丟包;但劣勢是網(wǎng)絡不佳的情況下會導致?lián)砣?。常見的場景:觀看視頻、FTP等。
UDP非面向連接:發(fā)送端只管發(fā)送數(shù)據(jù),接收端是否能收到數(shù)據(jù)則不在發(fā)送端的考慮范圍內。因此UDP的優(yōu)勢是數(shù)據(jù)具有實時性,傳輸速度更快;劣勢是當網(wǎng)絡抖動大時,數(shù)據(jù)會丟失嚴重,這就是導致視頻花屏的常見原因。常見場景:視頻監(jiān)控、直播、視頻會議、音視頻通話。
問題定位
故障復現(xiàn)期間,在企業(yè)服務器端進行Wireshark數(shù)據(jù)抓包分析。
抓包數(shù)據(jù)流為UDP流,如下圖所示。
UDP流轉碼為RTP流,經(jīng)過流統(tǒng)計沒有丟包,如下圖所示。
但是存在1%亂序,如下圖所示。初步分析可能為亂序問題導致的視頻花屏。
問題定界
安排端到端7個節(jié)點(CPE、基站、承載、防火墻、UPF業(yè)務交換機、下沉UPF、企業(yè)服務器)進行抓包分析,確認是哪個網(wǎng)元引入的亂序問題,如下圖所示。
分析點1:測試PC → CPE抓包分析
分析點2:OME網(wǎng)管平臺 →基站側DPS、NG口抓包分析
分析點3:測試PC →傳輸抓包分析
分析點4:測試PC →防火墻抓包分析
分析點5:測試PC → UPF業(yè)務交換機業(yè)務匯聚端口抓包分析
分析點6:測試PC → UPF網(wǎng)元側抓包分析
分析點7:遠端操作PC → 企業(yè)服務器側抓包分析
分析過程
在故障發(fā)生的同一時間段內,將各節(jié)點的Wireshark數(shù)據(jù)統(tǒng)計結果進行匯總,初步判定在UPF業(yè)務交換機和UPF網(wǎng)元中間引入了亂序,如下圖所示。
1.在UPF業(yè)務交換機進行數(shù)據(jù)統(tǒng)計,統(tǒng)計數(shù)據(jù)如下圖所示。
a.GTP包:為基站增加GTP包頭,通過承載等網(wǎng)元轉發(fā)至UPF的報文。 b.UDP包:經(jīng)UPF處理并轉發(fā)至企業(yè)園區(qū)N6的報文(回到交換機的包)。
3.經(jīng)過UPF業(yè)務交換機一進一出的數(shù)據(jù)統(tǒng)計結果,可以明顯看出數(shù)據(jù)報文在經(jīng)過了UPF和UPF業(yè)務交換機后,有亂序率增加的現(xiàn)象,亂序率由0.01變?yōu)?.38%,所以UPF產(chǎn)生問題的可能性最大。
4.在UPF網(wǎng)元進行數(shù)據(jù)跟蹤統(tǒng)計,統(tǒng)計結果如下圖所示。
5.根據(jù)UPF網(wǎng)元數(shù)據(jù)統(tǒng)計結果,可以看出在UPF網(wǎng)元側的幾段報文中,確實存在亂序增加的現(xiàn)象。16段抓包結果的亂序率在0.08%~1.48%之間,平均亂序率為0.41%。 6.在企業(yè)服務器進行數(shù)據(jù)統(tǒng)計,如下圖所示。
7.根據(jù)企業(yè)服務器數(shù)據(jù)統(tǒng)計結果,可以看出企業(yè)服務器的幾段報文中,確實存在亂序現(xiàn)象,平均亂序率為0.39%。
8.為驗證初步分析的結果,需要再次在UPF業(yè)務交換機和UPF網(wǎng)元進行抓包對比,如下圖所示。
9.經(jīng)過抓包對比,第二次抓包數(shù)據(jù)統(tǒng)計的結論與第一次的結論一致,即UPF業(yè)務交換機到UPF網(wǎng)元段亂序大量增加。由此初步分析得結論:終端上傳視頻時,數(shù)據(jù)包從UPF業(yè)務交換機出來至UPF內部,再由UPF轉發(fā)至UPF業(yè)務交換機出現(xiàn)問題,導致了亂序增加。
10.將故障范圍收斂為:UPF業(yè)務交換機、UPF網(wǎng)元或底層設備,其中UPF故障的可能性最大,后續(xù)主要分析方向為UPF。
11.根據(jù)抓包結果進行分析,執(zhí)行以下3項操作,觀察是否改善:
a.關閉UPF網(wǎng)元所有的數(shù)據(jù)跟蹤,在UPF業(yè)務交換機上再次進行抓包,分析亂序現(xiàn)象是否改善。
結果:無效。
b.調整UPF業(yè)務交換機SG 2、3、6、7口(與業(yè)務服務器的業(yè)務網(wǎng)卡)負荷分擔策略為src-dst-ip。在交換機上抓包,分析亂序現(xiàn)象是否相同。
結果:無效。
c.將UPF虛機進行主備倒換,再次交換機抓包,分析亂序現(xiàn)象是否相同。
結果:無效。
12.根據(jù)抓包結果再次進行分析,執(zhí)行以下2項操作,觀察是否改善: a.核查現(xiàn)場組網(wǎng)拓撲,檢查防火墻分發(fā)策略,是否異常。
結果:無異常。
b.UPF所有補丁都沒打,需要打上補丁后查看是否有改善。
結果:無效。
13.進一步檢查,發(fā)現(xiàn)UPF主備倒換沒有生效,需要重新倒換。
a.分析交換機聚合組分發(fā)是否有問題,需要保留聚合組里面唯一端口,關閉其他端口。
b.根據(jù)第一次操作抓取數(shù)據(jù)分析發(fā)現(xiàn)新問題點:UPF除了亂序外,還有更高比例的丟包問題,統(tǒng)計數(shù)據(jù)如下圖所示。 亂序比例:交換前0.04%,經(jīng)過UPF后亂序率增加至0.46%,增加了近10倍。 丟包比例:交換前0.77%,經(jīng)過UPF后丟包率增加至1.55%,增加了近1倍,且較亂序比例更大。需要重點解決該問題。
14.對UPF網(wǎng)元進行一鍵采集內部統(tǒng)計分析,存在上行的計費丟包。對UPF進行信令跟蹤發(fā)現(xiàn),現(xiàn)場采用的是N40在線計費,且每次下發(fā)約200 MB配額(查看具體配額的消息:Nchf_ConvergedCharging_Update Request),如下圖所示。
15.經(jīng)分析,在用戶上線后,UPF會通過SMF向OCS申請配額,當配額用完之后,UPF會重新向OCS進行配額申請。
16.根據(jù)現(xiàn)場抓包分析速率大約50 s左右配額會耗盡,耗盡后UPF實時向OCS申請配額。因為具有實時性,從OCS而來的新配額如果未及時送達UPF,則UPF會將緩存報文進行丟包處理,此時極大可能導致視頻花屏。
17.綜合以上分析,建議將在線計費方式改為離線計費或者不計費方式,查看花屏問題是否解決。
18.SIM計費情況說明如下:
a.在線計費(預付費):需要和OCS交互申請配額,當配額達到閾值后,會重新向OCS申請新的額度,在OCS下發(fā)新額度之前,如果配額耗盡,則UPF將會進行丟包。
b.離線計費(后付費):不需要和OCS進行交互,理論上用戶可以一直使用流量,但用戶下線后,會向計費中心上報流量統(tǒng)計數(shù)。
c.針對實時回傳的流媒體業(yè)務,通常會使用離線計費,因為在線計費需要實時申請配額,如果網(wǎng)絡出現(xiàn)延時或者OCS響應不及時,會導致丟包嚴重,業(yè)務中斷。
問題處理
1.將SIM卡計費方式由在線計費更改為離線計費,再次在UPF業(yè)務交換機進行抓包,抓包結果如圖14所示。
結果分析如下:
a.亂序比例:交換機0.02%,經(jīng)過UPF后亂序率增加至0.12%,增加近5倍,亂序問題還存在。
b.丟包比例:交換機0.34%,經(jīng)過UPF后丟包率增加至0.38%,僅增11%,較操作前下降明顯。
2.與第三方視頻廠家溝通,反饋花屏效果已大大改善,基本已經(jīng)解決原來視頻花屏問題,如下圖所示。
3.根據(jù)前后數(shù)據(jù)分析,視頻花屏問題分析結論如下:
a.視頻花屏問題定位為UPF的丟包原因引入,通過更改SIM卡的計費方式,大大降低了UPF的丟包行為,花屏問題基本解決。
b.UPF亂序問題存在,但在當前環(huán)境下,亂序問題對現(xiàn)場視頻花屏影響很小。
審核編輯 :李倩
-
服務器
+關注
關注
12文章
8866瀏覽量
84962 -
UDP
+關注
關注
0文章
318瀏覽量
33837 -
監(jiān)控視頻
+關注
關注
0文章
25瀏覽量
5801
原文標題:ZXUN xGW-無人集卡視頻存在花屏的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論