0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們總結(jié)了一整套方法論,終于不再為故障排查沒有進(jìn)展落淚了!

智科特機(jī)器人 ? 2022-05-13 11:25 ? 次閱讀

本文約3873個(gè)字,預(yù)計(jì)閱讀時(shí)間10分鐘

故障排查的“方法論”

經(jīng)驗(yàn)分享篇

機(jī)器人是一個(gè)綜合性比較高的產(chǎn)品,涉及多種學(xué)科的知識(shí),如果沒有受過系統(tǒng)的機(jī)器人培訓(xùn),面對(duì)故障時(shí)很可能一點(diǎn)頭緒都沒有。

我們?cè)跈C(jī)器人行業(yè)有些年頭了,自己做機(jī)器人,集成機(jī)器人,現(xiàn)場(chǎng)調(diào)試機(jī)器人,同時(shí)還負(fù)責(zé)給客戶們做技術(shù)支持。這么多年過去了我們也算是有了些設(shè)備調(diào)試、排錯(cuò)的經(jīng)驗(yàn),所以想寫下來給剛進(jìn)入機(jī)器人行業(yè)的研究者以及同學(xué)們參考,幫助大家少走些彎路。

不要著急歸因

故障發(fā)生時(shí),很容易犯的一個(gè)錯(cuò)誤是,不對(duì)現(xiàn)象進(jìn)行仔細(xì)的排查,憑經(jīng)驗(yàn)直接下結(jié)論。確實(shí)憑經(jīng)驗(yàn)有時(shí)可以快速的解決問題,但是一旦方向錯(cuò)誤了,花費(fèi)的時(shí)間可能比按照標(biāo)準(zhǔn)方法排查還要長。所以我的建議是要嚴(yán)格遵循故障排查的基本原則,憑借經(jīng)驗(yàn)加速故障排查過程,而非省略某些過程。當(dāng)你確認(rèn)了現(xiàn)象與故障點(diǎn)之間的因果關(guān)系后,再進(jìn)行后續(xù)的步驟。

注意:緊盯系統(tǒng)給出的故障提示

很多人會(huì)因?yàn)殄e(cuò)誤碼太多,或者看不懂英文而忽視系統(tǒng)給出的錯(cuò)誤,憑借自己的推測(cè)進(jìn)行排查。這是不可取的,系統(tǒng)錯(cuò)誤信息往往包含故障的關(guān)鍵原因,有時(shí)候憑借故障碼手冊(cè)可以快速的定位到問題。所以不論系統(tǒng)拋出的故障信息多么繁雜,一定要仔細(xì)查閱。

尋找故障的規(guī)律

有些故障可能是間歇性的、時(shí)有時(shí)無的。找到故障的規(guī)律,對(duì)問題復(fù)現(xiàn)以及測(cè)試都是非常有利的。規(guī)律可能體現(xiàn)在時(shí)間維度上,比如在固定的時(shí)間點(diǎn),或者固定的時(shí)間間隔;也有可能體現(xiàn)在其它維度上,比如機(jī)器人的關(guān)節(jié)在某個(gè)特定角度下,或者特定的運(yùn)動(dòng)模式下,或者在特定的環(huán)境中會(huì)出現(xiàn)故障。在尋找規(guī)律時(shí)要仔細(xì)思考故障發(fā)生的時(shí)與平時(shí)正常運(yùn)行時(shí)的差別,任何細(xì)節(jié)都不放過。

構(gòu)建復(fù)現(xiàn)故障的最小系統(tǒng)

有效的故障排除法是在故障發(fā)生時(shí),逐步關(guān)閉沒有問題的模塊,直至找到復(fù)現(xiàn)故障的最小系統(tǒng)形態(tài)。我在開頭也說過,機(jī)器人是一個(gè)復(fù)雜度很高的產(chǎn)品,由多個(gè)組件多個(gè)軟件模塊構(gòu)成。要明白的是,不同的模塊出問題時(shí),機(jī)器人的現(xiàn)象有可能一致的,起碼在經(jīng)驗(yàn)不豐富的時(shí)候是很難分辨出來到底是什么地方出了問題。所以我們要通過削減系統(tǒng)的方式,排除掉正常的功能模塊,將故障點(diǎn)凸顯出來,為后續(xù)的故障分析做準(zhǔn)備。

要有質(zhì)疑一切的心態(tài)

不怕系統(tǒng)發(fā)生大問題,就怕系統(tǒng)發(fā)生小問題。原因是大問題的特征極其明顯,故障排查非常好做,但是小問題的根源總是藏的非常深,很難找到。在故障發(fā)生后,要對(duì)所有技術(shù)點(diǎn)進(jìn)行質(zhì)疑和驗(yàn)證,尤其是那些看似不容易出錯(cuò)的地方。有人可能會(huì)說這樣做太浪費(fèi)時(shí)間了,但是要明白,如果真的是這些不容易出錯(cuò)的地方發(fā)生了錯(cuò)誤而你沒察覺,調(diào)試的時(shí)間可能要漲好幾倍。所以充分的質(zhì)疑是有必要的。推薦的做法是,對(duì)最小復(fù)現(xiàn)系統(tǒng)中理應(yīng)正常的模塊進(jìn)行快速的驗(yàn)證,然后再排查那些不太容易排查的模塊,這其實(shí)也是在幫助我們進(jìn)一步獲得復(fù)現(xiàn)故障的最小系統(tǒng)。

等效替換與極限測(cè)試

最常用的故障排查方式是等效替換與極限測(cè)試。等效替換指的是將你認(rèn)為可能出問題的地方進(jìn)行等效替換,然后觀察整個(gè)系統(tǒng)是否恢復(fù)了預(yù)期。替換包括實(shí)物的替換,軟件版本的替換,以及使用假的合理數(shù)據(jù)進(jìn)行模擬仿真。極限測(cè)試指的是在一些現(xiàn)象不是很明顯時(shí),可以通過賦予系統(tǒng)參數(shù)極值的方法,放大某些現(xiàn)象從而尋找規(guī)律。不過使用時(shí)要注意極值帶來的系統(tǒng)的不穩(wěn)定,所以要做提前好保護(hù)措施,例如架空機(jī)器人,建立隔離區(qū),以及準(zhǔn)備多種緊急停止的方案等,避免造成其它損壞。

系統(tǒng)性的知識(shí)體系

上面提到的故障排查方法其實(shí)都是方法論,決定方法論執(zhí)行好壞的是個(gè)人的知識(shí)體系是否健全。故障排查考察的是一個(gè)人對(duì)系統(tǒng)的認(rèn)知的完整度,你是否明白系統(tǒng)是如何構(gòu)成的,是否知道各部分之間的關(guān)聯(lián)形式,以及你是否知道系統(tǒng)結(jié)構(gòu)的優(yōu)勢(shì)劣勢(shì),都會(huì)對(duì)你排查故障起決定性作用。我們公司在對(duì)客戶進(jìn)行售后培訓(xùn)時(shí),經(jīng)常會(huì)和客戶強(qiáng)調(diào)不論研究重點(diǎn)是什么,都應(yīng)當(dāng)系統(tǒng)性的了解機(jī)器人相關(guān)知識(shí),了解機(jī)器人的構(gòu)造、控制模型以及各種限制,這不僅僅是為了排查故障,更是為了讓客戶充分發(fā)揮機(jī)器人的優(yōu)勢(shì)服務(wù)于他們自己的研究。

尋求幫助的技巧

如果問題已經(jīng)超出了你能解決的能力,或者你需要在短時(shí)間內(nèi)完成排查,那么你可能會(huì)通過多種渠道尋求他人的幫助,比如在一些網(wǎng)站上發(fā)帖或者直接聯(lián)系設(shè)備商尋求幫助。需要注意的是這些渠道的溝通往往缺乏時(shí)效性。為了盡快的解決問題,溝通的技巧非常的重要。如果你經(jīng)常訪問Github或者StackOverflow之類的網(wǎng)站,你會(huì)發(fā)現(xiàn)他們提供了很好的提問模板,請(qǐng)盡量遵從它們,這非常有利于減少溝通次數(shù)。原因其實(shí)和上述描述的技巧有非常大的關(guān)系,如果你能準(zhǔn)確的描述故障的現(xiàn)象和規(guī)律、使用設(shè)備的環(huán)境與方法以及你做過的嘗試,其他人能夠快速跟進(jìn)到故障排查工作中,而非從頭開始做起。而且描述的越準(zhǔn)確,越有利于幫助者判斷你的技術(shù)能力,進(jìn)而使用你能聽懂的方式進(jìn)行溝通。如果你有過消費(fèi)產(chǎn)品售后咨詢的經(jīng)驗(yàn),你會(huì)發(fā)現(xiàn)他們最一開始問的問題都非常的基礎(chǔ),甚至?xí)屇阌X得他們把人當(dāng)傻瓜看,但是這是避免出現(xiàn)“聽不懂”以及“誤判”現(xiàn)象的最好的方法,畢竟售后不能在你提問前先查詢你的經(jīng)驗(yàn)和能力。

典型的案例

For human,F(xiàn)or fun 我們做到了!

這里我會(huì)舉幾個(gè)我們公司排查故障時(shí)遇到的典型案例,供大家理解上述內(nèi)容的使用方法。

機(jī)器人定位丟失案例

有一次在客戶現(xiàn)場(chǎng)調(diào)試機(jī)器人,發(fā)現(xiàn)機(jī)器人在導(dǎo)航的過程中定位會(huì)突然丟失,而且不是頻繁發(fā)生,而是偶發(fā)性的(沒有時(shí)間上的規(guī)律)。我們最一開始推斷可能是和場(chǎng)景有關(guān)(從環(huán)境的角度尋找規(guī)律),但是定位跳變程度遠(yuǎn)超平常見到的定位丟失形式(推斷被否定,但未驗(yàn)證),所以我們開始讓車頻繁的在場(chǎng)地中運(yùn)動(dòng)(極限測(cè)試),然后觀察其在什么情況下會(huì)發(fā)生定位丟失的問題(試圖尋找其它維度的規(guī)律)。具體的做法是當(dāng)定位丟失發(fā)生時(shí),使用手柄控制機(jī)器人倒著追尋原有的路徑重新走過定位丟失的地點(diǎn),然后觀察機(jī)器人的現(xiàn)象(觀察其它維度的變化)。經(jīng)過幾次測(cè)試,發(fā)現(xiàn)定位丟失現(xiàn)象也會(huì)在手動(dòng)控制機(jī)器人時(shí)發(fā)生(初步發(fā)現(xiàn)規(guī)律),然后我們嘗試了改變環(huán)境(等效替換,嘗試排除正常的功能以構(gòu)建最小復(fù)現(xiàn)系統(tǒng)),發(fā)現(xiàn)定位丟失依舊發(fā)生(基本確定和環(huán)境無關(guān)系),然后又發(fā)現(xiàn)故障復(fù)現(xiàn)的方式是在定位丟失的時(shí)刻,反復(fù)用手柄操控車經(jīng)過丟失點(diǎn)(極限測(cè)試),但是這個(gè)丟失點(diǎn)位置并無規(guī)律,所以我們推測(cè)問題與車的運(yùn)動(dòng)有關(guān),和環(huán)境無關(guān),結(jié)合機(jī)器人的定位方式(知識(shí)體系),我們推測(cè)車的里程計(jì)出了問題(新推斷)。這個(gè)時(shí)候我們將定位導(dǎo)航功能關(guān)閉,僅保留車的里程計(jì)計(jì)算部分(嘗試構(gòu)建最小復(fù)現(xiàn)系統(tǒng)),然后觀察里程計(jì)的信息是否會(huì)發(fā)生跳變(驗(yàn)證規(guī)律的假設(shè)),經(jīng)測(cè)試確實(shí)是里程計(jì)的信息發(fā)生了跳變(現(xiàn)象從定位丟失,縮小到了里程計(jì)跳變)。因?yàn)槔锍逃?jì)是通過輪編碼器獲得的,所以我們推測(cè)編碼器的數(shù)值有問題(再一次嘗試縮小問題,提出假設(shè)),然后我們將編碼器的數(shù)值進(jìn)行了記錄,觀察其在定位丟失時(shí)的變化情況。經(jīng)觀察確定了編碼器值有異常跳變的問題。這里編碼器值跳變有可能是編碼器本身的問題,也有可能是程序問題。我們觀察到數(shù)值跳變的位置與變量類型的數(shù)值范圍有關(guān)(數(shù)值跳變的規(guī)律),然后通過排查驅(qū)動(dòng)器手冊(cè),發(fā)現(xiàn)我們?cè)诰帉懗绦驎r(shí)編碼器變量數(shù)值類型選小了,導(dǎo)致了編碼器值溢出,進(jìn)而發(fā)生跳變(單元測(cè)試的重要性)。

鼠標(biāo)行為異常案例

這是一個(gè)非常讓人哭笑不得的案例,但是可以體現(xiàn)故障排查中的某些小概率情況。我的同事在調(diào)試程序時(shí)發(fā)現(xiàn)他的電腦鼠標(biāo)經(jīng)常失靈,具體表現(xiàn)是只能做移動(dòng)操作,但是左右鍵都無法工作。同事在一開始的時(shí)候以為是顯卡驅(qū)動(dòng)的問題,認(rèn)為鼠標(biāo)在工作,但是系統(tǒng)界面發(fā)生了卡死(第一次假設(shè))。但是在對(duì)上述假設(shè)進(jìn)行驗(yàn)證時(shí)發(fā)現(xiàn),鍵盤可以正確的觸發(fā)界面(等效替換驗(yàn)證界面是否卡死),可以切換程序也可以打字,所以可以證明界面并未發(fā)生卡死(假設(shè)不成立)。緊接著將問題聚焦到了鼠標(biāo)控制這一功能上面,我們的推測(cè)可能是鼠標(biāo)驅(qū)動(dòng)有問題,或者鼠標(biāo)本身有問題。因?yàn)楹苌僖姷绞髽?biāo)軟件驅(qū)動(dòng)的問題,所以我們優(yōu)先排查鼠標(biāo)硬件問題(根據(jù)對(duì)系統(tǒng)的理解進(jìn)行模塊拆分,然后再根據(jù)經(jīng)驗(yàn)對(duì)排查順序進(jìn)行優(yōu)化)。鼠標(biāo)硬件的問題可以分為按鍵本身、鼠標(biāo)整體以及接口問題。我們決定先更換鼠標(biāo)進(jìn)行試驗(yàn)(等效替換進(jìn)行驗(yàn)證),然后發(fā)現(xiàn)問題依舊存在,所以鼠標(biāo)的問題被排除了。接下來是USB接口的問題,遵循最小復(fù)現(xiàn)系統(tǒng)的原則,開始拔出所有無關(guān)的USB設(shè)備。搞笑的事情出現(xiàn)了,同事發(fā)現(xiàn)計(jì)算機(jī)還連接了另外一只有線鼠標(biāo),且這只鼠標(biāo)被壓在了桌面的雜物堆下面(“懷疑一切”的重要性)。當(dāng)我們拔出這個(gè)鼠標(biāo)后,發(fā)現(xiàn)原有的鼠標(biāo)恢復(fù)了正常,我們推測(cè)是這只有線鼠標(biāo)被雜物壓到了鼠標(biāo)鍵,與同事正在使用的鼠標(biāo)發(fā)生了按鍵沖突。

這次故障排除進(jìn)一步說明了,很多問題的緣由并沒有多么的復(fù)雜,很可能是一個(gè)非常詭異的,意想不到的錯(cuò)誤導(dǎo)致的。如果一開始就從復(fù)雜路線進(jìn)行修復(fù),浪費(fèi)時(shí)間不說,還解決不了問題。

總結(jié)

方法論的東西在沒有經(jīng)驗(yàn)的情況下看著很沒意義,只有多試多總結(jié)才能真正得到提高。希望本文中的經(jīng)驗(yàn)?zāi)転楦魑谎芯空咛峁┬┰S幫助。最后祝大家在研究的路上披荊斬棘!無BUG!不加班!


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27994

    瀏覽量

    205551
  • 故障排查
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    8556
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    工業(yè)交換機(jī)故障快速排查方法有哪些

    在現(xiàn)代工業(yè)自動(dòng)化的環(huán)境中,工業(yè)交換機(jī)作為網(wǎng)絡(luò)連接的重要設(shè)備,其穩(wěn)定性和可靠性至關(guān)重要。然而,實(shí)際使用過程中難免會(huì)遇到各種故障,這對(duì)生產(chǎn)線和系統(tǒng)的正常運(yùn)作造成了影響。為了有效應(yīng)對(duì)這些問題,下面將介紹些工業(yè)交換機(jī)故障的快速
    的頭像 發(fā)表于 09-23 13:59 ?106次閱讀

    plc故障排查方法及技巧

    這種緊急情況,了解如何快速有效地排查并解決PLC的問題顯得至關(guān)重要。本文旨在提供套系統(tǒng)的PLC故障排除指南,幫助維護(hù)人員輕松應(yīng)對(duì)各類故障挑戰(zhàn)。 首先,定期的檢查是預(yù)防和快速發(fā)現(xiàn)
    的頭像 發(fā)表于 08-27 10:47 ?344次閱讀

    光纖故障怎么排查

    光纖故障排查個(gè)細(xì)致且系統(tǒng)的過程,涉及多個(gè)方面的檢查和測(cè)試。以下是系列光纖故障排查的步驟和
    的頭像 發(fā)表于 08-20 10:25 ?441次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)介紹機(jī)器學(xué)習(xí),從方法論上來看,機(jī)器學(xué)習(xí)屬于歸納推理;從開發(fā)設(shè)計(jì)方式來看,機(jī)器學(xué)習(xí)屬于自動(dòng)編程。我們平時(shí)使用各種計(jì)算機(jī)高級(jí)語言編寫程序代碼,這屬于人工編程的范疇;機(jī)器學(xué)習(xí)則由算法自動(dòng)產(chǎn)生程序,因此
    發(fā)表于 07-25 14:33

    電纜故障排查技術(shù)案例筆記

    電纜故障排查技術(shù)案例筆記
    的頭像 發(fā)表于 05-20 17:03 ?472次閱讀
    電纜<b class='flag-5'>故障</b><b class='flag-5'>排查</b>技術(shù)案例筆記

    DC電源模塊的故障排查與維修技巧

    BOSHIDA ?DC電源模塊的故障排查與維修技巧 故障排查與維修技巧: DC電源模塊的故障排查
    的頭像 發(fā)表于 01-09 15:08 ?843次閱讀
    DC電源模塊的<b class='flag-5'>故障</b><b class='flag-5'>排查</b>與維修技巧

    Altium Designer故障原因排查

    本文將介紹當(dāng)您遇到凍結(jié)或長時(shí)間延遲以及Altium Designer死機(jī)等故障時(shí)如何進(jìn)行故障原因排查。上述故障通常由網(wǎng)絡(luò)流量通信問題造成的。Altium可能在發(fā)出網(wǎng)絡(luò)請(qǐng)求后,得不到回復(fù)
    的頭像 發(fā)表于 12-29 16:06 ?1700次閱讀
    Altium Designer<b class='flag-5'>故障</b>原因<b class='flag-5'>排查</b>

    為行業(yè)找路徑,為商業(yè)筑壁壘,解碼容聯(lián)云的大模型“方法論

    為行業(yè)找路徑,為商業(yè)筑壁壘,解碼容聯(lián)云的大模型“方法論
    的頭像 發(fā)表于 12-21 21:56 ?1217次閱讀
    為行業(yè)找路徑,為商業(yè)筑壁壘,解碼容聯(lián)云的大模型“<b class='flag-5'>方法論</b>”

    配網(wǎng)故障定位裝置:故障排查的利器!

    快速找出故障原因,從而及時(shí)進(jìn)行修復(fù)。今天,就讓我們起來了解下這款神奇的[配網(wǎng)故障定位裝置]吧
    的頭像 發(fā)表于 12-18 10:26 ?858次閱讀
    配網(wǎng)<b class='flag-5'>故障</b>定位裝置:<b class='flag-5'>故障</b><b class='flag-5'>排查</b>的利器!

    全數(shù)字感應(yīng)加熱設(shè)備經(jīng)常出現(xiàn)的幾種故障及其解決方法

    全數(shù)字感應(yīng)加熱設(shè)備是種用于金屬焊接、預(yù)熱、熱裝配、在線加熱的設(shè)備,由于其加熱速度快、環(huán)保,因此被大力推崇,但是也免不了其在使用過程中出現(xiàn)故障,今天小編總結(jié)了些中頻感應(yīng)加熱設(shè)備的常見
    的頭像 發(fā)表于 12-14 09:44 ?578次閱讀
    全數(shù)字感應(yīng)加熱設(shè)備經(jīng)常出現(xiàn)的幾種<b class='flag-5'>故障</b>及其解決<b class='flag-5'>方法</b>

    光纖收發(fā)器的8個(gè)故障排查

    光纖收發(fā)器的8個(gè)故障排查 光纖收發(fā)器是光纖通信中不可或缺的設(shè)備之。然而,由于長期使用或其他原因,光纖收發(fā)器可能會(huì)出現(xiàn)各種故障。為了保證通信的正常進(jìn)行,
    的頭像 發(fā)表于 11-28 15:27 ?2262次閱讀

    網(wǎng)絡(luò)故障排查手段總結(jié)

    為了提升我們的工作效率,不浪費(fèi)時(shí)間,工具的重要性顯而易見特別是每當(dāng)添加新的設(shè)備或網(wǎng)絡(luò)發(fā)生變更時(shí),新的問題就會(huì)出現(xiàn),而且很難快速確定問題出在哪里。每位網(wǎng)絡(luò)工程師或從事網(wǎng)相關(guān)的人員,都了解幾款工具
    的頭像 發(fā)表于 11-27 15:31 ?552次閱讀

    GPIO無法觸發(fā)中斷常規(guī)排查方法有哪些?

    1、電源域是否打開 2、IOMUX是否設(shè)置對(duì) 3、是否配置中斷方式,外部電平是否滿足條件 4、是否為輸入狀態(tài) 備注:這次分享的是,我們做展銳平臺(tái)GPIO排查方法,不同平臺(tái)、不同版本、
    發(fā)表于 11-24 16:11

    常見的電源適配器故障排查方法有哪些?

    常見的電源適配器故障排查方法有哪些? 電源適配器故障是使用電子設(shè)備時(shí)經(jīng)常遇到的問題之。合理排查
    的頭像 發(fā)表于 11-24 14:08 ?5867次閱讀

    PLC故障排查步驟

    故障排查對(duì)于PLC非常重要,下面是般的PLC故障排查步驟: (1)收集信息:首先,收集有關(guān)故障
    的頭像 發(fā)表于 11-17 09:01 ?1721次閱讀