0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何選擇異常檢測算法

Dbwd_Imgtec ? 來源:DeepHub IMBA ? 作者:Dmytro Nikolaiev ? 2021-10-25 09:15 ? 次閱讀

異常檢測(也稱為離群點檢測)是檢測異常實例的任務(wù),異常實例與常規(guī)實例非常不同。這些實例稱為異?;螂x群值,而正常實例稱為內(nèi)部值。

異常檢測可用于多種應(yīng)用,例如:

① 欺詐識別

② 檢測制造中的缺陷產(chǎn)品

③ 數(shù)據(jù)清理——在訓(xùn)練另一個模型之前從數(shù)據(jù)集中去除異常值。

你可能已經(jīng)注意到,一些不平衡分類的問題也經(jīng)常使用異常檢測算法來解決。例如,垃圾郵件檢測任務(wù)可以被認(rèn)為是一個分類任務(wù)(垃圾郵件比普通電子郵件少得多),但是我們可以用異常檢測的方法實現(xiàn)這個任務(wù)。

一個相關(guān)的任務(wù)是奇異值檢測(Novelty Detection)。它與異常檢測的不同之處在于,假設(shè)該算法是在干凈的數(shù)據(jù)集(沒有異常值)上訓(xùn)練的。它被廣泛應(yīng)用于在線學(xué)習(xí)中,當(dāng)需要識別一個新實例是否是一個離群值時。

另一個相關(guān)任務(wù)是密度估計。它是估計數(shù)據(jù)集生成的隨機過程的概率密度函數(shù)的任務(wù)。密度估計通常用于異常檢測(位于低密度區(qū)域的實例很可能是異常)和數(shù)據(jù)分析。通常使用基于密度(高斯混合模型或 DBSCAN)的聚類算法來解決。

統(tǒng)計方法

檢測離群值最簡單的方法是嘗試統(tǒng)計方法,這是很久以前開發(fā)出來的。其中最流行的一種方法被稱為離群值檢測Tukey方法(或四分位數(shù)距離IQR) 。

它的本質(zhì)是計算百分位數(shù)和四分位數(shù)之間的范圍。位于Q1-1.5 * IQR之前和Q3 + 1.5 * IQR之后的數(shù)據(jù)點被認(rèn)為是異常值。下面你可以看到一個使用人的身高數(shù)據(jù)集的例子。高度低于54.95英寸(139厘米)和高于77.75英寸(197厘米)被認(rèn)為是異常值。

這種和其他統(tǒng)計方法(用于檢測異常值的 z-score 方法等)通常用于數(shù)據(jù)清理。

聚類和降維算法

另一種簡單、直觀且通常有效的異常檢測方法是使用一些聚類算法(如高斯混合模型和 DBSCAN)來解決密度估計任務(wù)。那么,任何位于低密度區(qū)域的實例都可以被認(rèn)為是異常,我們只需要設(shè)置一些密度閾值。

此外,可以使用任何具有 inverse_transform() 方法的降維算法。這是因為異常的重建誤差總是比正常實例的重建誤差大得多。

孤立森林和 SVM

一些監(jiān)督學(xué)習(xí)算法也可用于異常檢測,其中最流行的兩種是孤立森林和 SVM。這些算法更適合奇異值檢測,但通常也適用于異常檢測。

孤立森林算法構(gòu)建了一個隨機森林,其中每個決策樹都是隨機生長的。每走一步,這片森林就會隔離越來越多的點,直到所有點都變得孤立。由于異常位于遠離通常數(shù)據(jù)點的位置,因此它們通常比正常實例以更少的步驟被孤立。該算法對于高維數(shù)據(jù)表現(xiàn)良好,但需要比 SVM 更大的數(shù)據(jù)集。

SVM(在我們的例子中是一類 SVM)也廣泛用于異常檢測。內(nèi)核化 SVM 可以構(gòu)建一個有效的“限制超平面”,它將正常點與異常點分開。像任何 SVM 修改一樣,它可以很好地處理高維或稀疏數(shù)據(jù),但僅適用于中小型數(shù)據(jù)集。

局部異常因子

局部異常值因子 (LOF) 算法基于異常位于低密度區(qū)域的假設(shè)。它不只是設(shè)置密度閾值(就像我們可以用 DBSCAN 做的那樣),而是將某個點的密度與其最近鄰居的 k 的密度進行比較。如果這個特定點的密度比它的鄰點低得多(這意味著它離它們很遠),它被認(rèn)為是一個異常。

該算法既可用于異常檢測,也可用于奇異值檢測。由于其計算簡單且質(zhì)量好,會被經(jīng)常使用。

最小協(xié)方差行列式

最小協(xié)方差行列式(MCD 或其修改型 Fast-MCD)可用于異常值檢測,尤其是在數(shù)據(jù)清理的時候。它假設(shè)內(nèi)點是從單個高斯分布中生成的,而離群點不是從這個分布中生成的。由于許多數(shù)據(jù)具有正態(tài)分布(或可以簡化為正態(tài)分布),因此該算法通常表現(xiàn)良好。在 sklearn 中EllipticEnvelope類就是它的實現(xiàn)。

如何選擇異常檢測算法?

如果你需要清理數(shù)據(jù)集,你應(yīng)該首先嘗試經(jīng)典的統(tǒng)計方法,比如 Tukey Method for Outlier Detection。如果知道數(shù)據(jù)分布是高斯分布 則可以使用Fast-MCD,。

如果你做異常檢測不是為了數(shù)據(jù)清理,首先試試簡單快速的LOF。如果它不能很好地工作(或者如果你出于某種原因需要分離超平面)——根據(jù)你的任務(wù)和數(shù)據(jù)集嘗試其他算法:

用于稀疏高維數(shù)據(jù)的單類SVM 或用于連續(xù)高維數(shù)據(jù)的孤立森林

如果可以假設(shè)數(shù)據(jù)是由多個高斯分布的混合生成的,可以試試高斯混合模型

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6754

    瀏覽量

    88611
  • 異常檢測
    +關(guān)注

    關(guān)注

    1

    文章

    42

    瀏覽量

    9717
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3058

    瀏覽量

    48570

原文標(biāo)題:10分鐘掌握異常檢測

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    bq2750x系列中的Impedance Track?電池電量監(jiān)測算法的理論及實現(xiàn)

    電子發(fā)燒友網(wǎng)站提供《bq2750x系列中的Impedance Track?電池電量監(jiān)測算法的理論及實現(xiàn).pdf》資料免費下載
    發(fā)表于 08-30 10:21 ?0次下載
    bq2750x系列中的Impedance Track?電池電量監(jiān)<b class='flag-5'>測算法</b>的理論及實現(xiàn)

    旗晟機器人環(huán)境檢測算法有哪些?

    硬件支撐,更離不開強大的算法庫作為軟件核心,二者相輔相成,缺一不可。今天就來了解旗晟機器人環(huán)境檢測算法。 1、設(shè)施異常監(jiān)測 通過集成高精度傳感器與智能圖像識別技術(shù)。它不僅能檢測A字梯是
    的頭像 發(fā)表于 07-19 17:54 ?468次閱讀
    旗晟機器人環(huán)境<b class='flag-5'>檢測算法</b>有哪些?

    opencv圖像識別有什么算法

    圖像識別算法: 邊緣檢測 :邊緣檢測是圖像識別中的基本步驟之一,用于識別圖像中的邊緣。常見的邊緣檢測算法有Canny邊緣檢測器、Sobel邊
    的頭像 發(fā)表于 07-16 10:40 ?578次閱讀

    口罩佩戴檢測算法

    口罩佩戴檢測算法基于YOLOv5在圖像識別檢測領(lǐng)域的優(yōu)異性能,本文研究基于基于YOLOv5的口罩佩自動戴檢測方法。首先從網(wǎng)絡(luò)和真實生活中中尋找并采集不同場景人群口罩佩戴的圖片約500張并自建數(shù)據(jù)集
    的頭像 發(fā)表于 07-01 20:20 ?242次閱讀
    口罩佩戴<b class='flag-5'>檢測算法</b>

    人員跌倒識別檢測算法

    人員跌倒識別檢測算法是基于視頻的檢測方法,通過對目標(biāo)人體監(jiān)測,當(dāng)目標(biāo)人體出現(xiàn)突然倒地行為時,自動監(jiān)測并觸發(fā)報警。人員跌倒識別檢測算法基于計算機識別技術(shù),配合現(xiàn)場攝像頭,自動識別如地鐵手扶梯/樓梯
    的頭像 發(fā)表于 06-30 11:47 ?370次閱讀
    人員跌倒識別<b class='flag-5'>檢測算法</b>

    安全帽佩戴檢測算法

    安全帽佩戴監(jiān)控是鐵路工程施工人員安全管理中的重點和難點,它對檢測算法的準(zhǔn)確 率與檢測速度都有較高的要求。本文提出一種基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的安全帽佩戴檢測算法 NAS-YOLO。該神經(jīng)網(wǎng)絡(luò)架構(gòu)由上
    的頭像 發(fā)表于 06-26 22:22 ?319次閱讀
    安全帽佩戴<b class='flag-5'>檢測算法</b>

    COD檢測儀響應(yīng)水質(zhì)異常的速度?

    方面進行考量和優(yōu)化,以確保及時有效地監(jiān)測水質(zhì)異常情況。   首先,監(jiān)測儀器本身的性能和響應(yīng)速度直接影響其在檢測水質(zhì)異常時的效果。應(yīng)選擇具有快速響應(yīng)能力的COD
    的頭像 發(fā)表于 05-09 16:08 ?218次閱讀

    工業(yè)異常檢測超越特定閾值限制的解決方案

    異常檢測和分割(AD&S)對于工業(yè)質(zhì)量控制至關(guān)重要。雖然現(xiàn)有方法在為每個像素生成異常分?jǐn)?shù)方面表現(xiàn)出色,但實際應(yīng)用需要產(chǎn)生一個二進制分割來識別異常
    發(fā)表于 04-09 10:44 ?463次閱讀
    工業(yè)<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>超越特定閾值限制的解決方案

    基于DiAD擴散模型的多類異常檢測工作

    現(xiàn)有的基于計算機視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴散模型因其強大的生成能力而聞名,因此本文作者希望通過擴散模型將異常區(qū)域重構(gòu)成正常。
    的頭像 發(fā)表于 01-08 14:55 ?1078次閱讀
    基于DiAD擴散模型的多類<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>工作

    基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測方法分享

    鋪設(shè)異常檢測可以幫助減少數(shù)據(jù)存儲、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1327次閱讀
    基于transformer和自監(jiān)督學(xué)習(xí)的路面<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>方法分享

    柔性印刷線路板缺陷檢測方法指南

    現(xiàn)有的FPC缺陷檢測算法多衍生于PCB檢測算法,但受本身獨特性限制,F(xiàn)PC板缺陷要求更高,檢測樣板尺寸更大,樣板成像易變形,使得針對PCB板的缺陷檢測算法不能直接套用FPC板的
    發(fā)表于 11-30 15:29 ?419次閱讀

    一種可靠的峰值和起始點檢測算法

    電子發(fā)燒友網(wǎng)站提供《一種可靠的峰值和起始點檢測算法.pdf》資料免費下載
    發(fā)表于 11-22 10:27 ?0次下載
    一種可靠的峰值和起始點<b class='flag-5'>檢測算法</b>

    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

    最近,大型多模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而,現(xiàn)有的通用 LMM 中缺乏有關(guān)
    的頭像 發(fā)表于 11-21 16:08 ?1505次閱讀
    哈工大提出Myriad:利用視覺專家進行工業(yè)<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>的大型多模態(tài)模型

    FPGA圖像處理之Canny邊緣檢測

    在邊緣檢測算法里面Sobel是比較簡單的一個算法,但是其檢測出來的邊緣往往是比較粗的,效果不是很好,因為我們最理想的邊緣肯定就是一個寬度為1的細線。
    的頭像 發(fā)表于 11-17 09:10 ?1382次閱讀
    FPGA圖像處理之Canny邊緣<b class='flag-5'>檢測</b>

    基于NXP微控制器i.MX RT1170的多人體實時檢測算法和系統(tǒng)

    基于NXP微控制器i.MX RT1170的多人體實時檢測算法和系統(tǒng)
    的頭像 發(fā)表于 10-26 16:27 ?975次閱讀
    基于NXP微控制器i.MX RT1170的多人體實時<b class='flag-5'>檢測算法</b>和系統(tǒng)