0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何畫roc曲線?為什么使用Roc和Auc評價分類器?

Dbwd_Imgtec ? 來源:未知 ? 作者:李倩 ? 2018-08-22 14:47 ? 次閱讀

一、roc曲線

1、roc曲線:接收者操作特征(receiveroperating characteristic),roc曲線上每個點反映著對同一信號刺激的感受性。

橫軸:負正類率(false postive rate FPR)特異度,劃分實例中所有負例占所有負例的比例;(1-Specificity)

縱軸:真正類率(true postive rate TPR)靈敏度,Sensitivity(正類覆蓋率)

2、針對一個二分類問題,將實例分成正類(postive)或者負類(negative)。但是實際中分類時,會出現(xiàn)四種情況.

(1)若一個實例是正類并且被預測為正類,即為真正類(True Postive TP)

(2)若一個實例是正類,但是被預測成為負類,即為假負類(False Negative FN)

(3)若一個實例是負類,但是被預測成為正類,即為假正類(False Postive FP)

(4)若一個實例是負類,但是被預測成為負類,即為真負類(True Negative TN)

TP:正確的肯定數(shù)目

FN:漏報,沒有找到正確匹配的數(shù)目

FP:誤報,沒有的匹配不正確

TN:正確拒絕的非匹配數(shù)目

列聯(lián)表如下,1代表正類,0代表負類:

由上表可得出橫,縱軸的計算公式:

(1)真正類率(True Postive Rate)TPR:TP/(TP+FN),代表分類器預測的正類中實際正實例占所有正實例的比例。Sensitivity

(2)負正類率(False Postive Rate)FPR:FP/(FP+TN),代表分類器預測的正類中實際負實例占所有負實例的比例。1-Specificity

(3)真負類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預測的負類中實際負實例占所有負實例的比例,TNR=1-FPR。Specificity

假設采用邏輯回歸分類器,其給出針對每個實例為正類的概率,那么通過設定一個閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應坐標點。隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應坐標點為(0,0),閾值最小時,對應坐標點(1,1)。

如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應一個閾值。

橫軸FPR:1-TNR,1-Specificity,F(xiàn)PR越大,預測正類中實際負類越多。

縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預測正類中實際正類越多。

理想目標:TPR=1,F(xiàn)PR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好。

二、如何畫roc曲線

假設已經(jīng)得出一系列樣本被劃分為正類的概率,然后按照大小排序,下圖是一個示例,圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率。

接下來,我們從高到低,依次將“Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。舉例來說,對于圖中的第4個樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認為是正樣本,因為它們的“Score”值都大于等于0.6,而其他樣本則都認為是負樣本。每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結果如下圖:

AUC(Area under Curve):Roc曲線下的面積,介于0.1和1之間。Auc作為數(shù)值可以直觀的評價分類器的好壞,值越大越好。

首先AUC值是一個概率值,當你隨機挑選一個正樣本以及負樣本,當前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。

三、為什么使用Roc和Auc評價分類器

既然已經(jīng)這么多標準,為什么還要使用ROC和AUC呢?因為ROC曲線有個很好的特性:當測試集中的正負樣本的分布變換的時候,ROC曲線能夠保持不變。在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)樣本類不平衡,即正負樣本比例差距較大,而且測試數(shù)據(jù)中的正負樣本也可能隨著時間變化。下圖是ROC曲線和Presision-Recall曲線的對比:

在上圖中,(a)和(c)為Roc曲線,(b)和(d)為Precision-Recall曲線。

(a)和(b)展示的是分類其在原始測試集(正負樣本分布平衡)的結果,(c)(d)是將測試集中負樣本的數(shù)量增加到原來的10倍后,分類器的結果,可以明顯的看出,ROC曲線基本保持原貌,而Precision-Recall曲線變化較大。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13159
  • 機器學習
    +關注

    關注

    66

    文章

    8320

    瀏覽量

    132165
  • 數(shù)據(jù)集

    關注

    4

    文章

    1197

    瀏覽量

    24590

原文標題:機器學習之分類器性能指標之ROC曲線、AUC值

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ROC曲線AUC值有何關系

    什么是ROC曲線ROC曲線有何功能?ROC曲線AUC
    發(fā)表于 08-23 06:59

    LSI推出6Gb/s SAS RoC芯片

    LSI推出6Gb/s SAS RoC芯片 LSI 公司 宣布向 OEM 客戶提供 LSISAS2208 雙核 6Gb/s SAS 片上 RAID (RoC) IC 樣片。高性能 LSI SAS RoC 旨在支持 PCI-SIG
    發(fā)表于 12-19 09:25 ?719次閱讀

    MATLAB的ROC曲線繪制比較研究

    基于非計算機專業(yè)人員的計算機應用能力稍差,而又要經(jīng)常使用受試者工作特征(ROC曲線作為判斷的評價方法,介紹了ROC曲線的概念、原理和優(yōu)點,
    發(fā)表于 01-17 15:44 ?35次下載

    ROC RK3568 PC固件Buildroot

    電子發(fā)燒友網(wǎng)站提供《ROC RK3568 PC固件Buildroot.txt》資料免費下載
    發(fā)表于 09-20 09:52 ?8次下載
    <b class='flag-5'>ROC</b> RK3568 PC固件Buildroot

    ROC RK3568 PC固件Debian

    電子發(fā)燒友網(wǎng)站提供《ROC RK3568 PC固件Debian.txt》資料免費下載
    發(fā)表于 09-20 09:51 ?8次下載
    <b class='flag-5'>ROC</b> RK3568 PC固件Debian

    ROC RK3566 PC固件Buildroot

    電子發(fā)燒友網(wǎng)站提供《ROC RK3566 PC固件Buildroot.txt》資料免費下載
    發(fā)表于 09-21 14:55 ?8次下載
    <b class='flag-5'>ROC</b> RK3566 PC固件Buildroot

    ROC RK3566 PC固件Debian

    電子發(fā)燒友網(wǎng)站提供《ROC RK3566 PC固件Debian.txt》資料免費下載
    發(fā)表于 09-21 14:54 ?10次下載
    <b class='flag-5'>ROC</b> RK3566 PC固件Debian

    ROC RK3566 PC固件OpenWRT

    電子發(fā)燒友網(wǎng)站提供《ROC RK3566 PC固件OpenWRT.txt》資料免費下載
    發(fā)表于 09-21 14:51 ?20次下載
    <b class='flag-5'>ROC</b> RK3566 PC固件OpenWRT

    ROC RK3566 PC固件Ubuntu

    電子發(fā)燒友網(wǎng)站提供《ROC RK3566 PC固件Ubuntu.txt》資料免費下載
    發(fā)表于 09-21 14:50 ?10次下載
    <b class='flag-5'>ROC</b> RK3566 PC固件Ubuntu

    ROC RK3566 PC結構圖紙

    電子發(fā)燒友網(wǎng)站提供《ROC RK3566 PC結構圖紙.zip》資料免費下載
    發(fā)表于 09-21 14:48 ?22次下載
    <b class='flag-5'>ROC</b> RK3566 PC結構圖紙

    為什么使用ROC曲線?

    對于樣本數(shù)據(jù),我們使用分類對其進行分類分類會給出每個數(shù)據(jù)為正例的概率。我們可以針對此來設定一個閾值,當某個樣本被預測為正例的概率大于這
    的頭像 發(fā)表于 12-15 15:34 ?1398次閱讀

    面積曲線AUC(area under curve)

    首先介紹 ROCROC 分析是從醫(yī)療分析領域引入了一種新的分類模型 performance 評判方法。
    的頭像 發(fā)表于 01-12 10:36 ?1513次閱讀
    面積<b class='flag-5'>曲線</b><b class='flag-5'>AUC</b>(area under curve)

    支持向量機(系統(tǒng)識別的性能度量之ROC曲線

    ROC曲線的英文名稱為Receiver Operating Characteristic Curve,中文譯為受試者工作特征曲線
    的頭像 發(fā)表于 06-26 16:12 ?1215次閱讀
    支持向量機(系統(tǒng)識別的性能度量之<b class='flag-5'>ROC</b><b class='flag-5'>曲線</b>)

    SAS3908 Tri-Mode ROC產品介紹

    電子發(fā)燒友網(wǎng)站提供《SAS3908 Tri-Mode ROC產品介紹.pdf》資料免費下載
    發(fā)表于 08-22 14:44 ?0次下載
    SAS3908 Tri-Mode <b class='flag-5'>ROC</b>產品介紹

    SAS3516 Tri-Mode ROC產品介紹

    電子發(fā)燒友網(wǎng)站提供《SAS3516 Tri-Mode ROC產品介紹.pdf》資料免費下載
    發(fā)表于 08-23 10:54 ?0次下載
    SAS3516 Tri-Mode <b class='flag-5'>ROC</b>產品介紹