国产成人精品综合,亚洲精品午夜国产VA久久成人 ,综合成人网友亚洲偷自拍

object detection我的理解，就是在給定的圖片中精確找到物體所在位置，并標(biāo)注出物體的類別。object detection要解決的問題就是物體在哪里，是什么這整個流程的問題。然而，這個問題可不是那么容易解決的，物體的尺寸變化范圍很大，擺放物體的角度，姿態(tài)不定，而且可以出現(xiàn)在圖片的任何地方，更何況物體還可以是多個類別。

object detection技術(shù)的演進(jìn)：RCNN->SppNET->Fast-RCNN->Faster-RCNN

從圖像識別的任務(wù)說起這里有一個圖像任務(wù)：既要把圖中的物體識別出來，又要用方框框出它的位置。

上面的任務(wù)用專業(yè)的說法就是：圖像識別+定位圖像識別（classification）：輸入：圖片輸出：物體的類別評估方法：準(zhǔn)確率

定位（localization）：輸入：圖片輸出：方框在圖片中的位置（x,y,w,h）評估方法：檢測評價函數(shù) intersection-over-union ( IOU )

卷積神經(jīng)網(wǎng)絡(luò)CNN已經(jīng)幫我們完成了圖像識別（判定是貓還是狗）的任務(wù)了，我們只需要添加一些額外的功能來完成定位任務(wù)即可。

定位的問題的解決思路有哪些？思路一：看做回歸問題看做回歸問題，我們需要預(yù)測出（x,y,w,h）四個參數(shù)的值，從而得出方框的位置。

步驟1:? 先解決簡單問題，搭一個識別圖像的神經(jīng)網(wǎng)絡(luò)? 在AlexNet VGG GoogleLenet上fine-tuning一下

步驟2:? 在上述神經(jīng)網(wǎng)絡(luò)的尾部展開（也就說CNN前面保持不變，我們對CNN的結(jié)尾處作出改進(jìn)：加了兩個頭：“分類頭”和“回歸頭”）? 成為classification + regression模式

步驟3:? Regression那個部分用歐氏距離損失? 使用SGD訓(xùn)練

步驟4:? 預(yù)測階段把2個頭部拼上? 完成不同的功能

這里需要進(jìn)行兩次fine-tuning第一次在ALexNet上做，第二次將頭部改成regression head，前面不變，做一次fine-tuning

Regression的部分加在哪？

有兩種處理方法：? 加在最后一個卷積層后面（如VGG）? 加在最后一個全連接層后面（如R-CNN）

regression太難做了，應(yīng)想方設(shè)法轉(zhuǎn)換為classification問題。regression的訓(xùn)練參數(shù)收斂的時間要長得多，所以上面的網(wǎng)絡(luò)采取了用classification的網(wǎng)絡(luò)來計算出網(wǎng)絡(luò)共同部分的連接權(quán)值。

思路二：取圖像窗口? 還是剛才的classification + regression思路? 咱們?nèi)〔煌拇笮〉摹翱颉? 讓框出現(xiàn)在不同的位置，得出這個框的判定得分? 取得分最高的那個框

左上角的黑框：得分0.5

右上角的黑框：得分0.75

左下角的黑框：得分0.6

右下角的黑框：得分0.8

根據(jù)得分的高低，我們選擇了右下角的黑框作為目標(biāo)位置的預(yù)測。注：有的時候也會選擇得分最高的兩個框，然后取兩框的交集作為最終的位置預(yù)測。

疑惑：框要取多大？取不同的框，依次從左上角掃到右下角。非常粗暴啊。

總結(jié)一下思路：對一張圖片，用各種大小的框（遍歷整張圖片）將圖片截取出來，輸入到CNN，然后CNN會輸出這個框的得分（classification）以及這個框圖片對應(yīng)的x,y,h,w（regression）。

這方法實在太耗時間了，做個優(yōu)化。原來網(wǎng)絡(luò)是這樣的：

優(yōu)化成這樣：把全連接層改為卷積層，這樣可以提提速。

物體檢測（Object Detection）當(dāng)圖像有很多物體怎么辦的？難度可是一下暴增啊。

那任務(wù)就變成了：多物體識別+定位多個物體那把這個任務(wù)看做分類問題？

看成分類問題有何不妥？? 你需要找很多位置，給很多個不同大小的框? 你還需要對框內(nèi)的圖像分類? 當(dāng)然，如果你的GPU很強(qiáng)大，恩，那加油做吧…

看做classification，有沒有辦法優(yōu)化下？我可不想試那么多框那么多位置啊！有人想到一個好方法：找出可能含有物體的框（也就是候選框，比如選1000個候選框），這些框之間是可以互相重疊互相包含的，這樣我們就可以避免暴力枚舉的所有框了。

大牛們發(fā)明好多選定候選框的方法，比如EdgeBoxes和Selective Search。以下是各種選定候選框的方法的性能對比。

有一個很大的疑惑，提取候選框用到的算法“選擇性搜索”到底怎么選出這些候選框的呢？那個就得好好看看它的論文了，這里就不介紹了。

R-CNN橫空出世

基于以上的思路，RCNN的出現(xiàn)了。

步驟一：訓(xùn)練（或者下載）一個分類模型（比如AlexNet）

步驟二：對該模型做fine-tuning? 將分類數(shù)從1000改為20? 去掉最后一個全連接層

步驟三：特征提取? 提取圖像的所有候選框（選擇性搜索）? 對于每一個區(qū)域：修正區(qū)域大小以適合CNN的輸入，做一次前向運算，將第五個池化層的輸出（就是對候選框提取到的特征）存到硬盤

步驟四：訓(xùn)練一個SVM分類器（二分類）來判斷這個候選框里物體的類別每個類別對應(yīng)一個SVM，判斷是不是屬于這個類別，是就是positive，反之nagative比如下圖，就是狗分類的SVM

步驟五：使用回歸器精細(xì)修正候選框位置：對于每一個類，訓(xùn)練一個線性回歸模型去判定這個框是否框得完美。

RCNN的進(jìn)化中SPP Net的思想對其貢獻(xiàn)很大，這里也簡單介紹一下SPP Net。

SPP NetSPP：Spatial Pyramid Pooling（空間金字塔池化）它的特點有兩個:

1.結(jié)合空間金字塔方法實現(xiàn)CNNs的對尺度輸入。一般CNN后接全連接層或者分類器，他們都需要固定的輸入尺寸，因此不得不對輸入數(shù)據(jù)進(jìn)行crop或者warp，這些預(yù)處理會造成數(shù)據(jù)的丟失或幾何的失真。SPP Net的第一個貢獻(xiàn)就是將金字塔思想加入到CNN，實現(xiàn)了數(shù)據(jù)的多尺度輸入。

如下圖所示，在卷積層和全連接層之間加入了SPP layer。此時網(wǎng)絡(luò)的輸入可以是任意尺度的，在SPP layer中每一個pooling的filter會根據(jù)輸入調(diào)整大小，而SPP的輸出尺度始終是固定的。

2.只對原圖提取一次卷積特征

在R-CNN中，每個候選框先resize到統(tǒng)一大小，然后分別作為CNN的輸入，這樣是很低效的。所以SPP Net根據(jù)這個缺點做了優(yōu)化：只對原圖進(jìn)行一次卷積得到整張圖的feature map，然后找到每個候選框zaifeature map上的映射patch，將此patch作為每個候選框的卷積特征輸入到SPP layer和之后的層。節(jié)省了大量的計算時間，比R-CNN有一百倍左右的提速。

Fast R-CNNSPP Net真是個好方法，R-CNN的進(jìn)階版Fast R-CNN就是在RCNN的基礎(chǔ)上采納了SPP Net方法，對RCNN作了改進(jìn)，使得性能進(jìn)一步提高。

R-CNN與Fast RCNN的區(qū)別有哪些呢？先說RCNN的缺點：即使使用了selective search等預(yù)處理步驟來提取潛在的bounding box作為輸入，但是RCNN仍會有嚴(yán)重的速度瓶頸，原因也很明顯，就是計算機(jī)對所有region進(jìn)行特征提取時會有重復(fù)計算，F(xiàn)ast-RCNN正是為了解決這個問題誕生的。

大牛提出了一個可以看做單層sppnet的網(wǎng)絡(luò)層，叫做ROI Pooling，這個網(wǎng)絡(luò)層可以把不同大小的輸入映射到一個固定尺度的特征向量，而我們知道，conv、pooling、relu等操作都不需要固定size的輸入，因此，在原始圖片上執(zhí)行這些操作后，雖然輸入圖片size不同導(dǎo)致得到的feature map尺寸也不同，不能直接接到一個全連接層進(jìn)行分類，但是可以加入這個神奇的ROI Pooling層，對每個region都提取一個固定維度的特征表示，再通過正常的softmax進(jìn)行類型識別。另外，之前RCNN的處理流程是先提proposal，然后CNN提取特征，之后用SVM分類器，最后再做bbox regression，而在Fast-RCNN中，作者巧妙的把bbox regression放進(jìn)了神經(jīng)網(wǎng)絡(luò)內(nèi)部，與region分類和并成為了一個multi-task模型，實際實驗也證明，這兩個任務(wù)能夠共享卷積特征，并相互促進(jìn)。Fast-RCNN很重要的一個貢獻(xiàn)是成功的讓人們看到了Region Proposal+CNN這一框架實時檢測的希望，原來多類檢測真的可以在保證準(zhǔn)確率的同時提升處理速度，也為后來的Faster-RCNN做下了鋪墊。

畫一畫重點：R-CNN有一些相當(dāng)大的缺點（把這些缺點都改掉了，就成了Fast R-CNN）。大缺點：由于每一個候選框都要獨自經(jīng)過CNN，這使得花費的時間非常多。解決：共享卷積層，現(xiàn)在不是每一個候選框都當(dāng)做輸入進(jìn)入CNN了，而是輸入一張完整的圖片，在第五個卷積層再得到每個候選框的特征

原來的方法：許多候選框（比如兩千個）-->CNN-->得到每個候選框的特征-->分類+回歸現(xiàn)在的方法：一張完整圖片-->CNN-->得到每張候選框的特征-->分類+回歸

所以容易看見，F(xiàn)ast RCNN相對于RCNN的提速原因就在于：不過不像RCNN把每個候選區(qū)域給深度網(wǎng)絡(luò)提特征，而是整張圖提一次特征，再把候選框映射到conv5上，而SPP只需要計算一次特征，剩下的只需要在conv5層上操作就可以了。

在性能上提升也是相當(dāng)明顯的：

Faster R-CNNFast R-CNN存在的問題：存在瓶頸：選擇性搜索，找出所有的候選框，這個也非常耗時。那我們能不能找出一個更加高效的方法來求出這些候選框呢？解決：加入一個提取邊緣的神經(jīng)網(wǎng)絡(luò)，也就說找到候選框的工作也交給神經(jīng)網(wǎng)絡(luò)來做了。做這樣的任務(wù)的神經(jīng)網(wǎng)絡(luò)叫做Region Proposal Network(RPN)。

具體做法：? 將RPN放在最后一個卷積層的后面? RPN直接訓(xùn)練得到候選區(qū)域

RPN簡介：? 在feature map上滑動窗口? 建一個神經(jīng)網(wǎng)絡(luò)用于物體分類+框位置的回歸? 滑動窗口的位置提供了物體的大體位置信息? 框的回歸提供了框更精確的位置

一種網(wǎng)絡(luò)，四個損失函數(shù);? RPN calssification(anchor good.bad)? RPN regression(anchor->propoasal)? Fast R-CNN classification(over classes)? Fast R-CNN regression(proposal ->box)

速度對比

Faster R-CNN的主要貢獻(xiàn)是設(shè)計了提取候選區(qū)域的網(wǎng)絡(luò)RPN，代替了費時的選擇性搜索，使得檢測速度大幅提高。

最后總結(jié)一下各大算法的步驟：RCNN1. 在圖像中確定約1000-2000個候選框 (使用選擇性搜索)2. 每個候選框內(nèi)圖像塊縮放至相同大小，并輸入到CNN內(nèi)進(jìn)行特征提取3. 對候選框中提取出的特征，使用分類器判別是否屬于一個特定類4. 對于屬于某一特征的候選框，用回歸器進(jìn)一步調(diào)整其位置

Fast RCNN1. 在圖像中確定約1000-2000個候選框 (使用選擇性搜索)2. 對整張圖片輸進(jìn)CNN，得到feature map3. 找到每個候選框在feature map上的映射patch，將此patch作為每個候選框的卷積特征輸入到SPP layer和之后的層4. 對候選框中提取出的特征，使用分類器判別是否屬于一個特定類5. 對于屬于某一特征的候選框，用回歸器進(jìn)一步調(diào)整其位置

Faster RCNN1. 對整張圖片輸進(jìn)CNN，得到feature map2. 卷積特征輸入到RPN，得到候選框的特征信息3. 對候選框中提取出的特征，使用分類器判別是否屬于一個特定類4. 對于屬于某一特征的候選框，用回歸器進(jìn)一步調(diào)整其位置

總的來說，從R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走來，基于深度學(xué)習(xí)目標(biāo)檢測的流程變得越來越精簡，精度越來越高，速度也越來越快。可以說基于region proposal的R-CNN系列目標(biāo)檢測方法是當(dāng)前目標(biāo)檢測技術(shù)領(lǐng)域最主要的一個分支。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

目標(biāo)檢測

目標(biāo)檢測

+關(guān)注

關(guān)注
0

文章
197

瀏覽量
15576
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5442

瀏覽量
120798
cnn

cnn

+關(guān)注

關(guān)注
3

文章
350

瀏覽量
22102

原文標(biāo)題：深度學(xué)習(xí)的目標(biāo)檢測技術(shù)演進(jìn)：R-CNN、Fast R-CNN、Faster R-CNN

文章出處：【微信號：Imgtec，微信公眾號：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于深度學(xué)習(xí)的目標(biāo)檢測算法解析

本節(jié)主要將近年來基于候選區(qū)域的目標(biāo)檢測算法分為五個部分進(jìn)行綜述，首先介紹了Faster R-CNN[14]框架的發(fā)展歷程，然后綜述了對Faster

發(fā)表于 01-09 10:52 ?1079次閱讀

手把手教你使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割（含源碼）

使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割

發(fā)表于 03-21 13:39 ?2136次閱讀

深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）在圖像分類和識別上取得了很顯著的提高。回顧從2014到2016這兩年多的時間，先后涌現(xiàn)出了R-CNN，F(xiàn)ast R-CN

發(fā)表于 11-16 01:41 ?5178次閱讀

介紹目標(biāo)檢測工具Faster R-CNN，包括它的構(gòu)造及實現(xiàn)原理

在本篇文章中，公司的研究人員介紹了他們在研究過程中所使用的先進(jìn)目標(biāo)檢測工具Faster R-CNN，包括它的構(gòu)造及實現(xiàn)原理。

發(fā)表于 01-27 11:49 ?1.8w次閱讀

Mask R-CNN：自動從視頻中制作目標(biāo)物體的GIF動圖

用深度學(xué)習(xí)模型——Mask R-CNN，自動從視頻中制作目標(biāo)物體的GIF動圖。

發(fā)表于 02-03 14:19 ?1.1w次閱讀

什么是Mask R-CNN？Mask R-CNN的工作原理

它的概念很簡單：對于每個目標(biāo)對象，F(xiàn)aster R-CNN都有兩個輸出，一是分類標(biāo)簽，二是候選窗口；為了分割目標(biāo)像素，我們可以在前兩個輸出的基礎(chǔ)上增加第三個輸出——指示對象在窗口中像素位置的二進(jìn)制

發(fā)表于 07-20 08:53 ?6.8w次閱讀

手把手教你操作Faster R-CNN和Mask R-CNN

R-CNN又承繼于R-CNN，因此，為了能讓大家更好的理解基于CNN的目標(biāo)檢測方法，我們從

發(fā)表于 04-04 16:32 ?1.3w次閱讀

一種新的帶有不確定性的邊界框回歸損失，可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位

目標(biāo)檢測是一種多任務(wù)學(xué)習(xí)問題，包含目標(biāo)定位和目標(biāo)分類。當(dāng)前最佳的目標(biāo)

發(fā)表于 04-23 16:38 ?6385次閱讀

基于改進(jìn)Faster R-CNN的目標(biāo)檢測方法

為提高小尺度行人檢測的準(zhǔn)確性，提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測方法。通過引入基于雙線性插值的對齊池化層，避免感興趣區(qū)域池化過程中兩次量化操作導(dǎo)致的位置偏差，同時設(shè)計

發(fā)表于 03-23 14:52 ?3次下載

基于Mask R-CNN的遙感圖像處理技術(shù)綜述

遙感技術(shù)的發(fā)展使得遙感影像被應(yīng)用于農(nóng)業(yè)、軍事等諸多領(lǐng)域，而深度學(xué)習(xí)方法的融入使得該項技術(shù)在目標(biāo)檢測

發(fā)表于 05-08 16:39 ?3次下載

用于實例分割的Mask R-CNN框架

是應(yīng)用于每個 RoI 的小型 FCN，以像素到像素的方式預(yù)測分割掩碼。鑒于 Faster R-CNN 框架，Mask R-CNN 易于實現(xiàn)和訓(xùn)練，這有助于廣泛的靈活架構(gòu)設(shè)計。此外，掩碼分支僅增加了少量

發(fā)表于 04-13 10:40 ?2547次閱讀

深度學(xué)習(xí)在目標(biāo)檢測中的應(yīng)用

R-CNN 算法在 2014 年提出，可以說是歷史性的算法，將深度學(xué)習(xí)應(yīng)用于目標(biāo)

發(fā)表于 10-31 10:08 ?1632次閱讀

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

本文將討論目標(biāo)檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN)，并嘗試?yán)斫饷總€模型的

發(fā)表于 01-05 16:27 ?366次閱讀

PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費下載

發(fā)表于 06-05 11:09 ?0次下載

PyTorch教程-14.8?；趨^(qū)域的 CNN (R-CNN)

Studio 實驗室在 SageMaker Studio Lab 中打開筆記本除了第 14.7 節(jié)中描述的單次多框檢測之外，基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN

發(fā)表于 06-05 15:44 ?595次閱讀