精品无码AV人在线观看,一级无码激情在线看,做暖免费观看日本

論文鏈接：https://arxiv.org/ftp/arxiv/papers/1910/1910.13796.pdf

深度學(xué)習(xí)擴(kuò)展了數(shù)字圖像處理的邊界。然而，這并不代表在深度學(xué)習(xí)崛起之前不斷發(fā)展進(jìn)步的傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)被淘汰。近期，來(lái)自愛(ài)爾蘭垂利理工學(xué)院的研究者發(fā)表論文，分析了這兩種方法的優(yōu)缺點(diǎn)。 該論文旨在促進(jìn)人們對(duì)是否保留經(jīng)典計(jì)算機(jī)視覺(jué)技術(shù)知識(shí)進(jìn)行討論。此外，這篇論文還探討了如何結(jié)合傳統(tǒng)計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)。文中提及了多個(gè)近期混合方法，這些方法既提升了計(jì)算機(jī)視覺(jué)性能，又解決了不適合深度學(xué)習(xí)的問(wèn)題。例如，將傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)與深度學(xué)習(xí)結(jié)合已經(jīng)在很多新興領(lǐng)域流行起來(lái)，如深度學(xué)習(xí)模型尚未得到充分優(yōu)化的全視野、3D 視覺(jué)領(lǐng)域。

深度學(xué)習(xí) VS 傳統(tǒng)計(jì)算機(jī)視覺(jué)

深度學(xué)習(xí)的優(yōu)勢(shì) 深度學(xué)習(xí)的快速發(fā)展和設(shè)備能力的改善（如算力、內(nèi)存容量、能耗、圖像傳感器分辨率和光學(xué)器件）提升了視覺(jué)應(yīng)用的性能和成本效益，并進(jìn)一步加快了此類(lèi)應(yīng)用的擴(kuò)展。與傳統(tǒng) CV 技術(shù)相比，深度學(xué)習(xí)可以幫助 CV 工程師在圖像分類(lèi)、語(yǔ)義分割、目標(biāo)檢測(cè)和同步定位與地圖構(gòu)建（SLAM）等任務(wù)上獲得更高的準(zhǔn)確率。由于深度學(xué)習(xí)所用的神經(jīng)網(wǎng)絡(luò)是訓(xùn)練得到而非編程得到，因此使用該方法的應(yīng)用所需的專(zhuān)家分析和微調(diào)較少，且能夠處理目前系統(tǒng)中的海量可用視頻數(shù)據(jù)。深度學(xué)習(xí)還具備絕佳的靈活性，因?yàn)閷?duì)于任意用例，CNN 模型和框架均可使用自定義數(shù)據(jù)集重新訓(xùn)練，這與 CV 算法不同，后者具備更強(qiáng)的領(lǐng)域特定性。

以移動(dòng)機(jī)器人的目標(biāo)檢測(cè)問(wèn)題為例，對(duì)比這兩類(lèi)計(jì)算機(jī)視覺(jué)算法：傳統(tǒng)計(jì)算機(jī)視覺(jué)方法使用成熟的 CV 技術(shù)處理目標(biāo)檢測(cè)問(wèn)題，如特征描述子（SIFT、SUR、BRIEF 等）。在深度學(xué)習(xí)興起前，圖像分類(lèi)等任務(wù)需要用到特征提取步驟，特征即圖像中「有趣」、描述性或信息性的小圖像塊。這一步可能涉及多種 CV 算法，如邊緣檢測(cè)、角點(diǎn)檢測(cè)或閾值分割算法。從圖像中提取出足夠多的特征后，這些特征可形成每個(gè)目標(biāo)類(lèi)別的定義（即「詞袋」）。部署階段中，在其他圖像中搜索這些定義。如果在一張圖像中找到了另一張圖像詞袋中的絕大多數(shù)特征，則該圖像也包含同樣的目標(biāo)（如椅子、馬等）。

傳統(tǒng) CV 方法的缺陷是：從每張圖像中選擇重要特征是必要步驟。而隨著類(lèi)別數(shù)量的增加，特征提取變得越來(lái)越麻煩。要確定哪些特征最能描述不同的目標(biāo)類(lèi)別，取決于 CV 工程師的判斷和長(zhǎng)期試錯(cuò)。此外，每個(gè)特征定義還需要處理大量參數(shù)，所有參數(shù)必須由 CV 工程師進(jìn)行調(diào)整。深度學(xué)習(xí)引入了端到端學(xué)習(xí)的概念，即向機(jī)器提供的圖像數(shù)據(jù)集中的每張圖像均已標(biāo)注目標(biāo)類(lèi)別。因而深度學(xué)習(xí)模型基于給定數(shù)據(jù)「訓(xùn)練」得到，其中神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)圖像類(lèi)別中的底層模式，并自動(dòng)提取出對(duì)于目標(biāo)類(lèi)別最具描述性和最顯著的特征。人們普遍認(rèn)為 DNN 的性能大大超過(guò)傳統(tǒng)算法，雖然前者在計(jì)算要求和訓(xùn)練時(shí)間方面有所取舍。隨著 CV 領(lǐng)域中最優(yōu)秀的方法紛紛使用深度學(xué)習(xí)，CV 工程師的工作流程出現(xiàn)巨大改變，手動(dòng)提取特征所需的知識(shí)和專(zhuān)業(yè)技能被使用深度學(xué)習(xí)架構(gòu)進(jìn)行迭代所需的知識(shí)和專(zhuān)業(yè)技能取代（見(jiàn)圖 1）。

圖 1：a）傳統(tǒng)計(jì)算機(jī)視覺(jué)工作流 vs b）深度學(xué)習(xí)工作流。（圖源：[8]） ? 近年來(lái)，CNN 的發(fā)展對(duì) CV 領(lǐng)域產(chǎn)生了巨大影響，也使得目標(biāo)識(shí)別能力出現(xiàn)大幅提升。這種爆發(fā)與算力的提升、訓(xùn)練數(shù)據(jù)量的增加密不可分。近期 CV 領(lǐng)域中深度神經(jīng)網(wǎng)絡(luò)架構(gòu)出現(xiàn)井噴并得到廣泛應(yīng)用，這從論文《ImageNet Classification with Deep Convolutional Neural Networks》引用量超 3000 次中可見(jiàn)一斑。
CNN 利用卷積核（又稱濾波器）來(lái)檢測(cè)圖像中的特征（如邊）。卷積核是權(quán)重矩陣，這些權(quán)重被訓(xùn)練用于檢測(cè)特定特征。如名字所示，CNN 的主要思想是在給定輸入圖像上空間性地卷積內(nèi)核，檢查是否出現(xiàn)檢測(cè)所需特征。為了用數(shù)值表示出現(xiàn)某個(gè)特征的置信度，神經(jīng)網(wǎng)絡(luò)執(zhí)行卷積操作，即計(jì)算卷積核與它和輸入圖像重疊區(qū)域的點(diǎn)積（卷積核正在查看的原始圖像區(qū)域叫做感受野）。
為了促進(jìn)卷積核權(quán)重的學(xué)習(xí)，研究人員向卷積層的輸出添加偏置項(xiàng)，并饋入非線性激活函數(shù)中。激活函數(shù)通常是非線性函數(shù)，如 Sigmoid、TanH 和 ReLU。激活函數(shù)的選擇取決于數(shù)據(jù)和分類(lèi)任務(wù)的性質(zhì)。例如，ReLU 具備更多生物表征（大腦中的神經(jīng)元是否處于激活狀態(tài)）。因此，在圖像識(shí)別任務(wù)中，ReLU 會(huì)得到更好的結(jié)果，因?yàn)樗鼘?duì)梯度消失問(wèn)題具備更強(qiáng)的抵抗力，而且它能夠輸出更稀疏、高效的表征。
為了加速訓(xùn)練過(guò)程，減少網(wǎng)絡(luò)消耗的內(nèi)存量，卷積層后通常跟著一個(gè)池化層，用于移除輸入特征中的冗余部分。例如，最大池化在輸入上移動(dòng)窗口，僅輸出窗口中的最大值，從而高效減少圖像中的冗余部分，留下重要像素。如圖 2 所示，深度 CNN 可能具備多對(duì)卷積和池化層。最后，全連接層將上一層壓縮為特征向量，然后輸出層利用密集網(wǎng)絡(luò)計(jì)算輸出類(lèi)別/特征的分?jǐn)?shù)（置信度或概率）。將該輸出輸入到回歸函數(shù)中，如 Softmax 函數(shù)，它將所有事物映射為向量且其中所有元素的總和為 1。
圖 2：CNN 構(gòu)造塊。（圖源：[13]） ? 但是深度學(xué)習(xí)仍然只是 CV 領(lǐng)域的工具。例如，CV 領(lǐng)域中最常用的神經(jīng)網(wǎng)絡(luò)是 CNN。那么什么是卷積呢？卷積廣泛應(yīng)用于圖像處理技術(shù)。（深度學(xué)習(xí)的優(yōu)點(diǎn)很明確，本文暫不討論當(dāng)前最優(yōu)算法。）但深度學(xué)習(xí)并非解決所有問(wèn)題的萬(wàn)靈藥，下文將介紹傳統(tǒng) CV 算法更適合的問(wèn)題及應(yīng)用。

傳統(tǒng) CV 技術(shù)的優(yōu)勢(shì)

這部分將詳細(xì)介紹基于特征的傳統(tǒng)方法在 CV 任務(wù)中能夠有效提升性能的原因。這些傳統(tǒng)方法包括：

尺度不變特征變換（Scale Invariant Feature Transform，SIFT）[14]

加速穩(wěn)健特征（Speeded Up Robust Feature，SURF）[15]

基于加速分割測(cè)試的特征（Features from Accelerated Segment Test，F(xiàn)AST）[16]

霍夫變換（Hough transform）[17]

幾何哈希（Geometric hashing）[18]

特征描述子（如 SIFT 和 SURF）通常與傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)算法（如支持向量機(jī)和 K 最近鄰算法）結(jié)合使用，來(lái)解決 CV 問(wèn)題。
深度學(xué)習(xí)有時(shí)會(huì)「過(guò)猶不及」，傳統(tǒng) CV 技術(shù)通常能夠更高效地解決問(wèn)題，所用的代碼行數(shù)也比深度學(xué)習(xí)少。SIFT，甚至簡(jiǎn)單的色彩閾值和像素計(jì)數(shù)等算法，都不是特定于某個(gè)類(lèi)別的，它們是通用算法，可對(duì)任意圖像執(zhí)行同樣的操作。與之相反，深度神經(jīng)網(wǎng)絡(luò)學(xué)得的特征是特定于訓(xùn)練數(shù)據(jù)的。也就是說(shuō)，如果訓(xùn)練數(shù)據(jù)集的構(gòu)建出現(xiàn)問(wèn)題，則網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)集以外的圖像處理效果不好。
因此，SIFT 等算法通常用于圖像拼接/3D 網(wǎng)格重建等應(yīng)用，這些應(yīng)用不需要特定類(lèi)別知識(shí)。這些任務(wù)也可以通過(guò)訓(xùn)練大型數(shù)據(jù)集來(lái)實(shí)現(xiàn)，但是這需要巨大的研究努力，為一個(gè)封閉應(yīng)用費(fèi)這么大勁并不實(shí)際。在面對(duì)一個(gè) CV 應(yīng)用時(shí)，工程師需要培養(yǎng)選擇哪種解決方案的常識(shí)。例如，對(duì)流水線傳送帶上的兩類(lèi)產(chǎn)品進(jìn)行分類(lèi)，一類(lèi)是紅色一類(lèi)是藍(lán)色。深度神經(jīng)網(wǎng)絡(luò)需要首先收集充足的訓(xùn)練數(shù)據(jù)。然而，使用簡(jiǎn)單的色彩閾值方法也能達(dá)到同樣的效果。一些問(wèn)題可以使用更簡(jiǎn)單、快速的技術(shù)來(lái)解決。
如果 DNN 對(duì)訓(xùn)練數(shù)據(jù)以外的數(shù)據(jù)效果不好，怎么辦？在訓(xùn)練數(shù)據(jù)集有限的情況下，神經(jīng)網(wǎng)絡(luò)可能出現(xiàn)過(guò)擬合，無(wú)法進(jìn)行有效泛化。手動(dòng)調(diào)參是非常困難的事情，因?yàn)?DNN 擁有數(shù)百萬(wàn)參數(shù)，且它們之間的關(guān)系錯(cuò)綜復(fù)雜。也因此，深度學(xué)習(xí)模型被批評(píng)為黑箱。傳統(tǒng)的 CV 技術(shù)具備充分的透明性，人們可以判斷解決方案能否在訓(xùn)練環(huán)境外有效運(yùn)轉(zhuǎn)。CV 工程師了解其算法可以遷移至的問(wèn)題，這樣一旦什么地方出錯(cuò)，他們可以執(zhí)行調(diào)參，使算法能夠有效處理大量圖像。
現(xiàn)在，傳統(tǒng) CV 技術(shù)常用于解決簡(jiǎn)單問(wèn)題，這樣它們可在低成本微處理器上部署，或者通過(guò)突出數(shù)據(jù)中的特定特征、增強(qiáng)數(shù)據(jù)或者輔助數(shù)據(jù)集標(biāo)注，來(lái)限定深度學(xué)習(xí)技術(shù)能解決的問(wèn)題。本文稍后將討論，在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可使用多少種圖像變換技術(shù)。最后，CV 領(lǐng)域存在很多更具挑戰(zhàn)性的難題，比如機(jī)器人學(xué)、增強(qiáng)現(xiàn)實(shí)、自動(dòng)全景拼接、虛擬現(xiàn)實(shí)、3D 建模、運(yùn)動(dòng)估計(jì)、視頻穩(wěn)定、運(yùn)動(dòng)捕捉、視頻處理和場(chǎng)景理解，這些問(wèn)題無(wú)法通過(guò)深度學(xué)習(xí)輕松實(shí)現(xiàn)，但它可以從傳統(tǒng) CV 技術(shù)中受益。

傳統(tǒng) CV 技術(shù)與深度學(xué)習(xí)的融合

傳統(tǒng) CV+深度學(xué)習(xí)=更好的性能
傳統(tǒng) CV 技術(shù)和深度學(xué)習(xí)方法之間存在明確的權(quán)衡。經(jīng)典 CV 算法成熟、透明，且為性能和能效進(jìn)行過(guò)優(yōu)化；深度學(xué)習(xí)提供更好的準(zhǔn)確率和通用性，但消耗的計(jì)算資源也更大。
混合方法結(jié)合傳統(tǒng) CV 技術(shù)和深度學(xué)習(xí)，兼具這兩種方法的優(yōu)點(diǎn)。它們尤其適用于需要快速實(shí)現(xiàn)的高性能系統(tǒng)。
機(jī)器學(xué)習(xí)度量和深度網(wǎng)絡(luò)的混合已經(jīng)非常流行，因?yàn)檫@可以生成更好的模型?；旌弦曈X(jué)處理實(shí)現(xiàn)能夠帶來(lái)性能優(yōu)勢(shì)，且將乘積累加運(yùn)算減少到深度學(xué)習(xí)方法的 130-1000 分之一，幀率相比深度學(xué)習(xí)方法有 10 倍提升。此外，混合方法使用的內(nèi)存帶寬僅為深度學(xué)習(xí)方法的一半，消耗的 CPU 資源也少得多。
充分利用邊緣計(jì)算
當(dāng)算法和神經(jīng)網(wǎng)絡(luò)推斷要在邊緣設(shè)備上運(yùn)行時(shí)，其延遲、成本、云存儲(chǔ)和處理要求比基于云的實(shí)現(xiàn)低。邊緣計(jì)算可以避免網(wǎng)絡(luò)傳輸敏感或可確認(rèn)數(shù)據(jù)，因此具備更強(qiáng)的隱私性和安全性。
結(jié)合了傳統(tǒng) CV 和深度學(xué)習(xí)的混合方法充分利用邊緣設(shè)備上可獲取的異質(zhì)計(jì)算能力。異質(zhì)計(jì)算架構(gòu)包含 CPU、微控制器協(xié)同處理器、數(shù)字信號(hào)處理器（DSP）、現(xiàn)場(chǎng)可編程邏輯門(mén)陣列（FPGA）和 AI 加速設(shè)備，通過(guò)將不同工作負(fù)載分配給最高效的計(jì)算引擎來(lái)降低能耗。測(cè)試實(shí)現(xiàn)證明，在 DSP 和 CPU 上分別執(zhí)行深度學(xué)習(xí)推斷時(shí)，前者的目標(biāo)檢測(cè)延遲是后者的十分之一。
多種混合方法證明了其在邊緣應(yīng)用上的優(yōu)勢(shì)。使用混合方法能夠高效地整合來(lái)自邊緣節(jié)點(diǎn)傳感器的數(shù)據(jù)。
不適合深度學(xué)習(xí)的問(wèn)題
CV 領(lǐng)域中存在一些難題，如機(jī)器人學(xué)、增強(qiáng)現(xiàn)實(shí)、自動(dòng)全景拼接、虛擬現(xiàn)實(shí)、3D 建模、運(yùn)動(dòng)估計(jì)、視頻穩(wěn)定、運(yùn)動(dòng)捕捉、視頻處理和場(chǎng)景理解，它們很難通過(guò)深度學(xué)習(xí)以可微方式輕松實(shí)現(xiàn)，而是需要使用其他「?jìng)鹘y(tǒng)」技術(shù)。
下文介紹了 CV 領(lǐng)域中的一些新興問(wèn)題，在這些問(wèn)題中深度學(xué)習(xí)面臨新挑戰(zhàn)，而經(jīng)典 CV 技術(shù)能夠發(fā)揮更大作用。
3D 視覺(jué)
3D 輸入的內(nèi)存大小比傳統(tǒng)的 RGB 圖像大得多，卷積核必須在三維輸入空間中執(zhí)行卷積（見(jiàn)圖 3）。圖 3：2D CNN vs. 3D CNN [47] ? 因此，3D CNN 的計(jì)算復(fù)雜度隨著分辨率呈現(xiàn)三次方增長(zhǎng)。相比于 2D 圖像處理，3D CV 更難，因?yàn)樵黾拥木S度使得不確定性也隨之增加，如遮擋和不同的攝像頭角度（見(jiàn)圖 4）。 ? ?
下一節(jié)將涉及處理多種 3D 數(shù)據(jù)表征的解決方案，這些方法具備新架構(gòu)和預(yù)處理步驟，專(zhuān)用于解決上述挑戰(zhàn)。

幾何深度學(xué)習(xí)（GDL）將深度學(xué)習(xí)技術(shù)擴(kuò)展到 3D 數(shù)據(jù)。3D 數(shù)據(jù)的表征方式多種多樣，總體上可分為歐幾里得和非歐幾里得。3D 歐幾里得結(jié)構(gòu)化數(shù)據(jù)具備底層網(wǎng)格結(jié)構(gòu)，允許全局參數(shù)化，此外，它還具備和 2D 圖像相同的坐標(biāo)系統(tǒng)。這使得現(xiàn)有的 2D 深度學(xué)習(xí)范式和 2D CNN 可應(yīng)用于 3D 數(shù)據(jù)。3D 歐幾里得數(shù)據(jù)更適合通過(guò)基于體素的方法分析簡(jiǎn)單的剛性物體，如椅子、飛機(jī)等。另一方面，3D 非歐幾里得數(shù)據(jù)不具備網(wǎng)格數(shù)組結(jié)構(gòu)，即不允許全局參數(shù)化。因此，將經(jīng)典深度學(xué)習(xí)技術(shù)擴(kuò)展到此類(lèi)表征是非常難的任務(wù)，近期 [52] 提出的 Pointnet 解決了這個(gè)難題。對(duì)目標(biāo)識(shí)別有用的連續(xù)形狀信息常常在轉(zhuǎn)換為體素表征的過(guò)程中丟失。使用傳統(tǒng) CV 算法，[53] 提出可應(yīng)用于體素 CNN（voxel CNN）的一維特征。這種基于平均曲率的新型旋轉(zhuǎn)不變特征提升了體素 CNN 的形狀識(shí)別性能。該方法應(yīng)用到當(dāng)前最優(yōu)的體素 CNN Octnet 架構(gòu)時(shí)取得了極大成功，它在 ModelNet10 數(shù)據(jù)集上取得了 1% 的整體準(zhǔn)確率提升。

SLAM 視覺(jué) SLAM 是 SLAM 的子集，它使用視覺(jué)系統(tǒng)（而非激光雷達(dá)）登記場(chǎng)景中的路標(biāo)。視覺(jué) SLAM 具備攝影測(cè)量的優(yōu)勢(shì)（豐富的視覺(jué)數(shù)據(jù)、低成本、輕量級(jí)和低能耗），且沒(méi)有后處理通常需要的繁重計(jì)算工作負(fù)載。視覺(jué) SLAM 包含環(huán)境感知、數(shù)據(jù)匹配、運(yùn)動(dòng)估計(jì)、位置更新和新路標(biāo)登記等步驟。對(duì)在不同條件（如 3D 旋轉(zhuǎn)、縮放、光照）中出現(xiàn)的視覺(jué)對(duì)象建模，以及使用強(qiáng)大的遷移學(xué)習(xí)技術(shù)擴(kuò)展表征以實(shí)現(xiàn) zero/one shot learning，是一道難題。特征提取和數(shù)據(jù)表征方法可以有效地減少機(jī)器學(xué)習(xí)模型所需的訓(xùn)練樣本數(shù)量。

圖像定位中常使用一種兩步方法：位置識(shí)別+姿勢(shì)估計(jì)。前者使用詞袋方法，通過(guò)累積局部圖像描述子（如 SIFT）來(lái)計(jì)算每個(gè)圖像的全局描述子。每個(gè)全局描述子均被存儲(chǔ)在數(shù)據(jù)庫(kù)中，一同存儲(chǔ)的還有生成 3D 點(diǎn)云基準(zhǔn)圖的攝像頭姿勢(shì)。從 query 圖像中提取出類(lèi)似的全局描述子，數(shù)據(jù)庫(kù)中最接近的全局描述子可以通過(guò)高效搜索檢索出來(lái)。最接近全局描述子的攝像頭姿勢(shì)可以幫助我們對(duì) query 圖像進(jìn)行粗略定位。在姿勢(shì)估計(jì)中，使用 Perspective-n-Point (PnP) [13] 和幾何驗(yàn)證等算法更準(zhǔn)確地計(jì)算 query 圖像的確切姿勢(shì)。

基于圖像的位置識(shí)別的成功很大程度上歸功于提取圖像特征描述子的能力。不幸的是，在對(duì)激光雷達(dá)掃描圖像執(zhí)行局部特征提取時(shí)，沒(méi)有性能堪比 SIFT 的算法。3D 場(chǎng)景由 3D 點(diǎn)和數(shù)據(jù)庫(kù)圖像構(gòu)成。一種方法是將每個(gè) 3D 點(diǎn)與一組 SIFT 描述子結(jié)合起來(lái)，描述子對(duì)應(yīng)該點(diǎn)被三角化的圖像特征。然后將這些描述子平均為一個(gè) SIFT 描述子，來(lái)描述該點(diǎn)的外觀。另一種方法基于 RGB-D 數(shù)據(jù)構(gòu)建多模態(tài)特征，而不是深度處理。至于深度處理部分，研究者采用基于表面法線的著色方法，因?yàn)樗鼘?duì)多種任務(wù)有效且具備穩(wěn)健性。另一種使用傳統(tǒng) CV 技術(shù)的替代方法提出基于圖的層級(jí)描述子 Force Histogram Decomposition (FHD)，它可以定義對(duì)象的成對(duì)結(jié)構(gòu)化子部分之間的空間關(guān)系和形狀信息。該學(xué)習(xí)步驟的優(yōu)勢(shì)是與傳統(tǒng)詞袋框架兼容，從而出現(xiàn)結(jié)合了結(jié)構(gòu)特征和局部特征的混合表征。

360 度攝像頭 由于球面攝像頭的成像特點(diǎn)，每張圖像都能夠捕捉到 360 度全景場(chǎng)景，消除了對(duì)轉(zhuǎn)向選擇的限制。球面圖像面臨的一個(gè)主要挑戰(zhàn)是超廣角魚(yú)眼鏡頭導(dǎo)致的嚴(yán)重桶形畸變，這增加了受傳統(tǒng)人類(lèi)視覺(jué)啟發(fā)的車(chē)道檢測(cè)和軌跡追蹤等方法的實(shí)現(xiàn)復(fù)雜度。這通常需要額外的預(yù)處理步驟，如先驗(yàn)校準(zhǔn)（prior calibration）和 deworming。[60] 提出的一種替代方法將導(dǎo)航看作分類(lèi)問(wèn)題，從而繞過(guò)了預(yù)處理步驟，該方法基于原始未校準(zhǔn)球面圖像找出最優(yōu)潛在路徑方向。全景拼接是該領(lǐng)域的另一個(gè)開(kāi)放性問(wèn)題。實(shí)時(shí)拼接方法 [61] 使用一組可變形網(wǎng)格和最終圖像，并結(jié)合利用穩(wěn)健像素著色器的輸入。另一種方法 [62] 將幾何推理（線和消失點(diǎn)）提供的準(zhǔn)確率和深度學(xué)習(xí)技術(shù)（邊和法線圖）實(shí)現(xiàn)的更高級(jí)數(shù)據(jù)提取和模式識(shí)別結(jié)合起來(lái)，為室內(nèi)場(chǎng)景提取結(jié)構(gòu)化數(shù)據(jù)，并生成布局假設(shè)。在稀疏結(jié)構(gòu)化場(chǎng)景中，由于缺乏明顯的圖像特征，基于特征的圖像配準(zhǔn)方法通常會(huì)失敗。這時(shí)可使用直接的圖像配準(zhǔn)方法，如基于相位相關(guān)的圖像配準(zhǔn)算法。[23] 研究了基于判別相關(guān)濾波器（DCF）的圖像配準(zhǔn)技術(shù)，證明基于 DCF 的方法優(yōu)于基于相位相關(guān)的方法。

數(shù)據(jù)集標(biāo)注和增強(qiáng) 對(duì)于 CV 和深度學(xué)習(xí)的結(jié)合存在一些反駁意見(jiàn)，總結(jié)為一句話就是：我們需要重新評(píng)估方法，不管是基于規(guī)則的方法還是數(shù)據(jù)驅(qū)動(dòng)方法。從信號(hào)處理的傳統(tǒng)角度來(lái)看，我們了解傳統(tǒng) CV 算法（如 SIFT 和 SURF）的運(yùn)算內(nèi)涵，而深度學(xué)習(xí)無(wú)法展示這些意義，你所需要的只是更多數(shù)據(jù)。這可以被視為巨大的前進(jìn)，但也有可能是后退。本論文提到了該爭(zhēng)論的正反方觀點(diǎn)，但是如果未來(lái)的方法僅基于數(shù)據(jù)驅(qū)動(dòng)，那么研究重點(diǎn)應(yīng)該放在更智能的數(shù)據(jù)集創(chuàng)建方法上。當(dāng)前研究的基礎(chǔ)問(wèn)題是：對(duì)于特殊應(yīng)用的高級(jí)算法或模型，沒(méi)有足夠的數(shù)據(jù)。未來(lái)，結(jié)合自定義數(shù)據(jù)集和深度學(xué)習(xí)模型將成為很多研究論文的主題。因此研究者的輸出不僅涉及算法或架構(gòu)，還包括數(shù)據(jù)集或數(shù)據(jù)收集方法。數(shù)據(jù)集標(biāo)注是深度學(xué)習(xí)工作流中的主要瓶頸，需要大量的手動(dòng)標(biāo)注工作。這在語(yǔ)義分割中尤為明顯，因?yàn)樵擃I(lǐng)域需要準(zhǔn)確標(biāo)注每一個(gè)像素。[20] 討論了很多有用的半自動(dòng)流程工具，其中一些利用了 ORB 特征、多邊形變形（polygon morphing）、半自動(dòng)感興趣區(qū)域擬合等算法方法。克服數(shù)據(jù)缺乏、減少圖像分類(lèi)深度學(xué)習(xí)模型過(guò)擬合現(xiàn)象最容易也最常見(jiàn)的方法是，利用標(biāo)簽不變的圖像變換（label-preserving transformation）人為地?cái)U(kuò)大數(shù)據(jù)集。該過(guò)程叫做數(shù)據(jù)集增強(qiáng)，指基于已有數(shù)據(jù)通過(guò)剪裁、縮放或旋轉(zhuǎn)等方式生成額外的訓(xùn)練數(shù)據(jù)。人們希望數(shù)據(jù)增強(qiáng)步驟需要極少的計(jì)算，且可在深度學(xué)習(xí)訓(xùn)練流程中實(shí)現(xiàn)，這樣變換后的圖像就不必存儲(chǔ)在磁盤(pán)中了。數(shù)據(jù)增強(qiáng)使用的傳統(tǒng)算法方法包括主成分分析（PCA）、噪聲添加、在特征空間的樣本之間進(jìn)行內(nèi)插或外推，以及基于分割標(biāo)注建模視覺(jué)語(yǔ)境周邊物體。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6767

瀏覽量
88638
攝像頭

攝像頭

+關(guān)注

關(guān)注
59

文章
4782

瀏覽量
95127
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5442

瀏覽量
120800

原文標(biāo)題：深度學(xué)習(xí)崛起后，傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)落伍了嗎？

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于深度學(xué)習(xí)的傳統(tǒng)圖像增強(qiáng)算法

幾個(gè)傳統(tǒng)的圖像增強(qiáng)算法，并給出matlab實(shí)現(xiàn)代碼，看一看不同算法的實(shí)現(xiàn)效果，最后再介紹一下深度學(xué)習(xí)在圖像增強(qiáng)上的應(yīng)用。 1. 直方圖均衡

發(fā)表于 11-11 16:28 ?5549次閱讀

基于深度學(xué)習(xí)的<b class='flag-5'>傳統(tǒng)</b>圖像<b class='flag-5'>增強(qiáng)</b><b class='flag-5'>算法</b>

上傳一些關(guān)于DSP算法方面的資料，互相學(xué)習(xí)。

發(fā)表于 07-09 10:20

視頻增強(qiáng)算法的基本原理是什么？

視頻增強(qiáng)算法的基本原理是什么？單尺度算法的原理是什么？視頻增強(qiáng)能解決的實(shí)際問(wèn)題及應(yīng)用領(lǐng)域

發(fā)表于 06-03 07:14

基于GFO算子的圖像增強(qiáng)算法如何去實(shí)現(xiàn)？

基于GFO算子（廣義模糊算子）的圖像增強(qiáng)算法如何去實(shí)現(xiàn)？怎樣對(duì)圖像增強(qiáng)算法進(jìn)行分析？

發(fā)表于 06-04 06:24

常見(jiàn)圖像傳統(tǒng)處理算法是什么？

常見(jiàn)圖像傳統(tǒng)處理算法是什么？

發(fā)表于 09-28 08:58

基于改進(jìn)演化算法的空間數(shù)據(jù)聚類(lèi)方法

分析空間數(shù)據(jù)的特點(diǎn)和用常規(guī)方法進(jìn)行空間數(shù)據(jù)聚類(lèi)分析的難點(diǎn)與不足，提出一種基于改進(jìn)的演化算法空間數(shù)據(jù)聚類(lèi)方

發(fā)表于 04-10 09:29 ?28次下載

基于增強(qiáng)學(xué)習(xí)算法的PID參數(shù)調(diào)整方法研究

本文首先介紹了增強(qiáng)學(xué)習(xí)的基本原理，然后分析了利用基于增強(qiáng)學(xué)習(xí)算法進(jìn)行PID 參數(shù)調(diào)節(jié)的步驟，并給出了具體的實(shí)現(xiàn)流程，最后通過(guò)仿真驗(yàn)證了增強(qiáng)學(xué)習(xí)算法

發(fā)表于 08-07 14:33 ?27次下載

一種基于LMS改進(jìn)算法的語(yǔ)音增強(qiáng)方法

LMS算法在自適應(yīng)濾波器中得到廣泛應(yīng)用，但這種方法具有收斂速度慢，步長(zhǎng)需要謹(jǐn)慎選擇才能達(dá)到收斂和失調(diào)的折中等缺點(diǎn)。文章把一種變步長(zhǎng)的LMS算法應(yīng)用到語(yǔ)音增強(qiáng)中，此

發(fā)表于 08-03 16:56 ?0次下載

一種新的DSA圖像增強(qiáng)算法

DSA是一種重要的醫(yī)學(xué)診斷和介入治療的技術(shù)，DSA圖像質(zhì)量對(duì)于醫(yī)生確定病情具有重要意義?，F(xiàn)提出了一種新的DSA圖像增強(qiáng)算法來(lái)提高DSA圖像的質(zhì)量，即對(duì)圖像進(jìn)行前期去噪，后期增強(qiáng)的方法。

發(fā)表于 11-15 15:50 ?22次下載

低照度圖像增強(qiáng)算法

針對(duì)低照度圖像反轉(zhuǎn)后為與霧天圖像相似的偽霧圖，其霧的濃度由光照情況而非景深決定這一特點(diǎn)，提出一種基于物理模型的低照度圖像增強(qiáng)算法。該算法根據(jù)光照情況給出一種更加準(zhǔn)確且快速的新方法估計(jì)偽

發(fā)表于 01-05 15:19 ?1次下載

一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法

? 本文首先介紹傳統(tǒng)的數(shù)據(jù)增強(qiáng)在NER任務(wù)中的表現(xiàn)，然后介紹一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法，

發(fā)表于 01-18 16:28 ?2999次閱讀

如何使用FPGA實(shí)現(xiàn)實(shí)時(shí)圖像增強(qiáng)算法

針對(duì)復(fù)雜背景的多目標(biāo)圖像，提出了一種基于直方圖的實(shí)時(shí)自適應(yīng)圖像增強(qiáng)方法。該方法根據(jù)自適應(yīng)直方圖窗口選擇高低閾值，通過(guò)灰度線性變換及灰度級(jí)等間距密度均衡進(jìn)行圖像增強(qiáng)。利用該

發(fā)表于 02-03 15:21 ?10次下載

幾種常用的NLP數(shù)據(jù)增強(qiáng)方法

因?yàn)橹苯訉?duì)原是文本進(jìn)行數(shù)據(jù)增強(qiáng)，很難保證維持原始的文本語(yǔ)義，因此可以通過(guò)在語(yǔ)義空間上進(jìn)行隱式數(shù)據(jù)增強(qiáng)，簡(jiǎn)單列出幾種方法：

發(fā)表于 09-15 14:54 ?1678次閱讀

基本圖像處理技術(shù)的數(shù)據(jù)增強(qiáng)方法介紹

數(shù)據(jù)增強(qiáng)(DA)是訓(xùn)練先進(jìn)的AI算法模型的必要技術(shù)，不過(guò)并不是所有的數(shù)據(jù)增強(qiáng)都能提升模型精度，在今天的分享中，從

發(fā)表于 11-23 11:12 ?2767次閱讀

UWB室內(nèi)定位系統(tǒng)TDOA算法方案介紹

UWB室內(nèi)定位系統(tǒng)TDOA算法方案介紹 ??????? UWB室內(nèi)定位技術(shù)是近年來(lái)新興的一項(xiàng)全新的、與傳統(tǒng)通信技術(shù)有極大差異的通信無(wú)線新技術(shù)。UWB技術(shù)是一種傳輸速率高，發(fā)射功率較低，穿透能力較強(qiáng)

發(fā)表于 03-08 16:29 ?1048次閱讀