97色论,亚洲国产欧美在线人网站

眾所周知，深度學習在實時視頻通信端到端系統(tǒng)里有很多的應用，比如說我們用它做超分辨率，能取得比較好的效果；我們用它做圖像恢復，也能取得比較好的效果。如果說提及挑戰(zhàn)的話，在支持移動端的應用里，我們必須考慮復雜性的限制，必須要以一個小的模型，能夠在移動平臺上實時運行，而且功耗、CPU 占比都得到合適的限制。另外應該在相對合理的數(shù)據(jù)集上取得比較好的學習效果，讓它的泛化能力很強。

簡單展示一下結(jié)果，我們用傳統(tǒng)的算法得到的效果通常比較模糊，基于深度學習的算法我們則能恢復出更多細節(jié)、甚至生成出一些細節(jié)。

從計算量來看，我們目前能做到把 480x360 放大到 960x720 在 iPhone6 的 GPU 上達到 120fps，使得復雜性得到比較有效的控制。

我們用生成對抗網(wǎng)絡(luò)的方式來做超分，生成對抗網(wǎng)絡(luò)最近兩三年比較熱，在人工智能學習算法的學術(shù)會議上，這兩年甚至達到了 2/3 以上的論文都是跟生成對抗網(wǎng)絡(luò)有關(guān)。生成對抗網(wǎng)絡(luò)通常包括一個生成器和一個判別器，生成器盡量模擬真實數(shù)據(jù)，要像真實數(shù)據(jù)一樣來欺騙判別器，讓判別器認為生成的數(shù)據(jù)是真實的，符合真實數(shù)據(jù)的分布。判別器的任務正好相反，它要盡量的讓生成的數(shù)據(jù)通不過考驗，這個標準越高，通不過的概率就越高。所以生成器和判別器在彼此的矛盾沖突中共同進步，最終達到判別器也判別不出來是真是假這樣一個程度。

生成器就是把一個隨機的分布，一個噪聲 Z，經(jīng)過生成器之后產(chǎn)生一個圖像能跟真的很像。下圖形象地表示生成器在逼近真實數(shù)據(jù)的分布，綠色是這個模型產(chǎn)生的分布，在相互矛盾沖突之中逐漸達到真實數(shù)據(jù)就是黑色虛線的分布。Z，就是我剛才說的，比如說一個隨機變量，它能生成出我們想要的結(jié)果，從公式上說實際上生成器在做一件事，它是使判別器犯錯的概率最大，就是判別器分不出真假，分不出生成東西是假的，就是要讓它犯錯。

這個判別器，它是要首先最大化一個真實數(shù)據(jù)為真的這個概率，最小化生成器為真的概率就是我剛才說的矛盾沖突，用公式也是可以表示出來的。這個判別器的最佳解是有數(shù)學解的，就是達到納什均衡。把這兩個生成器和判別器綜合到一起就是一個價值函數(shù)的最大最小優(yōu)化。

這個有什么問題？這個生成器為了通過判別器的檢驗，就找了一些它比較好生成的模式來生成，所以訓練完之后比如就大概率生成 1，因為 1 很好通過，就是一豎，所以生成器的學習某種意義上會耍點小聰明，它會試圖學習那些最容易學的樣本，多產(chǎn)生一些容易判對的樣本，這就是生成器在做的情形，但這是不理想的情形。

換一個圖來看，比如分布是一個均勻的圓，生成器可能最后收斂到某一個地方，總收斂到某一個地方也總通過。判別器因為總通過，網(wǎng)絡(luò)狀態(tài)最后就收斂這么一個狀況。生成器比較難于生成這種多模態(tài)、有多個聚類的分布，我們把這個現(xiàn)象叫模式坍塌。

具體的挑戰(zhàn)涉及什么，我簡單說一下，我們怎么樣緩解這個模式坍塌，就是使得生成器別陷入耍小聰明騙過了判別器的狀態(tài)。第二是我們給定一個卷積神經(jīng)網(wǎng)絡(luò)，它表現(xiàn)有多好、學習能力有多強。換句話問，我們給定一個深度學習的任務，深度卷積神經(jīng)網(wǎng)絡(luò)能做到多小，還能達到比較好的效果。

為了降低模式坍塌出現(xiàn)的概率，首先通常會要求加一個局域的限制，要求生成器不僅要騙過判別器，而且要讓它帶有噪聲的輸入要像真實的樣本，這樣的話生成出來跟真實樣本不會差太多。就相當于在損失函數(shù)上，加了一項，生成的東西要跟目標像，即監(jiān)督學習。

再換一個角度看，實際上深度學習的神經(jīng)網(wǎng)絡(luò)，它是一個流形，這個流形是一個拓撲空間，能把流形同胚映射到 N 維的實數(shù)空間，同胚映射的意思就是正映射和逆映射都是連續(xù)的。我簡單說一下這個概念，比如一個三維空間中的曲面，是一個二維的流形，從編碼的角度來說，它可以對應一個隱空間，隱空間是二維的，正映射是降維，是個編碼的過程，或者在分類的問題里我們會試圖在隱空間里分的更好。反過來講從隱空間到流形就是變成一個生成器，就是解碼的過程，從精簡的數(shù)據(jù)恢復到它看起來的外觀是我們希望的樣子。

這個曲面在三維空間，我們叫環(huán)境空間。Wassers tein 設(shè)計了一個生成對抗網(wǎng)絡(luò)其實也有很多層，到達十層的網(wǎng)絡(luò)。他要做的事情就是把兩個高斯分布：一個在零點，一個在 40×40 的地方，把分布學會。結(jié)果發(fā)現(xiàn)這個多達十層的一個深度學習網(wǎng)絡(luò)居然學不會，當收斂之后表現(xiàn)為橘色這些點，就是最后收斂的狀態(tài)。當數(shù)據(jù)分布有多個聚類或者多個峰值混合分布的時候，這樣的流形對生成對抗網(wǎng)絡(luò)是有挑戰(zhàn)的。

卷積神經(jīng)網(wǎng)絡(luò)是什么？我們來看基于矯正的線性單元（ReLU）的卷積神經(jīng)網(wǎng)絡(luò), 它可以看成是一個分段線性的映射，我們看這幾個常用的激活函數(shù)其實都是分段線性，不管有參數(shù)還是隨機的，都是分段線性的一個映射。

所以這個流形就被這些分段線性的映射分成了很多子空間，分成很多小的立方體，所以這個流形經(jīng)過編碼器之后就變成很多小空間，都是分段線性的，是多個小的多面體。

怎么理解這個模式坍塌是怎么來的？當編碼器 E，把流形 M 映射到隱空間 E（M）之后，它的分布往往是極其不均勻的，在這個不均勻的奇異分布里要進行分類或者控制都是很難的。提一個問題，我們是否能引入另外一個隱空間，它能映射到 Z，與生成器 G 復合起來 G*T，能把這個 Z’分布比較好比較均勻的分布映射回流形，這樣不管做分類，還是做采樣點的控制，都應該是比較容易的。丘成桐教授等做了一些分析工作，用最佳質(zhì)量映射，能把我剛才說的立方體又較好地重新映射回去。

如果不做最佳質(zhì)量映射，直接應用解碼器，會有問題。在編碼域上進行均勻的采樣（通常有規(guī)律的、比如均勻是我們最能掌握的，非均勻的東西我們很難控制得好），那么我把它重疊在編碼域的圖上，對這些采樣出來的點，如果直接用生成器（也是解碼器）重構(gòu)，恢復出來這些點，放到原來的圖上，可以看到頭部非常稀疏，這個稀疏可以理解成在編碼以后的隱空間用這些均勻采樣點來解碼，很難解出在頭部也能均勻恢復的效果，這也是模式坍塌的一種。

如果加上這個最佳質(zhì)量傳輸映射，在這個 Z’隱空間做均勻采樣，再恢復。就是剛才說的把最佳質(zhì)量映射和生成器在一塊，恢復出來的效果就是比較均勻的?？梢钥吹竭@個質(zhì)量是會更好，所以這個最佳質(zhì)量映射，能在均勻分布的隱空間上使得控制變得非常容易。

丘成桐教授等發(fā)現(xiàn)解碼器和編碼器在數(shù)學上有閉式公式可以關(guān)聯(lián)起來，簡單說只要有其中一個就可以推導出另外一個，這個在數(shù)學上是保證了的。有了這個結(jié)論，用到深度學習，就是只要訓練好其中一個，就通過幾何計算的方法來恢復出另外一個，不需要訓練另外一個，免除了數(shù)據(jù)的擔憂。但實際上高維空間中去推導最佳質(zhì)量映射，是比較困難的，基本上在有限的計算資源下不太容易做到的。所以并沒有完全顛覆我們對深度神經(jīng)網(wǎng)絡(luò)的認識。

這里有一個問題，這個最佳質(zhì)量映射也可以通過深度神經(jīng)網(wǎng)絡(luò)的方式來學習。第二個自然產(chǎn)生的問題，我們是不是要學兩次？我們能不能一次把這個復合映射學會？顯然這是很有實際意義的問題：有兩個模型把它合成一個模型。

再換一個視角來看模式坍塌，這個視角可能更好理解一點。舉例子來說，三維空間中有一個二維曲面，每一個點上有一個切面，對較為規(guī)范的流形來說這個切面應該是一個二維的平面，當這個二維的平面退化成一條線甚至是零維的一個點，這時候模式坍塌一定發(fā)生。因為退化成一條線的時候，在其法向量方向上，另外一個坐標軸再怎么變都不影響結(jié)果，這是模式坍塌。退化成零維的時候更是如此了。

我們可以在損失函數(shù)中加上另外一項懲罰項，這個懲罰項表示跟一個恒等矩陣的差，這一項加到損失函數(shù)里。它試圖使得切空間是滿秩的，不會退化到一維或者零維，這樣也能有效的減低模式坍塌的出現(xiàn)，這是從另外一個視角看這個問題。

下一個問題，如果給了一個基于矯正分段線性激活函數(shù)（ReLU）的卷積神經(jīng)網(wǎng)絡(luò)的學習能力究竟能有多強？換句話說給定一個任務，我們能設(shè)計多小的一個神經(jīng)網(wǎng)絡(luò)來完成任務？我們希望還是能限定它的復雜性，而不是完全開放式的摸索。這樣的話多少能給我們探索在移動設(shè)備上的深度學習算法，提供一些指導原則。

剛才我提到了編碼器和解碼器都是分段線性函數(shù)，解碼器把立方體分的更小，立方體越多越能把縫隙填滿，這個逼近的質(zhì)量決定了編碼器和解碼器最終的效果。這個很容易理解，一條曲線如果用一段線逼近它和用四條線逼近它，四段肯定逼近的更好，甚至用更多線段來無窮逼近，這個當然對原來的曲線是有一定限定的，比如是凸曲面等等。

這個矯正的復雜度，一個分段映射的復雜性是表征逼近能力的一個度量。它定義成，在 N 維的時空間上，最大的連通子集數(shù)，在每一個連通子集上編碼器都是線性的，說穿了是分段線性。這是表征了這個解碼器的能力。一個 K+2 層的深度卷積神經(jīng)網(wǎng)絡(luò)，由它所能表征的最復雜的分段線性映射來表征。

每一組不同的參數(shù)就定義了一組分段線性函數(shù)，當然參數(shù)不同的時候，它的能力不同。那么就有這么一個結(jié)論，深度神經(jīng)網(wǎng)絡(luò)的復雜性是有上界的，這是一個很好的結(jié)論。如果我們知道我們要學習的任務，它的復雜性是高于這個上限的時候，我們這個深度神經(jīng)網(wǎng)絡(luò)就設(shè)計得太小，肯定學不好。學不好有很多表現(xiàn)，比如泛化能力會比較差。不管你訓練多少樣本，你可能學到的分布跟實際數(shù)據(jù)的分布都是不一致的，都是有偏差的。我們可以想像在實際應用中，肯定有些數(shù)據(jù)的實際效果不是那么好。

同時，它也有一個下界，下界的理解比較簡單，某個權(quán)重，使得網(wǎng)絡(luò)復雜度最小的權(quán)重。

這樣深度卷積神經(jīng)網(wǎng)絡(luò)的表征能力有上界也有下界，基本回答我剛才說的那個問題。我有幾點體會。一個是因為要求拓撲空間上來做同胚映射，這個限制其實是較強的制約，其實只能學比較簡單的幾個拓撲結(jié)構(gòu)，不能學太復雜的東西，或者只能學一個局部，一個局部學的很好，全局學起來有困難。最佳質(zhì)量映射，能夠有幫助，但在高維空間中計算出這個最佳質(zhì)量映射，也算是一個比較挑戰(zhàn)的事。第三個結(jié)論，給定任何一個深度卷積神經(jīng)網(wǎng)絡(luò)，一定能找到一個流形嵌入到這個它輸入的環(huán)境空間中，而它的分布不能被這個神經(jīng)網(wǎng)絡(luò)學習。我們對模式坍塌是有一定辦法來緩解；對算法復雜性，我們能有一定的辦法，能使神經(jīng)網(wǎng)絡(luò)的復雜性有所界定。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

通信

通信

+關(guān)注

關(guān)注
18

文章
5926

瀏覽量
135712
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5439

瀏覽量
120797

原文標題：應用于實時視頻通信的深度學習算法研究

文章出處：【微信號：shengwang-agora，微信公眾號：聲網(wǎng)Agora】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度學習在汽車中的應用

神經(jīng)系統(tǒng)，因此支持人工智能的概念。圖 2：簡易反向傳播示例盡管深度學習具有效力，但其在實際應用中也遇到了一些挑戰(zhàn)。對于容易受到系統(tǒng)限制因素（

發(fā)表于 03-13 06:45

深度學習及無線通信熱點問題介紹

利用ML構(gòu)建無線環(huán)境地圖及其在無線通信中的應用?使用深度學習的收發(fā)機設(shè)計和信道解碼基于ML的混合學習方法，用于信道估計、建模、預測和壓縮使

發(fā)表于 07-01 10:49

深度學習在預測和健康管理中的應用

深度學習在預測和健康管理中的應用綜述摘要深度學習對預測和健康管理（PHM）引起了濃厚的興趣，因為它具有強大的表示能力，自動化的功能

發(fā)表于 07-12 06:46

深度學習模型是如何創(chuàng)建的？

具有深度學習模型的嵌入式系統(tǒng)應用程序帶來了巨大的好處。深度學習嵌入式系統(tǒng)已經(jīng)改變了各個行業(yè)的企業(yè)

發(fā)表于 10-27 06:34

深度學習介紹

在未來的某個時候，人們必定能夠相對自如地運用人工智能，安全地駕車出行。這個時刻何時到來我無法預見；但我相信，彼時“智能”會顯現(xiàn)出更“切實”的意義。與此同時，通過深度學習方法，人工智能的實際應用能夠

發(fā)表于 11-11 07:55

什么是深度學習？使用FPGA進行深度學習的好處？

) 來解決更復雜的問題，深度神經(jīng)網(wǎng)絡(luò)是一種將這些問題多層連接起來的更深層網(wǎng)絡(luò)。這稱為深度學習。目前，深度學習被用于現(xiàn)實世界中的各種場景，例如

發(fā)表于 02-17 16:56

基于視頻深度學習的時空雙流人物動作識別模型

深度學習被運用于圖片分類、人物臉部識別和人物位置預測等識別領(lǐng)域。視頻人物動作識別可看作隨時間變化圖片的分類問題，所以圖片識別的深度學習方法也

發(fā)表于 04-17 10:46 ?0次下載

基于<b class='flag-5'>視頻</b><b class='flag-5'>深度</b><b class='flag-5'>學習</b>的時空雙流人物動作識別模型

如何使用OpenCV、Python和深度學習在圖像和視頻中實現(xiàn)面部識別?

Face ID 的興起帶動了一波面部識別技術(shù)熱潮。本文將介紹如何使用 OpenCV、Python 和深度學習在圖像和視頻中實現(xiàn)面部識別，以基于深度

發(fā)表于 07-17 16:20 ?7985次閱讀

深度學習是什么？了解深度學習難嗎?讓你快速了解深度學習的視頻講解

本深度學習是什么？了解深度學習難嗎?讓你快速了解深度學習的視

發(fā)表于 08-23 14:36 ?16次下載

如何使用深度學習進行視頻行人目標檢測

近年來，隨著深度學習在計算機視覺領(lǐng)域的廣泛應用，基于深度學習的視頻運動目標檢測受到廣大學者的青睞

發(fā)表于 11-19 16:01 ?22次下載

深度學習在視頻對象分割中的應用及相關(guān)研究

視頻對象分割是指在給定的一段視頻序列的各幀圖像中，找岀屬于特定前景對象的所有像素點位置區(qū)域。隨著硬件平臺計算能力的提升，深度學習受到了越來越多的關(guān)注，

發(fā)表于 03-24 15:47 ?9次下載

基于深度學習的視頻質(zhì)量評價方法及模型研究

視頻質(zhì)量評價（VQA）是以人眼的主觀質(zhì)量評估結(jié)果為依據(jù)，使用算法模型對失真視頻進行評估。傳統(tǒng)的評估方法難以做到主觀評價結(jié)果與客觀評價結(jié)果相一致。基于深度學習的

發(fā)表于 03-29 15:46 ?81次下載

什么是深度學習（Deep Learning）？深度學習的工作原理詳解

? 本文將帶您了解深度學習的工作原理與相關(guān)案例。什么是深度學習？深度學習是機器

發(fā)表于 04-01 10:34 ?1w次閱讀

什么是深度學習算法？深度學習算法的應用

。在深度學習中，使用了一些快速的算法，比如卷積神經(jīng)網(wǎng)絡(luò)以及深度神經(jīng)網(wǎng)絡(luò)，這些算法在大量數(shù)據(jù)處理和圖像識別上面有著非常重要的作用。

發(fā)表于 08-17 16:03 ?2006次閱讀

深度學習在語音識別中的應用及挑戰(zhàn)

的挑戰(zhàn)。二、深度學習在語音識別中的應用 1.基于深度神經(jīng)網(wǎng)絡(luò)的語音識別：深度神經(jīng)網(wǎng)絡(luò)（DNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是

發(fā)表于 10-10 18:14 ?796次閱讀