01
導(dǎo)讀
ACL2017 年中,騰訊 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。
論文中提出了一種基于 word-level 級別的網(wǎng)絡(luò)-DPCNN,由于 TextCNN不能通過卷積獲得文本的長距離依賴關(guān)系,而論文中 DPCNN 通過不斷加深網(wǎng)絡(luò),可以抽取長距離的文本依賴關(guān)系。
實驗證明在不增加太多計算成本的情況下,增加網(wǎng)絡(luò)深度就可以獲得最佳的準確率。?
02
DPCNN 結(jié)構(gòu)
究竟是多么牛逼的網(wǎng)絡(luò)呢?我們下面來窺探一下模型的芳容。
03
DPCNN 結(jié)構(gòu)細節(jié)
模型是如何通過加深網(wǎng)絡(luò)來捕捉文本的長距離依賴關(guān)系的呢?下面我們來一一道來。為了更加簡單的解釋 DPCNN,這里我先不解釋是什么是 Region embedding,我們先把它當(dāng)作 wordembedding。
等長卷積
首先交代一下卷積的的一個基本概念。一般常用的卷積有以下三類:
假設(shè)輸入的序列長度為n,卷積核大小為m,步長(stride)為s,輸入序列兩端各填補p個零(zero padding),那么該卷積層的輸出序列為(n-m+2p)/s+1。
(1)窄卷積(narrow convolution):步長s=1,兩端不補零,即p=0,卷積后輸出長度為n-m+1。
(2)寬卷積(wide onvolution):步長s=1,兩端補零p=m-1,卷積后輸出長度n+m-1。
(3)等長卷積(equal-width convolution):步長s=1,兩端補零p=(m-1)/2,卷積后輸出長度為n。如下圖所示,左右兩端同時補零p=1,s=3。
池化
那么DPCNN是如何捕捉長距離依賴的呢?這里我直接引用文章的小標(biāo)題——Downsampling with the number of featuremaps fixed。
作者選擇了適當(dāng)?shù)膬蓪拥乳L卷積來提高詞位 embedding 的表示的豐富性。然后接下來就開始Downsampling(池化)。
再每一個卷積塊(兩層的等長卷積)后,使用一個 size=3 和 stride=2 進行 maxpooling 進行池化。序列的長度就被壓縮成了原來的一半。其能夠感知到的文本片段就比之前長了一倍。
例如之前是只能感知3個詞位長度的信息,經(jīng)過1/2池化層后就能感知6個詞位長度的信息啦,這時把 1/2 池化層和 size=3 的卷積層組合起來如圖所示。
固定 feature maps(filters) 的數(shù)量
為什么要固定feature maps的數(shù)量呢?許多模型每當(dāng)執(zhí)行池化操作時,增加feature maps的數(shù)量,導(dǎo)致總計算復(fù)雜度是深度的函數(shù)。與此相反,作者對 feature map 的數(shù)量進行了修正,他們實驗發(fā)現(xiàn)增加 feature map 的數(shù)量只會大大增加計算時間,而沒有提高精度。
另外,夕小瑤小姐姐在知乎也詳細的解釋了為什么要固定featuremaps的數(shù)量。有興趣的可以去知乎搜一搜,講的非常透徹。
固定了 feature map 的數(shù)量,每當(dāng)使用一個size=3和stride=2進行maxpooling進行池化時,每個卷積層的計算時間減半(數(shù)據(jù)大小減半),從而形成一個金字塔。
這就是論文題目所謂的Pyramid。
好啦,看似問題都解決了,目標(biāo)成功達成。剩下的我們就只需要重復(fù)的進行等長卷積+等長卷積+使用一個 size=3 和 stride=2 進行 maxpooling 進行池化就可以啦,DPCNN就可以捕捉文本的長距離依賴啦!
Shortcut connections with pre-activation
但是!如果問題真的這么簡單的話,深度學(xué)習(xí)就一下子少了超級多的難點了。
(1) 初始化CNN的時,往往各層權(quán)重都初始化為很小的值,這導(dǎo)致了最開始的網(wǎng)絡(luò)中,后續(xù)幾乎每層的輸入都是接近0,這時的網(wǎng)絡(luò)輸出沒有意義;
(2) 小權(quán)重阻礙了梯度的傳播,使得網(wǎng)絡(luò)的初始訓(xùn)練階段往往要迭代好久才能啟動;
(3)就算網(wǎng)絡(luò)啟動完成,由于深度網(wǎng)絡(luò)中仿射矩陣(每兩層間的連接邊)近似連乘,訓(xùn)練過程中網(wǎng)絡(luò)也非常容易發(fā)生梯度爆炸或彌散問題。
當(dāng)然,上述這幾點問題本質(zhì)就是梯度彌散問題。那么如何解決深度 CNN 網(wǎng)絡(luò)的梯度彌散問題呢?當(dāng)然是膜一下何愷明大神,然后把 ResNet 的精華拿來用啦!ResNet 中提出的shortcut-connection/ skip-connection/ residual-connection(殘差連接)就是一種非常簡單、合理、有效的解決方案。
類似地,為了使深度網(wǎng)絡(luò)的訓(xùn)練成為可能,作者為了恒等映射,所以使用加法進行shortcut connections,即z+f(z),其中f用的是兩層的等長卷積。這樣就可以極大的緩解了梯度消失問題。
另外,作者也使用了pre-activation,這個最初在何凱明的 “Identity Mappings in Deep Residual Networks 上提及,有興趣的大家可以看看這個的原理。
直觀上,這種“線性”簡化了深度網(wǎng)絡(luò)的訓(xùn)練,類似于 LSTM 中 constant errorcarousels 的作用。而且實驗證明pre-activation 優(yōu)于 post-activation。
整體來說,巧妙的結(jié)構(gòu)設(shè)計,使得這個模型不需要為了維度匹配問題而擔(dān)憂。
Region embedding
同時 DPCNN 的底層貌似保持了跟 TextCNN 一樣的結(jié)構(gòu),這里作者將 TextCNN 的包含多尺寸卷積濾波器的卷積層的卷積結(jié)果稱之為 Region embedding,意思就是對一個文本區(qū)域/片段(比如3gram)進行一組卷積操作后生成的embedding。
另外,作者為了進一步提高性能,還使用了tv-embedding (two-views embedding)進一步提高 DPCNN 的 accuracy。
上述介紹了 DPCNN 的整體架構(gòu),可見 DPCNN 的架構(gòu)之精美。本文是在原始論文以及知乎上的一篇文章的基礎(chǔ)上進行整理。
本文可能也會有很多錯誤,如果有錯誤,歡迎大家指出來!建議大家為了更好的理解 DPCNN,看一下原始論文和參考里面的知乎。
04
用 Keras 實現(xiàn) DPCNN 網(wǎng)絡(luò)
這里參考了一下 kaggle 的代碼,模型一共用了七層,模型的參數(shù)與論文不太相同。這里濾波器通道個數(shù)為64(論文中為256),具體的參數(shù)可以參考下面的代碼,部分我寫了注釋。
05
DPCNN 實戰(zhàn)
上面我們用 keras 實現(xiàn)了我們的 DPCNN 網(wǎng)絡(luò),這里我們借助 kaggle 的有毒評論文本分類競賽來實戰(zhàn)下我們的 DPCNN 網(wǎng)絡(luò)。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7441瀏覽量
88438 -
cnn
+關(guān)注
關(guān)注
3文章
350瀏覽量
22089
原文標(biāo)題:一文看懂深度文本分類之 DPCNN 原理與代碼
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論