亚洲欧美日韩在线播放,欧美日韩激情一区在线

深度學(xué)習(xí)在眾多領(lǐng)域都取得了顯著進(jìn)展，但與此同時也存在一個問題：深層網(wǎng)絡(luò)的訓(xùn)練常常面臨梯度消失或梯度爆炸的阻礙，尤其是像 Transformer 這樣的大型網(wǎng)絡(luò)?，F(xiàn)在，加州大學(xué)圣迭戈分校的研究者提出了一種名為 ReZero 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法，并使用 ReZero 訓(xùn)練了具有一萬層的全連接網(wǎng)絡(luò)，以及首次訓(xùn)練了超過 100 層的 Tansformer，效果都十分驚艷。

深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理等領(lǐng)域取得了很多重大突破。神經(jīng)網(wǎng)絡(luò)的表達(dá)能力通常隨著其網(wǎng)絡(luò)深度呈指數(shù)增長，這一特性賦予了它很強(qiáng)的泛化能力。然而深層的網(wǎng)絡(luò)也產(chǎn)生了梯度消失或梯度爆炸，以及模型中的信息傳遞變差等一系列問題。研究人員使用精心設(shè)計的權(quán)值初始化方法、BatchNorm 或 LayerNorm 這類標(biāo)準(zhǔn)化技術(shù)來緩解以上問題，然而這些技術(shù)往往會耗費更多計算資源，或者存在其自身的局限。

近日，來自加州大學(xué)圣迭戈分校（UCSD）的研究者提出一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法「ReZero」，它能夠動態(tài)地加快優(yōu)質(zhì)梯度和任意深層信號的傳播。

論文地址：https://arxiv.org/abs/2003.04887v1

代碼地址：https://github.com/majumderb/rezero

這個想法其實非常簡單：ReZero 將所有網(wǎng)絡(luò)層均初始化為恒等映射。在每一層中，研究者引入了一個關(guān)于輸入信號 x 的殘差連接和一個用于調(diào)節(jié)當(dāng)前網(wǎng)絡(luò)層輸出 F（x）的可訓(xùn)練參數(shù)α，即：

在剛開始訓(xùn)練的時候?qū)ⅵ猎O(shè)置為零。這使得在神經(jīng)網(wǎng)絡(luò)訓(xùn)練初期，所有組成變換 F 的參數(shù)所對應(yīng)的梯度均消失了，之后這些參數(shù)在訓(xùn)練過程中動態(tài)地產(chǎn)生合適的值。改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

圖 1：ReZero 結(jié)構(gòu)示意圖

ReZero 主要帶來了以下兩個益處：

1. 能夠訓(xùn)練更深層神經(jīng)網(wǎng)絡(luò)

學(xué)習(xí)信號能夠有效地在深層神經(jīng)網(wǎng)絡(luò)中傳遞，這使得我們能夠訓(xùn)練一些之前所無法訓(xùn)練的網(wǎng)絡(luò)。研究者使用 ReZero 成功訓(xùn)練了具有一萬層的全連接網(wǎng)絡(luò)，首次訓(xùn)練了超過 100 層的 Tansformer 并且沒有使用學(xué)習(xí)速率熱身和 LayerNorm 這些奇技淫巧。

2. 更快的收斂速度

與帶有標(biāo)準(zhǔn)化操作的常規(guī)殘差網(wǎng)絡(luò)相比，ReZero 的收斂速度明顯更快。當(dāng) ReZero 應(yīng)用于 Transformer 時，在 enwiki8 語言建?；鶞?zhǔn)上，其收斂速度比一般的 Transformer 快 56%，達(dá)到 1.2BPB。當(dāng) ReZero 應(yīng)用于 ResNet，在 CIFAR 10 上可實現(xiàn) 32% 的加速和 85% 的精度。

ReZero （residual with zero initialization）

ReZero 對深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了簡單的更改，可促進(jìn)動態(tài)等距（dynamical isometry）并實現(xiàn)對極深網(wǎng)絡(luò)的有效訓(xùn)練。研究者在初始階段沒有使用那些非平凡函數(shù) F［W_i］傳遞信號，而是添加了一個殘差連接并通過初始為零的 L 個可學(xué)習(xí)參數(shù)α_i（作者稱其為殘差權(quán)重）來重新縮放該函數(shù)。目前，信號根據(jù)以下方式進(jìn)行傳遞：

在初始階段，該網(wǎng)絡(luò)表示為恒等函數(shù)并且普遍滿足動態(tài)等距關(guān)系。在該架構(gòu)修改中，即使某一層的 Jacobian 值消失，也可以訓(xùn)練深度網(wǎng)絡(luò)（正如 ReLU 激活函數(shù)或自注意力機(jī)制出現(xiàn)這樣的狀況）。這一技術(shù)還可以在現(xiàn)有的已訓(xùn)練網(wǎng)絡(luò)上添加新層。

實驗結(jié)果

更快的深層全連接網(wǎng)絡(luò)訓(xùn)練

圖 3 展示了訓(xùn)練損失的演變過程。在一個簡單實驗中，一個使用了 ReZero 的 32 層網(wǎng)絡(luò)，擬合訓(xùn)練數(shù)據(jù)的收斂速度相比其他技術(shù)快了 7 到 15 倍。值得注意的是，與常規(guī)的全連接網(wǎng)絡(luò)相比，殘差連接在沒有額外的標(biāo)準(zhǔn)化層時會降低收斂速度。這可能是因為初始化階段信號的方差并不獨立于網(wǎng)絡(luò)深度。

隨著深度的增加，ReZero 架構(gòu)的優(yōu)勢更加明顯。為了驗證該架構(gòu)可用于深度網(wǎng)絡(luò)訓(xùn)練，研究者在一臺配備 GPU 的筆記本電腦上成功訓(xùn)練了多達(dá) 1 萬層的全連接 ReZero 網(wǎng)絡(luò)，使其在訓(xùn)練數(shù)據(jù)集上過擬合。

圖 3：256 寬度和 ReLU 激活的 32 層全連接網(wǎng)絡(luò)四種變體，在訓(xùn)練過程中的交叉熵?fù)p失。

更快的深層 Transformer 訓(xùn)練

研究者提出，常規(guī)的 Transformer 會抑制深層信號傳遞，他們在輸入序列 x 的 n x d 個 entry 的無窮小變化下評估其變化，獲得注意力處理的輸入-輸出 Jacobian，從而驗證了之前的觀點。

圖 5a 展示了不同深度中使用 Xavier 統(tǒng)一初始化權(quán)重的 Transformer 編碼層的輸入-輸出 Jacobian 值。淺層的 Transformer 表現(xiàn)出峰值在零點附近的單峰分布，可以發(fā)現(xiàn)，深層結(jié)構(gòu)中 Jacobian 出現(xiàn)了大量超出計算精度的峰值。雖然這些分布取決于不同初始化方法，但以上量化的結(jié)論在很大范圍內(nèi)是成立的。這些結(jié)果與普遍認(rèn)為的相一致，也就是深層 Transformer 很難訓(xùn)練。

圖 5：多個輸入-輸出 Jacobian 矩陣中對數(shù)奇異值λ_io 的直方圖。（a）層數(shù)分別為 4、12、64 層的 Transformer 編碼器網(wǎng)絡(luò)；（b）是 64 層時訓(xùn)練前和訓(xùn)練中的 ReZero Transformer 編碼器網(wǎng)絡(luò)。深層 Transformer 距離動態(tài)等距很遠(yuǎn)，即λ_io 1，而 ReZero Transformer 更接近動態(tài)等距，平均奇異值 λ_io ≈ 1。

能夠在多項 NLP 任務(wù)中實現(xiàn) SOTA 的 Transformer 模型通常是小于 24 層的，這項研究中，最深層模型最多使用了 78 層，并且需要 256 個 GPU 來訓(xùn)練。研究者又將這一模型擴(kuò)展至數(shù)百個 Transformer 層，并且仍然可以在臺式機(jī)上訓(xùn)練。為了檢查該方法是否可以擴(kuò)展至更深層的 Transformer 模型之上，研究者將 ReZero Transformer 拓展到了 64 及 128 層，并與普通 Transformer 進(jìn)行了對比。

結(jié)果顯示，收斂之后，12 層的 ReZero Transformer 與常規(guī)的 Transformer 取得了相同的 BPB。也就是說，用 ReZero 來替代 LayerNorm 不會失去任何模型表現(xiàn)。訓(xùn)練普通的 Transformer 模型會導(dǎo)致收斂困難或訓(xùn)練緩慢。當(dāng)達(dá)到 64 層時，普通的 Transformer 模型即使用了 warm-up 也無法收斂。ReZero Transformer 在α初始化為 1 時發(fā)散，從而支持了α = 0 的初始化理論。深層的 ReZero Transformer 比淺層的 Transformer 表現(xiàn)出了更優(yōu)越的性能。

表 3：在 enwiki8 測試集上的 Transformers （TX）對比。

收斂速度比較

選擇 enwiki8 上的語言建模作為基準(zhǔn)，因為較難的語言模型是 NLP 任務(wù)性能的良好指標(biāo)。在實驗中，其目標(biāo)是通過測量 12 層的 Transformer 在 enwiki8 上達(dá)到 1.2 位每字節(jié)（BPB）所需的迭代次數(shù)，由此來衡量所提出的每種方法的收斂速度。

表二：針對 ReZero 的 12 層 Transformers 歸一化后與 enwiki8 驗證集上達(dá)到 1.2 BPB 時所需的訓(xùn)練迭代比較。

更快的殘差網(wǎng)絡(luò)訓(xùn)練

通過前述部分，看到了 ReZero 的連接是如何使深層網(wǎng)絡(luò)的訓(xùn)練成為可能的，并且這些深層網(wǎng)絡(luò)都包含會消失的 Jacobian 奇異值，例如 ReLU 激活或自我注意力。但是，如果沒有 ReZero 的連接或者是其他架構(gòu)的更改，其中某些架構(gòu)將無法執(zhí)行訓(xùn)練。在本節(jié)中，會將 ReZero 連接應(yīng)用于深層殘差網(wǎng)絡(luò)從而進(jìn)行圖像識別。

雖然這些網(wǎng)絡(luò)并不需要 ReZero 連接便可以進(jìn)行訓(xùn)練，但通過觀察發(fā)現(xiàn)，在 CIFAR-10 數(shù)據(jù)集上訓(xùn)練的 ResNet56 model4（最多 200 個 epochs）的驗證誤差得到了非常明顯的提升：從（7.37±0.06）％到（6.46±0.05）％。這一效果是將模型中的所有殘差連接轉(zhuǎn)換為 ReZero 連接之后得到的。在實施 ReZero 之后，驗證誤差降低到 15％以下的次數(shù)也減少了（32±14）％。盡管目前這些結(jié)果只提供了有限的信息，但它們?nèi)灾赋隽?ReZero 連接擁有更廣泛的適用性，從而也推進(jìn)了進(jìn)一步的研究。

上手實操

項目地址：

https://github.com/majumderb/rezero

在此提供了自定義的 ReZero Transformer 層（RZTX），比如以下操作將會創(chuàng)建一個 Transformer 編碼器：

import torchimport torch.nn as nnfrom rezero.transformer import RZTXEncoderLayerencoder_layer = RZTXEncoderLayer（d_model=512， nhead=8）transformer_encoder = nn.TransformerEncoder（encoder_layer， num_layers=6）src = torch.rand（10， 32， 512）out = transformer_encoder（src）

創(chuàng)建一個 Transformer 解碼器：

import torchimport torch.nn as nnfrom rezero.transformer import RZTXDecoderLayerdecoder_layer = RZTXDecoderLayer（d_model=512， nhead=8）transformer_decoder = nn.TransformerDecoder（decoder_layer， num_layers=6）memory = torch.rand（10， 32， 512）tgt = torch.rand（20， 32， 512）out = transformer_decoder（tgt， memory）

注意確保 norm 參數(shù)保留為 None，以免在 Transformer 中用到 LayerNorm。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
44

文章
3552

瀏覽量
133792
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100311
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
588

瀏覽量
13464

遞歸神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)

遞歸神經(jīng)網(wǎng)絡(luò)是一種旨在處理分層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，使其特別適合涉及樹狀或嵌套數(shù)據(jù)的任務(wù)。這些網(wǎng)絡(luò)明確地模擬了層次

發(fā)表于 07-10 17:21 ?437次閱讀

遞歸<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>和循環(huán)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的模型<b class='flag-5'>結(jié)構(gòu)</b>

遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式主要分為

結(jié)構(gòu)形式。 Elman網(wǎng)絡(luò) Elman網(wǎng)絡(luò)是一種基本的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由Elman于1990年提出。其

發(fā)表于 07-05 09:32 ?382次閱讀

遞歸神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)一樣嗎

神經(jīng)網(wǎng)絡(luò)是一種基于樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，它通過遞歸地將輸入數(shù)據(jù)分解為更小的子問題來處理序列數(shù)據(jù)。RvNN的核心思想是將復(fù)雜的序列問題

發(fā)表于 07-05 09:28 ?518次閱讀

人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

詳細(xì)介紹人工神經(jīng)網(wǎng)絡(luò)的分類，包括前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)

發(fā)表于 07-05 09:13 ?765次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

。它們在處理不同類型的數(shù)據(jù)和解決不同問題時具有各自的優(yōu)勢和特點。本文將從多個方面比較循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別。基本概念循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有循環(huán)連接的

發(fā)表于 07-04 14:24 ?792次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

處理序列數(shù)據(jù)方面具有顯著的優(yōu)勢，但它們在結(jié)構(gòu)和工作原理上存在一些關(guān)鍵的區(qū)別。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN） 1.1 RNN的結(jié)構(gòu) 循環(huán)神經(jīng)網(wǎng)絡(luò)是

發(fā)表于 07-04 14:19 ?632次閱讀

深度神經(jīng)網(wǎng)絡(luò)的設(shè)計方法

深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks, DNNs）作為人工智能領(lǐng)域的重要技術(shù)之一，通過模擬人腦神經(jīng)元之間的連接，實現(xiàn)了對復(fù)雜數(shù)據(jù)的自主學(xué)習(xí)和智能判斷。其設(shè)計方法不僅涉

發(fā)表于 07-04 13:13 ?329次閱讀

bp神經(jīng)網(wǎng)絡(luò)算法過程包括

BP神經(jīng)網(wǎng)絡(luò)（Backpropagation Neural Network）是一種多層前饋神經(jīng)網(wǎng)絡(luò)，具有強(qiáng)大的非線性映射能力，廣泛應(yīng)用于模式識別、信號處理、預(yù)測等領(lǐng)域。本文將詳細(xì)介紹BP神經(jīng)網(wǎng)

發(fā)表于 07-04 09:45 ?281次閱讀

卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的區(qū)別

的網(wǎng)絡(luò)結(jié)構(gòu)，分別適用于不同的應(yīng)用場景。本文將從基本概念、結(jié)構(gòu)組成、工作原理及應(yīng)用領(lǐng)域等方面對這兩種神經(jīng)網(wǎng)絡(luò)進(jìn)行深入解讀。

發(fā)表于 07-03 16:12 ?1555次閱讀

BP神經(jīng)網(wǎng)絡(luò)的原理、結(jié)構(gòu)及訓(xùn)練方法

神經(jīng)網(wǎng)絡(luò)是一種受人類大腦神經(jīng)元結(jié)構(gòu)啟發(fā)的計算模型，由大量的神經(jīng)元（或稱為節(jié)點、單元）通過權(quán)重連接而成。每個

發(fā)表于 07-03 10:08 ?377次閱讀

BP神經(jīng)網(wǎng)絡(luò)算法的基本流程包括

BP神經(jīng)網(wǎng)絡(luò)算法，即反向傳播（Backpropagation）神經(jīng)網(wǎng)絡(luò)算法，是一種多層前饋神經(jīng)網(wǎng)絡(luò)，通過反向傳播誤差來訓(xùn)練網(wǎng)絡(luò)權(quán)重。BP

發(fā)表于 07-03 09:52 ?330次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和工作原理

和工作原理。 1. 引言在深度學(xué)習(xí)領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)是一種非常重要的模型。它通過模擬人類視覺系統(tǒng)，能夠自動學(xué)習(xí)圖像中的特征，從而實現(xiàn)對圖像的識別和分類。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比，CNN具有更強(qiáng)的特征提取能力，能夠處理更復(fù)雜的數(shù)

發(fā)表于 07-03 09:38 ?312次閱讀

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類型和應(yīng)用實例

神經(jīng)網(wǎng)絡(luò)模型，作為深度學(xué)習(xí)領(lǐng)域的核心組成部分，近年來在圖像識別、自然語言處理、語音識別等多個領(lǐng)域取得了顯著進(jìn)展。本文旨在深入解讀神經(jīng)網(wǎng)絡(luò)的基本原理、結(jié)構(gòu)類型、訓(xùn)練過程以及應(yīng)用實例，為初學(xué)者提供

發(fā)表于 07-02 11:33 ?273次閱讀

基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法

神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于各種領(lǐng)域，如圖像識別、自然語言處理、語音識別等。本文詳細(xì)介紹了基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法，包括數(shù)據(jù)預(yù)處理、

發(fā)表于 07-02 11:21 ?382次閱讀

構(gòu)建神經(jīng)網(wǎng)絡(luò)模型方法有幾種

（Feedforward Neural Networks）前饗神經(jīng)網(wǎng)絡(luò)是一種最基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，由輸入層、隱藏層和輸出層組成。前饗神經(jīng)網(wǎng)絡(luò)的特點是信息只在

發(fā)表于 07-02 10:15 ?269次閱讀

搜索歷史

一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法「ReZero」

評論

遞歸神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)

遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式主要分為

遞歸神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)一樣嗎

人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

深度神經(jīng)網(wǎng)絡(luò)的設(shè)計方法

bp神經(jīng)網(wǎng)絡(luò)算法過程包括

卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的區(qū)別

BP神經(jīng)網(wǎng)絡(luò)的原理、結(jié)構(gòu)及訓(xùn)練方法

BP神經(jīng)網(wǎng)絡(luò)算法的基本流程包括

卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和工作原理

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類型和應(yīng)用實例

基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法

構(gòu)建神經(jīng)網(wǎng)絡(luò)模型方法有幾種