无码制服丝袜第一页,中文字幕搜索

作為自然語(yǔ)言處理（NLP）系統(tǒng)的核心組成部分，語(yǔ)言模型可以提供詞表征和單詞序列的概率化表示。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（NNLM）克服了維數(shù)的限制，提升了傳統(tǒng)語(yǔ)言模型的性能。本文對(duì) NNLM 進(jìn)行了綜述，首先描述了經(jīng)典的 NNLM 的結(jié)構(gòu)，然后介紹并分析了一些主要的改進(jìn)方法。研究者總結(jié)并對(duì)比了 NNLM 的一些語(yǔ)料庫(kù)和工具包。此外，本文還討論了 NNLM 的一些研究方向。

什么是語(yǔ)言模型

語(yǔ)言模型（LM）是很多自然語(yǔ)言處理（NLP）任務(wù)的基礎(chǔ)。早期的 NLP 系統(tǒng)主要是基于手動(dòng)編寫的規(guī)則構(gòu)建的，既費(fèi)時(shí)又費(fèi)力，而且并不能涵蓋多種語(yǔ)言學(xué)現(xiàn)象。直到 20 世紀(jì) 80 年代，人們提出了統(tǒng)計(jì)語(yǔ)言模型，從而為由 N 個(gè)單詞構(gòu)成的序列 s 分配概率，即：

其中 w_i 代表序列 s 中的第 i 個(gè)單詞。一個(gè)單詞序列的概率可以被分解為在給定下一個(gè)單詞的前項(xiàng)（通常被稱為上下文歷史或上下文）的條件下，與下一個(gè)單詞的條件概率的乘積。

考慮到很難對(duì)上述模型中超多的參數(shù)進(jìn)行學(xué)習(xí)，有必要采取一種近似方法。N 元（N-gram）模型是一種最為廣泛使用的近似方法，并且在 NNLM 出現(xiàn)之前是最先進(jìn)的模型。一個(gè)（k+1）元模型是由 k 階馬爾科夫假設(shè)推導(dǎo)出的。該假設(shè)說(shuō)明當(dāng)前的狀態(tài)僅僅依賴于前面的 k 個(gè)狀態(tài)，即：

我們用極大似然估計(jì)來(lái)估計(jì)參數(shù)。

困惑度（PPL）[Jelinek et al., 1977] 是一種用來(lái)衡量一個(gè)概率模型質(zhì)量的信息論度量標(biāo)準(zhǔn)，是評(píng)價(jià)語(yǔ)言模型的一種方法。PPL 越低說(shuō)明模型越好。給定一個(gè)包含 N 個(gè)單詞的語(yǔ)料庫(kù)和一個(gè)語(yǔ)言模型，該語(yǔ)言模型的 PPL 為：

值得注意的是，PPL 與語(yǔ)料庫(kù)相關(guān)?？梢杂?PPL 在同一個(gè)語(yǔ)料庫(kù)上對(duì)兩個(gè)或多個(gè)語(yǔ)言模型進(jìn)行對(duì)比。

為什么要給 LM 加上神經(jīng)網(wǎng)絡(luò)？

然而，N 元語(yǔ)言模型有一個(gè)明顯的缺點(diǎn)。為了解決這個(gè)問(wèn)題，我們?cè)趯⑸窠?jīng)網(wǎng)絡(luò)（NN）引入到了連續(xù)空間的語(yǔ)言建模中。NN 包括前饋神經(jīng)網(wǎng)絡(luò)（FFNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），可以自動(dòng)學(xué)習(xí)特征和連續(xù)的表征。因此，人們希望將 NN 應(yīng)用于 LM，甚至其他的 NLP 任務(wù)，從而考慮自然語(yǔ)言的離散性、組合性和稀疏性。

第一個(gè)前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（FFNNLM）由 Bengio 等人于 2003 年提出，它通過(guò)學(xué)習(xí)一個(gè)單詞的分布式表征（將單詞表征為一個(gè)被稱為「嵌入」的低維向量）來(lái)克服維數(shù)詛咒。FFNNLM 的性能要優(yōu)于 N 元語(yǔ)言模型。隨后，Mikolov 等人于 2010 年提出了 RNN 語(yǔ)言模型（RNNLM）。從那時(shí)起，NNLM 逐漸成為了主流的語(yǔ)言模型，并得到了迅速發(fā)展。

2012 年，Sundermeyer 等人提出了長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（LSTM-RNNLM）用于解決學(xué)習(xí)長(zhǎng)期依賴的問(wèn)題。為了降低訓(xùn)練、評(píng)估以及 PPL 的開銷，人們提出了各種各樣的改進(jìn)方案，例如分層的 Softmax、緩存（caching）模型等。最近，為了改進(jìn) NNLM，人們引入了注意力機(jī)制，取得了顯著的性能提升。

經(jīng)典的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

FFNN 語(yǔ)言模型

Xu 和 Rudnicky 等人于 2000 年試圖將神經(jīng)網(wǎng)絡(luò)（NN）引入到語(yǔ)言模型（LM）中。盡管他們的模型性能比基線 N 元模型語(yǔ)言模型要好，但是由于沒有隱藏層，他們模型的泛化能力較差，無(wú)法捕獲上下文相關(guān)特征。

根據(jù)公式 1，LM 的目標(biāo)等價(jià)于對(duì)條件概率 P(w_k|w_1 · · · w_(k?1)) 進(jìn)行估計(jì)。但是前饋神經(jīng)網(wǎng)絡(luò)（FFNN）不能直接處理變長(zhǎng)數(shù)據(jù)（variable-length data），也不能夠有效地表征歷史上下文。因此，對(duì)于像 LM 這樣的序列建模任務(wù)，F(xiàn)FNN 必須使用定長(zhǎng)的輸入。受到 N 元語(yǔ)言模型的啟發(fā)（見公式 2），F(xiàn)FNNLM 將前 n-1 個(gè)單詞作為了預(yù)測(cè)下一個(gè)單詞的上下文。

如圖 1 所示，Bengio 等人于 2003 年提出了原始 FFNNLM 的架構(gòu)。這個(gè) FFNNLM 可以寫作：

其中，H、U 和 W 是層與層之間連接的權(quán)重矩陣；d 和 b 是隱藏層和輸出層的偏置。

圖 1：Bengio 等人于 2003 年提出的 FFNNLM。

FFNNLM 通過(guò)為每個(gè)單詞學(xué)習(xí)一個(gè)分布式表征來(lái)實(shí)現(xiàn)在連續(xù)空間上的建模。單詞表征是語(yǔ)言模型的副產(chǎn)品，它往往被用于改進(jìn)其它的 NLP 任務(wù)?；?FFNNLM，Mikolov 等人于 2013 提出了兩種詞表征模型：「CBOW」和「Skip-gram」。FFNNLM 通過(guò)將單詞轉(zhuǎn)換為低維向量克服了維數(shù)詛咒。FFNNLM 引領(lǐng)了 NNLM 研究的潮流。

然而，F(xiàn)FNNLM 仍然具有一些缺點(diǎn)。在訓(xùn)練前指定的上下文大小是有限的，這與人類可以使用大量的上下文信息進(jìn)行預(yù)測(cè)的事實(shí)是嚴(yán)重不符的。序列中的單詞是時(shí)序相關(guān)的。而 FFNNLM 沒有使用時(shí)序信息進(jìn)行建模。此外，全連接 NN 需要學(xué)習(xí)許多可訓(xùn)練的參數(shù)，即使這些參數(shù)的數(shù)量比 N 元少，但是仍然具有很大的計(jì)算開銷，十分低效。

RNN 語(yǔ)言模型

第一個(gè) RNN 語(yǔ)言模型由 [Mikolov et al., 2010; Mikolov et al., 2011a] 提出，如圖 2 所示，在第 t 個(gè)時(shí)間步，RNNLM 可以寫作：

其中 U、W、V 是權(quán)值矩陣；b、d 分別是狀態(tài)層和輸出層的偏置。在 Mikolov 2010 年和 2011 年發(fā)表的論文中，f 代表 sigmoid 函數(shù)，g 代表 Softmax 函數(shù)。RNNLM 可以通過(guò)基于時(shí)間的反向傳播算法（BPTT）或截?cái)嗍?BPTT 算法來(lái)訓(xùn)練。根據(jù)他們的實(shí)驗(yàn)結(jié)果，RNNLM 在困惑度（PPL）方面要顯著優(yōu)于 FFNNLM 和 N 元語(yǔ)言模型。

圖 2：Mikolov 等人于 2010 年和 2011 年提出的 RNNLM。

盡管 RNNLM 可以利用素有的上下文進(jìn)行預(yù)測(cè)，但是訓(xùn)練模型學(xué)習(xí)長(zhǎng)期依賴仍然是一大挑戰(zhàn)。這是因?yàn)椋?RNN 的訓(xùn)練過(guò)程中，參數(shù)的梯度可能會(huì)發(fā)生梯度消失或者梯度爆炸，導(dǎo)致訓(xùn)練速度變慢或使得參數(shù)值無(wú)窮大。

LSTM-RNN 語(yǔ)言模型

長(zhǎng)短期記憶（LSTM）RNN 解決了這個(gè)問(wèn)題。Sundermeyer 等人于 2012 年將 LSTM 引入到了 LM 中，并且提出了 LSTM-RNNLM。除了記憶單元和 NN 的部分，LSTM-RNNLM 的架構(gòu)幾乎與 RNNLM 是一樣的。為了控制信息的流動(dòng)，他們將三種門結(jié)構(gòu)（包括輸入門、輸出門和遺忘門）加入到了 LSTM 的記憶單元中。LSTM-RNNLM 的常規(guī)架構(gòu)可以寫作：

其中，i_t，f_t，o_t 分別代表輸入門、遺忘門和輸出門。c_t 是單元的內(nèi)部記憶狀態(tài)。s_t 是隱藏狀態(tài)單元。U_i、U_f、U_o、U、W_i、W_f、W_o、W、V_i、V_f、V_o 以及 V 都是權(quán)值矩陣。b_i、b_f、b_o、b 以及 d 是偏置。f 是激活函數(shù)，σ 是各個(gè)門的激活函數(shù)（通常為 sigmoid 函數(shù)）。

對(duì)比上述三種經(jīng)典的 LM，RNNLM（包括 LSTM-RNNLM）的性能要優(yōu)于 FFNNLM，而且 LSTM-RNNLM 一直是最先進(jìn)的 LM。當(dāng)下的 NNLM 主要都是以 RNN 或 LSTM 為基礎(chǔ)的。

改進(jìn)的技術(shù)

降低困惑度的方法

為了降低困惑度，人們將一些新的結(jié)構(gòu)和更有效的信息引入到了經(jīng)典的 NNLM 模型中（尤其是 LSTM-RNNLM）。受到語(yǔ)言學(xué)和人類處理自然語(yǔ)言的方式的啟發(fā)，研究者們提出了一些新的、有效的方法，包括基于字符的（charac ter-aware）模型、因式分解模型、雙向模型、緩存模型、注意力機(jī)制，等等。

基于字符的（Character-Aware）模型

在自然語(yǔ)言中，一些形式相似的詞往往具有相同或相似的意思。例如，「superman」中的「man」和「policeman」中的「man」有著相同的含義。Mikolov 等人于 2012 年在字符級(jí)別上對(duì) RNNLM 和 FFNNLM 進(jìn)行了探究。字符級(jí) NNLM 可以被用來(lái)解決集外詞（OOV）問(wèn)題，由于字符特征揭示了單詞之間的結(jié)構(gòu)相似性，因此對(duì)不常見和未知單詞的建模有所改進(jìn)。由于使用了帶有字符級(jí)輸出的小型 Softmax 層，字符級(jí) NNLM 也減少了訓(xùn)練參數(shù)。然而，實(shí)驗(yàn)結(jié)果表明，訓(xùn)練準(zhǔn)確率高的字符級(jí) NNLM 是一項(xiàng)具有挑戰(zhàn)性的工作，其性能往往不如單次級(jí)的 NNLM。這是因?yàn)樽址?jí) NNLM 必須考慮更長(zhǎng)的歷史數(shù)據(jù)才能正確地預(yù)測(cè)下一個(gè)單詞。

人們已經(jīng)提出了許多將字符級(jí)和單詞級(jí)信息相結(jié)合的解決方案，它們通常被稱為基于字符（character-aware）的語(yǔ)言模型。一種方法是逐個(gè)單詞組織字符級(jí)特征，然后將它們用于單詞級(jí)語(yǔ)言模型。Kim 等人于 2015 年提出了用于提取單詞字符級(jí)特征的卷積神經(jīng)網(wǎng)絡(luò)以及用于在一個(gè)時(shí)間步內(nèi)接收這些字符級(jí)特征的 LSTM。Hwang 和 Sung 于 2016 年使用一個(gè)分層 RNN 架構(gòu)解決了字符級(jí) NNLM 的問(wèn)題，該架構(gòu)包含具有不同時(shí)間規(guī)模的多個(gè)模塊。

另一種解決方案是同時(shí)將字符級(jí)別和單詞級(jí)別的特征輸入給 NNLM。Miyamoto 和 Cho 等人于 2016 年提出使用 BiLSTM 從單詞中提取出的字符特征向量對(duì)單詞的特征向量進(jìn)行插值，并且將插值向量輸入給 LSTM。Verwimp 等人于 2017 年提出了一種「字符-單詞」LSTM-RNNLM，它直接將字符和單詞級(jí)別的特征向量連接起來(lái)，然后將連接結(jié)果輸入給網(wǎng)絡(luò)。基于字符的 LM 直接使用字符級(jí) LM 作為字符特征提取器，應(yīng)用于單詞級(jí) LM。這樣一來(lái)，LM 就具有豐富的用于預(yù)測(cè)的「字符-單詞」信息。

因式分解模型

NNLM 基于 token 定義了單詞的相似度。然而，相似度還可以根據(jù)單詞的形式特征（詞綴、大寫字母、連字符，等等）或者其它的注釋（如詞性標(biāo)注（POS））導(dǎo)出。受到因式分解 LM 的啟發(fā)，Alexandrescu 和 Kirchhoff 等人于 2016 年提出了一種因式分解 NNLM，這是一種新型的神經(jīng)概率 LM，它可以學(xué)習(xí)從單詞和特定的單詞特征到連續(xù)空間的映射。

因式分解模型使得模型可以總結(jié)出具有相同特征的單詞類別。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)應(yīng)用因子代替單詞 token 可以更好地學(xué)習(xí)單詞的連續(xù)表征，可以表征集外詞，也可以降低 LM 的困惑度。然而，對(duì)不同的因子的選擇和不同的上游 NLP 任務(wù)、語(yǔ)言模型的應(yīng)用是相關(guān)的。除了對(duì)各個(gè)因子分別進(jìn)行實(shí)驗(yàn)外，沒有其他方法可以用于因子的選擇。因此，對(duì)于特定的任務(wù)，需要有一種高效的因子選擇方法。同時(shí)，必須建立帶有因子標(biāo)簽的語(yǔ)料庫(kù)。

雙向模型

傳統(tǒng)的單向 NN 只能根據(jù)過(guò)去的輸入預(yù)測(cè)輸出。我們可以以未來(lái)的數(shù)據(jù)為條件，建立一個(gè)雙向的 NN。Graves 等于 2013 年、Bahdanau 等人于 2014 年將雙向 RNN 和 LSTM 神經(jīng)網(wǎng)絡(luò)（BiRNN 和 BiLSTM）引入了語(yǔ)音識(shí)別或其它的 NLP 任務(wù)。BiRNN 通過(guò)在兩個(gè)方向處理輸入數(shù)據(jù)來(lái)使用過(guò)去和未來(lái)的上下文。目前雙向模型最火的工作當(dāng)屬 Peter 等人于 2018 年提出的 ELMo 模型，這是一種基于 BiLSTM-RNNLM 的新型深度上下文單詞表示。預(yù)訓(xùn)練的 ELMo 模型的嵌入層的向量是通過(guò)詞匯表中的單詞學(xué)習(xí)到的表征向量。這些表征被添加到了現(xiàn)有的模型的嵌入層中，并且在 6 個(gè)具有挑戰(zhàn)性的 NLP 任務(wù)中顯著提升了目前最先進(jìn)的模型的性能。

盡管使用過(guò)去和未來(lái)的上下文的雙向語(yǔ)言模型（BiLM）已經(jīng)取得了進(jìn)展，但仍然需要注意的是，BiLM 不能夠被直接用于 LM，這是因?yàn)?LM 是定義在當(dāng)前單詞之前的上下文中的。由于單詞序列可以被視為一種同時(shí)輸入的序列，因此 BiLM 可以被用于其它的 NLP 任務(wù)（如機(jī)器翻譯、語(yǔ)音識(shí)別）。

緩存模型

「最新出現(xiàn)的單詞可能會(huì)再次出現(xiàn)」?；谶@個(gè)假設(shè)，緩存機(jī)制最初被用于優(yōu)化 N 元語(yǔ)言模型，克服了對(duì)依賴的長(zhǎng)度限制。該機(jī)制會(huì)在緩存中匹配新的輸入和歷史數(shù)據(jù)。緩存機(jī)制最初是為了降低 NNLM 的困惑度而提出的。Soutner 等人于 2012 年試圖將 FFNNLM 與緩存機(jī)制相結(jié)合，提出了基于緩存的 NNLM 結(jié)構(gòu)，導(dǎo)致了離散概率變化問(wèn)題。為了解決這個(gè)問(wèn)題，Grave 等人于 2016 年提出了連續(xù)的緩存模型，其中變化依賴于隱藏表征的內(nèi)積。

另一種緩存機(jī)制是將緩存用作 NNLM 的加速技術(shù)。該方法主要的思路是將 LM 的輸出和狀態(tài)存儲(chǔ)在一個(gè)哈希表中，用來(lái)在給定相同上下文歷史的條件下進(jìn)行未來(lái)的預(yù)測(cè)。例如，Huang 等人于 2014 年提出使用 4 個(gè)緩存來(lái)加速模型推理。使用到的緩存分別為：「查詢到語(yǔ)言模型概率的緩存（Query to Language Model Probability Cache）」、「歷史到隱藏狀態(tài)向量的緩存（History to Hidden State Vector Cache）」、「歷史到分類歸一化因子的緩存（History to Class Normalization Factor Cache）」以及「歷史和分類 Id 到子詞匯表歸一化因子的緩存（History and Class Id to Sub-vocabulary Normalization Factor Cache）」。

注意力機(jī)制

RNNLM 利用上下文預(yù)測(cè)下一個(gè)單詞。然而，并非上下文中所有的單詞都與下一個(gè)相關(guān)、對(duì)于預(yù)測(cè)有效。和人類一樣，帶有注意力機(jī)制的 LM 通過(guò)從單詞中選擇出有用的單詞表征，高效地使用長(zhǎng)期的歷史。Bahdanau 等人于 2014 年首次提出將注意力機(jī)制用于 NLP 任務(wù)（在他們的論文中是機(jī)器翻譯任務(wù)）。Tran 等人和 Mei 等人分別于 2016 年證明了注意力機(jī)制可以提升 RNNLM 的性能。

注意力機(jī)制可以通過(guò)一系列針對(duì)每個(gè)輸入的注意力系數(shù)捕獲需要被重點(diǎn)關(guān)注的目標(biāo)區(qū)域。注意力向量 z_t 是通過(guò) token 的表征 {r_0，r_1，· · ·，r_(t?1)} 來(lái)計(jì)算的。

這里的注意力系數(shù)α_ti 是通過(guò)得分 e_ti 的 Softmax 函數(shù)值歸一化計(jì)算得來(lái)的，其中

這是一個(gè)對(duì)齊模型，用于評(píng)估某個(gè) token 的表征 r_i 和隱藏狀態(tài) h_(t-1) 的匹配程度。該注意力向量是用于預(yù)測(cè)的上下文歷史的一種很好的表征。

針對(duì)大型語(yǔ)料庫(kù)的加速技術(shù)

在一個(gè)擁有大規(guī)模單詞表的語(yǔ)料庫(kù)上訓(xùn)練模型是非常費(fèi)時(shí)的。這主要是由于用于大型詞匯表的 Softmax 層。為了解決訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)輸出空間大的問(wèn)題，人們提出了許多方法。一般來(lái)說(shuō)，這些方法可以分為四類，即：分層的 Softmax、基于采樣的近似、自歸一化以及在有限損失函數(shù)上的精確梯度。其中前兩種方法被廣泛用于 NNLM。

語(yǔ)料庫(kù)

一般來(lái)說(shuō)，為了減少訓(xùn)練和測(cè)試的開銷，需要在小型語(yǔ)料庫(kù)上對(duì)模型的可行性進(jìn)行驗(yàn)證。常用的小型語(yǔ)料庫(kù)包括 Brown、Penn Treebank 以及 WikiText-2（見表 1）。

在模型結(jié)構(gòu)被確定后，需要在大型語(yǔ)料庫(kù)上對(duì)其進(jìn)行訓(xùn)練和評(píng)估，從而證明模型具有可靠的泛化能力。常用的大型語(yǔ)料庫(kù)會(huì)隨著時(shí)間根據(jù)網(wǎng)站、報(bào)紙等媒體（包括華爾街日?qǐng)?bào)、維基百科、新聞評(píng)論、 News Crawl、Common Crawl 、美聯(lián)社（AP）新聞等）被更新。

然而，我們通常會(huì)利用不同的大型語(yǔ)料庫(kù)訓(xùn)練 LM。即使在同一個(gè)語(yǔ)料庫(kù)上，各種不同的預(yù)處理方法和不同的訓(xùn)練/測(cè)試集的劃分也會(huì)影響實(shí)驗(yàn)結(jié)果。與此同時(shí)，展示訓(xùn)練時(shí)間的方式也不一樣，或者在一些論文中并沒有給出訓(xùn)練時(shí)間。不同論文中的實(shí)驗(yàn)結(jié)果并沒有得到充分的比較。

工具包

傳統(tǒng)的 LM 工具包主要包括「CMU-Cambridge SLM」、「SRILM」、「IRSTLM」、「MITLM」以及「BerkeleyLM」，它們只支持帶有各種平滑技術(shù)的 N 元語(yǔ)言模型的訓(xùn)練和評(píng)估。隨著深度學(xué)習(xí)的發(fā)展，人們提出了許多基于 NNLM 的工具包。

Mikolov 等人于 2011 年構(gòu)建了 RNNLM 工具包。該工具包支持訓(xùn)練 RNNLM 來(lái)優(yōu)化語(yǔ)音識(shí)別和機(jī)器翻譯，但是它并不支持并行訓(xùn)練算法和 GPU 運(yùn)算。Schwenk 于 2013 年構(gòu)建了神經(jīng)網(wǎng)絡(luò)開源工具 CSLM（連續(xù)空間語(yǔ)言建模），用于支持 FFNN 的訓(xùn)練和評(píng)估。Enarvi 和 Kurimo 于 2016 年提出了可伸縮的神經(jīng)網(wǎng)絡(luò)模型工具包「TheanoLM」，它訓(xùn)練 LM 對(duì)句子進(jìn)行打分并生成文本。

根據(jù)調(diào)查，我們發(fā)現(xiàn)并沒有同時(shí)支持傳統(tǒng) N 元語(yǔ)言模型和 NNLM 的工具包。而且它們通常并不包含加載常用的 LM 的功能。

未來(lái)的研究方向

首先，降低計(jì)算開銷、減少參數(shù)數(shù)量的方法仍然會(huì)被繼續(xù)探索，從而在不增加困惑度的條件下提升訓(xùn)練和評(píng)估的速度。其次，我們期待能夠產(chǎn)生一種新的架構(gòu)，它能夠模擬人的工作方式，從而提升 LM 的性能。例如，為 LM 構(gòu)建一種生成模型（例如 GAN），可能會(huì)成為一個(gè)新的研究方向。最后，同樣重要的是，目前的 LM 的評(píng)估體系并不規(guī)范。因此，有必要構(gòu)建一個(gè)評(píng)價(jià)對(duì)比基準(zhǔn)來(lái)統(tǒng)一預(yù)處理以及論文中應(yīng)該展示的實(shí)驗(yàn)結(jié)果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100318
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
491

瀏覽量
10229

原文標(biāo)題：從經(jīng)典結(jié)構(gòu)到改進(jìn)方法，神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型綜述

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

　　第1章概述　　1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展　　1.2 生物神經(jīng)元　　1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成　　第2章人工神經(jīng)網(wǎng)絡(luò)基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3

發(fā)表于 03-20 11:32

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

發(fā)表于 08-05 21:01

MATLAB神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-08 15:17

神經(jīng)網(wǎng)絡(luò)基本介紹

神經(jīng)網(wǎng)絡(luò)基本介紹

發(fā)表于 01-04 13:41

神經(jīng)網(wǎng)絡(luò)資料

基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法

發(fā)表于 05-16 17:25

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

發(fā)表于 06-06 14:21

卷積神經(jīng)網(wǎng)絡(luò)如何使用

卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么，鑒于神經(jīng)網(wǎng)絡(luò)在工程上經(jīng)歷了曲折的歷史，您為什么還會(huì)在意它呢? 對(duì)于這些非常中肯的問(wèn)題，我們似乎可以給出相對(duì)簡(jiǎn)明的答案。

發(fā)表于 07-17 07:21

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是自適應(yīng)諧振（ART）神經(jīng)網(wǎng)絡(luò)與自組織映射（SOM）神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難，只不過(guò)一些最基礎(chǔ)的概念容易理解不清。首先ART神經(jīng)網(wǎng)絡(luò)是競(jìng)爭(zhēng)學(xué)習(xí)的一個(gè)代表，

發(fā)表于 07-21 04:30

人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法有哪些？

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu)，它的提出是為了解決一些非線性，非平穩(wěn)，復(fù)雜的實(shí)際問(wèn)題。那有哪些辦法能實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)呢？

發(fā)表于 08-01 08:06

什么是LSTM神經(jīng)網(wǎng)絡(luò)

簡(jiǎn)單理解LSTM神經(jīng)網(wǎng)絡(luò)

發(fā)表于 01-28 07:16

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？

原文鏈接：http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)包括：輸入層：根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層：使用反向傳播優(yōu)化輸入變量權(quán)重的層，以提高模型的預(yù)測(cè)

發(fā)表于 07-12 08:02