0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么要給 LM 加上神經(jīng)網(wǎng)絡(luò)?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:YXQ ? 2019-08-05 16:50 ? 次閱讀

作為自然語(yǔ)言處理(NLP)系統(tǒng)的核心組成部分,語(yǔ)言模型可以提供詞表征和單詞序列的概率化表示。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NNLM)克服了維數(shù)的限制,提升了傳統(tǒng)語(yǔ)言模型的性能。本文對(duì) NNLM 進(jìn)行了綜述,首先描述了經(jīng)典的 NNLM 的結(jié)構(gòu),然后介紹并分析了一些主要的改進(jìn)方法。研究者總結(jié)并對(duì)比了 NNLM 的一些語(yǔ)料庫(kù)和工具包。此外,本文還討論了 NNLM 的一些研究方向。

什么是語(yǔ)言模型

語(yǔ)言模型(LM)是很多自然語(yǔ)言處理(NLP)任務(wù)的基礎(chǔ)。早期的 NLP 系統(tǒng)主要是基于手動(dòng)編寫的規(guī)則構(gòu)建的,既費(fèi)時(shí)又費(fèi)力,而且并不能涵蓋多種語(yǔ)言學(xué)現(xiàn)象。直到 20 世紀(jì) 80 年代,人們提出了統(tǒng)計(jì)語(yǔ)言模型,從而為由 N 個(gè)單詞構(gòu)成的序列 s 分配概率,即:

其中 w_i 代表序列 s 中的第 i 個(gè)單詞。一個(gè)單詞序列的概率可以被分解為在給定下一個(gè)單詞的前項(xiàng)(通常被稱為上下文歷史或上下文)的條件下,與下一個(gè)單詞的條件概率的乘積。

考慮到很難對(duì)上述模型中超多的參數(shù)進(jìn)行學(xué)習(xí),有必要采取一種近似方法。N 元(N-gram)模型是一種最為廣泛使用的近似方法,并且在 NNLM 出現(xiàn)之前是最先進(jìn)的模型。一個(gè)(k+1)元模型是由 k 階馬爾科夫假設(shè)推導(dǎo)出的。該假設(shè)說(shuō)明當(dāng)前的狀態(tài)僅僅依賴于前面的 k 個(gè)狀態(tài),即:

我們用極大似然估計(jì)來(lái)估計(jì)參數(shù)。

困惑度(PPL)[Jelinek et al., 1977] 是一種用來(lái)衡量一個(gè)概率模型質(zhì)量的信息論度量標(biāo)準(zhǔn),是評(píng)價(jià)語(yǔ)言模型的一種方法。PPL 越低說(shuō)明模型越好。給定一個(gè)包含 N 個(gè)單詞的語(yǔ)料庫(kù)和一個(gè)語(yǔ)言模型,該語(yǔ)言模型的 PPL 為:

值得注意的是,PPL 與語(yǔ)料庫(kù)相關(guān)??梢杂?PPL 在同一個(gè)語(yǔ)料庫(kù)上對(duì)兩個(gè)或多個(gè)語(yǔ)言模型進(jìn)行對(duì)比。

為什么要給 LM 加上神經(jīng)網(wǎng)絡(luò)?

然而,N 元語(yǔ)言模型有一個(gè)明顯的缺點(diǎn)。為了解決這個(gè)問(wèn)題,我們?cè)趯⑸窠?jīng)網(wǎng)絡(luò)(NN)引入到了連續(xù)空間的語(yǔ)言建模中。NN 包括前饋神經(jīng)網(wǎng)絡(luò)(FFNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),可以自動(dòng)學(xué)習(xí)特征和連續(xù)的表征。因此,人們希望將 NN 應(yīng)用于 LM,甚至其他的 NLP 任務(wù),從而考慮自然語(yǔ)言的離散性、組合性和稀疏性。

第一個(gè)前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(FFNNLM)由 Bengio 等人于 2003 年提出,它通過(guò)學(xué)習(xí)一個(gè)單詞的分布式表征(將單詞表征為一個(gè)被稱為「嵌入」的低維向量)來(lái)克服維數(shù)詛咒。FFNNLM 的性能要優(yōu)于 N 元語(yǔ)言模型。隨后,Mikolov 等人于 2010 年提出了 RNN 語(yǔ)言模型(RNNLM)。從那時(shí)起,NNLM 逐漸成為了主流的語(yǔ)言模型,并得到了迅速發(fā)展。

2012 年,Sundermeyer 等人提出了長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(LSTM-RNNLM)用于解決學(xué)習(xí)長(zhǎng)期依賴的問(wèn)題。為了降低訓(xùn)練、評(píng)估以及 PPL 的開銷,人們提出了各種各樣的改進(jìn)方案,例如分層的 Softmax、緩存(caching)模型等。最近,為了改進(jìn) NNLM,人們引入了注意力機(jī)制,取得了顯著的性能提升。

經(jīng)典的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

FFNN 語(yǔ)言模型

Xu 和 Rudnicky 等人于 2000 年試圖將神經(jīng)網(wǎng)絡(luò)(NN)引入到語(yǔ)言模型(LM)中。盡管他們的模型性能比基線 N 元模型語(yǔ)言模型要好,但是由于沒有隱藏層,他們模型的泛化能力較差,無(wú)法捕獲上下文相關(guān)特征。

根據(jù)公式 1,LM 的目標(biāo)等價(jià)于對(duì)條件概率 P(w_k|w_1 · · · w_(k?1)) 進(jìn)行估計(jì)。但是前饋神經(jīng)網(wǎng)絡(luò)(FFNN)不能直接處理變長(zhǎng)數(shù)據(jù)(variable-length data),也不能夠有效地表征歷史上下文。因此,對(duì)于像 LM 這樣的序列建模任務(wù),F(xiàn)FNN 必須使用定長(zhǎng)的輸入。受到 N 元語(yǔ)言模型的啟發(fā)(見公式 2),F(xiàn)FNNLM 將前 n-1 個(gè)單詞作為了預(yù)測(cè)下一個(gè)單詞的上下文。

如圖 1 所示,Bengio 等人于 2003 年提出了原始 FFNNLM 的架構(gòu)。這個(gè) FFNNLM 可以寫作:

其中,H、U 和 W 是層與層之間連接的權(quán)重矩陣;d 和 b 是隱藏層和輸出層的偏置。

圖 1:Bengio 等人于 2003 年提出的 FFNNLM。

FFNNLM 通過(guò)為每個(gè)單詞學(xué)習(xí)一個(gè)分布式表征來(lái)實(shí)現(xiàn)在連續(xù)空間上的建模。單詞表征是語(yǔ)言模型的副產(chǎn)品,它往往被用于改進(jìn)其它的 NLP 任務(wù)?;?FFNNLM,Mikolov 等人于 2013 提出了兩種詞表征模型:「CBOW」和「Skip-gram」。FFNNLM 通過(guò)將單詞轉(zhuǎn)換為低維向量克服了維數(shù)詛咒。FFNNLM 引領(lǐng)了 NNLM 研究的潮流。

然而,F(xiàn)FNNLM 仍然具有一些缺點(diǎn)。在訓(xùn)練前指定的上下文大小是有限的,這與人類可以使用大量的上下文信息進(jìn)行預(yù)測(cè)的事實(shí)是嚴(yán)重不符的。序列中的單詞是時(shí)序相關(guān)的。而 FFNNLM 沒有使用時(shí)序信息進(jìn)行建模。此外,全連接 NN 需要學(xué)習(xí)許多可訓(xùn)練的參數(shù),即使這些參數(shù)的數(shù)量比 N 元 少,但是仍然具有很大的計(jì)算開銷,十分低效。

RNN 語(yǔ)言模型

第一個(gè) RNN 語(yǔ)言模型由 [Mikolov et al., 2010; Mikolov et al., 2011a] 提出,如圖 2 所示,在第 t 個(gè)時(shí)間步,RNNLM 可以寫作:

其中 U、W、V 是權(quán)值矩陣;b、d 分別是狀態(tài)層和輸出層的偏置。在 Mikolov 2010 年和 2011 年發(fā)表的論文中,f 代表 sigmoid 函數(shù),g 代表 Softmax 函數(shù)。RNNLM 可以通過(guò)基于時(shí)間的反向傳播算法(BPTT)或截?cái)嗍?BPTT 算法來(lái)訓(xùn)練。根據(jù)他們的實(shí)驗(yàn)結(jié)果,RNNLM 在困惑度(PPL)方面要顯著優(yōu)于 FFNNLM 和 N 元語(yǔ)言模型。

圖 2:Mikolov 等人于 2010 年和 2011 年提出的 RNNLM。

盡管 RNNLM 可以利用素有的上下文進(jìn)行預(yù)測(cè),但是訓(xùn)練模型學(xué)習(xí)長(zhǎng)期依賴仍然是一大挑戰(zhàn)。這是因?yàn)椋?RNN 的訓(xùn)練過(guò)程中,參數(shù)的梯度可能會(huì)發(fā)生梯度消失或者梯度爆炸,導(dǎo)致訓(xùn)練速度變慢或使得參數(shù)值無(wú)窮大。

LSTM-RNN 語(yǔ)言模型

長(zhǎng)短期記憶(LSTM)RNN 解決了這個(gè)問(wèn)題。Sundermeyer 等人于 2012 年將 LSTM 引入到了 LM 中,并且提出了 LSTM-RNNLM。除了記憶單元和 NN 的部分,LSTM-RNNLM 的架構(gòu)幾乎與 RNNLM 是一樣的。為了控制信息的流動(dòng),他們將三種門結(jié)構(gòu)(包括輸入門、輸出門和遺忘門)加入到了 LSTM 的記憶單元中。LSTM-RNNLM 的常規(guī)架構(gòu)可以寫作:

其中,i_t,f_t,o_t 分別代表輸入門、遺忘門和輸出門。c_t 是單元的內(nèi)部記憶狀態(tài)。s_t 是隱藏狀態(tài)單元。U_i、U_f、U_o、U、W_i、W_f、W_o、W、V_i、V_f、V_o 以及 V 都是權(quán)值矩陣。b_i、b_f、b_o、b 以及 d 是偏置。f 是激活函數(shù),σ 是各個(gè)門的激活函數(shù)(通常為 sigmoid 函數(shù))。

對(duì)比上述三種經(jīng)典的 LM,RNNLM(包括 LSTM-RNNLM)的性能要優(yōu)于 FFNNLM,而且 LSTM-RNNLM 一直是最先進(jìn)的 LM。當(dāng)下的 NNLM 主要都是以 RNN 或 LSTM 為基礎(chǔ)的。

改進(jìn)的技術(shù)

降低困惑度的方法

為了降低困惑度,人們將一些新的結(jié)構(gòu)和更有效的信息引入到了經(jīng)典的 NNLM 模型中(尤其是 LSTM-RNNLM)。受到語(yǔ)言學(xué)和人類處理自然語(yǔ)言的方式的啟發(fā),研究者們提出了一些新的、有效的方法,包括基于字符的(character-aware)模型、因式分解模型、雙向模型、緩存模型、注意力機(jī)制,等等。

基于字符的(Character-Aware)模型

在自然語(yǔ)言中,一些形式相似的詞往往具有相同或相似的意思。例如,「superman」中的「man」和「policeman」中的「man」有著相同的含義。Mikolov 等人于 2012 年在字符級(jí)別上對(duì) RNNLM 和 FFNNLM 進(jìn)行了探究。字符級(jí) NNLM 可以被用來(lái)解決集外詞(OOV)問(wèn)題,由于字符特征揭示了單詞之間的結(jié)構(gòu)相似性,因此對(duì)不常見和未知單詞的建模有所改進(jìn)。由于使用了帶有字符級(jí)輸出的小型 Softmax 層,字符級(jí) NNLM 也減少了訓(xùn)練參數(shù)。然而,實(shí)驗(yàn)結(jié)果表明,訓(xùn)練準(zhǔn)確率高的字符級(jí) NNLM 是一項(xiàng)具有挑戰(zhàn)性的工作,其性能往往不如單次級(jí)的 NNLM。這是因?yàn)樽址?jí) NNLM 必須考慮更長(zhǎng)的歷史數(shù)據(jù)才能正確地預(yù)測(cè)下一個(gè)單詞。

人們已經(jīng)提出了許多將字符級(jí)和單詞級(jí)信息相結(jié)合的解決方案,它們通常被稱為基于字符(character-aware)的語(yǔ)言模型。一種方法是逐個(gè)單詞組織字符級(jí)特征,然后將它們用于單詞級(jí)語(yǔ)言模型。Kim 等人于 2015 年提出了用于提取單詞字符級(jí)特征的卷積神經(jīng)網(wǎng)絡(luò)以及用于在一個(gè)時(shí)間步內(nèi)接收這些字符級(jí)特征的 LSTM。Hwang 和 Sung 于 2016 年使用一個(gè)分層 RNN 架構(gòu)解決了字符級(jí) NNLM 的問(wèn)題,該架構(gòu)包含具有不同時(shí)間規(guī)模的多個(gè)模塊。

另一種解決方案是同時(shí)將字符級(jí)別和單詞級(jí)別的特征輸入給 NNLM。Miyamoto 和 Cho 等人于 2016 年提出使用 BiLSTM 從單詞中提取出的字符特征向量對(duì)單詞的特征向量進(jìn)行插值,并且將插值向量輸入給 LSTM。Verwimp 等人于 2017 年提出了一種「字符-單詞」LSTM-RNNLM,它直接將字符和單詞級(jí)別的特征向量連接起來(lái),然后將連接結(jié)果輸入給網(wǎng)絡(luò)。基于字符的 LM 直接使用字符級(jí) LM 作為字符特征提取器,應(yīng)用于單詞級(jí) LM。這樣一來(lái),LM 就具有豐富的用于預(yù)測(cè)的「字符-單詞」信息。

因式分解模型

NNLM 基于 token 定義了單詞的相似度。然而,相似度還可以根據(jù)單詞的形式特征(詞綴、大寫字母、連字符,等等)或者其它的注釋(如詞性標(biāo)注(POS))導(dǎo)出。受到因式分解 LM 的啟發(fā),Alexandrescu 和 Kirchhoff 等人于 2016 年提出了一種因式分解 NNLM,這是一種新型的神經(jīng)概率 LM,它可以學(xué)習(xí)從單詞和特定的單詞特征到連續(xù)空間的映射。

因式分解模型使得模型可以總結(jié)出具有相同特征的單詞類別。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)應(yīng)用因子代替單詞 token 可以更好地學(xué)習(xí)單詞的連續(xù)表征,可以表征集外詞,也可以降低 LM 的困惑度。然而,對(duì)不同的因子的選擇和不同的上游 NLP 任務(wù)、語(yǔ)言模型的應(yīng)用是相關(guān)的。除了對(duì)各個(gè)因子分別進(jìn)行實(shí)驗(yàn)外,沒有其他方法可以用于因子的選擇。因此,對(duì)于特定的任務(wù),需要有一種高效的因子選擇方法。同時(shí),必須建立帶有因子標(biāo)簽的語(yǔ)料庫(kù)。

雙向模型

傳統(tǒng)的單向 NN 只能根據(jù)過(guò)去的輸入預(yù)測(cè)輸出。我們可以以未來(lái)的數(shù)據(jù)為條件,建立一個(gè)雙向的 NN。Graves 等于 2013 年、Bahdanau 等人于 2014 年將雙向 RNN 和 LSTM 神經(jīng)網(wǎng)絡(luò)(BiRNN 和 BiLSTM)引入了語(yǔ)音識(shí)別或其它的 NLP 任務(wù)。BiRNN 通過(guò)在兩個(gè)方向處理輸入數(shù)據(jù)來(lái)使用過(guò)去和未來(lái)的上下文。目前雙向模型最火的工作當(dāng)屬 Peter 等人于 2018 年提出的 ELMo 模型,這是一種基于 BiLSTM-RNNLM 的新型深度上下文單詞表示。預(yù)訓(xùn)練的 ELMo 模型的嵌入層的向量是通過(guò)詞匯表中的單詞學(xué)習(xí)到的表征向量。這些表征被添加到了現(xiàn)有的模型的嵌入層中,并且在 6 個(gè)具有挑戰(zhàn)性的 NLP 任務(wù)中顯著提升了目前最先進(jìn)的模型的性能。

盡管使用過(guò)去和未來(lái)的上下文的雙向語(yǔ)言模型(BiLM)已經(jīng)取得了進(jìn)展,但仍然需要注意的是,BiLM 不能夠被直接用于 LM,這是因?yàn)?LM 是定義在當(dāng)前單詞之前的上下文中的。由于單詞序列可以被視為一種同時(shí)輸入的序列,因此 BiLM 可以被用于其它的 NLP 任務(wù)(如機(jī)器翻譯、語(yǔ)音識(shí)別)。

緩存模型

最新出現(xiàn)的單詞可能會(huì)再次出現(xiàn)」?;谶@個(gè)假設(shè),緩存機(jī)制最初被用于優(yōu)化 N 元語(yǔ)言模型,克服了對(duì)依賴的長(zhǎng)度限制。該機(jī)制會(huì)在緩存中匹配新的輸入和歷史數(shù)據(jù)。緩存機(jī)制最初是為了降低 NNLM 的困惑度而提出的。Soutner 等人于 2012 年試圖將 FFNNLM 與緩存機(jī)制相結(jié)合,提出了基于緩存的 NNLM 結(jié)構(gòu),導(dǎo)致了離散概率變化問(wèn)題。為了解決這個(gè)問(wèn)題,Grave 等人于 2016 年提出了連續(xù)的緩存模型,其中變化依賴于隱藏表征的內(nèi)積。

另一種緩存機(jī)制是將緩存用作 NNLM 的加速技術(shù)。該方法主要的思路是將 LM 的輸出和狀態(tài)存儲(chǔ)在一個(gè)哈希表中,用來(lái)在給定相同上下文歷史的條件下進(jìn)行未來(lái)的預(yù)測(cè)。例如,Huang 等人于 2014 年提出使用 4 個(gè)緩存來(lái)加速模型推理。使用到的緩存分別為:「查詢到語(yǔ)言模型概率的緩存(Query to Language Model Probability Cache)」、「歷史到隱藏狀態(tài)向量的緩存(History to Hidden State Vector Cache)」、「歷史到分類歸一化因子的緩存(History to Class Normalization Factor Cache)」以及「歷史和分類 Id 到子詞匯表歸一化因子的緩存(History and Class Id to Sub-vocabulary Normalization Factor Cache)」。

注意力機(jī)制

RNNLM 利用上下文預(yù)測(cè)下一個(gè)單詞。然而,并非上下文中所有的單詞都與下一個(gè)相關(guān)、對(duì)于預(yù)測(cè)有效。和人類一樣,帶有注意力機(jī)制的 LM 通過(guò)從單詞中選擇出有用的單詞表征,高效地使用長(zhǎng)期的歷史。Bahdanau 等人于 2014 年首次提出將注意力機(jī)制用于 NLP 任務(wù)(在他們的論文中是機(jī)器翻譯任務(wù))。Tran 等人和 Mei 等人分別于 2016 年證明了注意力機(jī)制可以提升 RNNLM 的性能。

注意力機(jī)制可以通過(guò)一系列針對(duì)每個(gè)輸入的注意力系數(shù)捕獲需要被重點(diǎn)關(guān)注的目標(biāo)區(qū)域。注意力向量 z_t 是通過(guò) token 的表征 {r_0,r_1,· · ·,r_(t?1)} 來(lái)計(jì)算的。

這里的注意力系數(shù)α_ti 是通過(guò)得分 e_ti 的 Softmax 函數(shù)值歸一化計(jì)算得來(lái)的,其中

這是一個(gè)對(duì)齊模型,用于評(píng)估某個(gè) token 的表征 r_i 和隱藏狀態(tài) h_(t-1) 的匹配程度。該注意力向量是用于預(yù)測(cè)的上下文歷史的一種很好的表征。

針對(duì)大型語(yǔ)料庫(kù)的加速技術(shù)

在一個(gè)擁有大規(guī)模單詞表的語(yǔ)料庫(kù)上訓(xùn)練模型是非常費(fèi)時(shí)的。這主要是由于用于大型詞匯表的 Softmax 層。為了解決訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)輸出空間大的問(wèn)題,人們提出了許多方法。一般來(lái)說(shuō),這些方法可以分為四類,即:分層的 Softmax、基于采樣的近似、自歸一化以及在有限損失函數(shù)上的精確梯度。其中前兩種方法被廣泛用于 NNLM。

語(yǔ)料庫(kù)

一般來(lái)說(shuō),為了減少訓(xùn)練和測(cè)試的開銷,需要在小型語(yǔ)料庫(kù)上對(duì)模型的可行性進(jìn)行驗(yàn)證。常用的小型語(yǔ)料庫(kù)包括 Brown、Penn Treebank 以及 WikiText-2(見表 1)。

在模型結(jié)構(gòu)被確定后,需要在大型語(yǔ)料庫(kù)上對(duì)其進(jìn)行訓(xùn)練和評(píng)估,從而證明模型具有可靠的泛化能力。常用的大型語(yǔ)料庫(kù)會(huì)隨著時(shí)間根據(jù)網(wǎng)站、報(bào)紙等媒體(包括華爾街日?qǐng)?bào)、維基百科、新聞評(píng)論、 News Crawl、Common Crawl 、美聯(lián)社(AP)新聞等)被更新。

然而,我們通常會(huì)利用不同的大型語(yǔ)料庫(kù)訓(xùn)練 LM。即使在同一個(gè)語(yǔ)料庫(kù)上,各種不同的預(yù)處理方法和不同的訓(xùn)練/測(cè)試集的劃分也會(huì)影響實(shí)驗(yàn)結(jié)果。與此同時(shí),展示訓(xùn)練時(shí)間的方式也不一樣,或者在一些論文中并沒有給出訓(xùn)練時(shí)間。不同論文中的實(shí)驗(yàn)結(jié)果并沒有得到充分的比較。

工具包

傳統(tǒng)的 LM 工具包主要包括「CMU-Cambridge SLM」、「SRILM」、「IRSTLM」、「MITLM」以及「BerkeleyLM」,它們只支持帶有各種平滑技術(shù)的 N 元語(yǔ)言模型的訓(xùn)練和評(píng)估。隨著深度學(xué)習(xí)的發(fā)展,人們提出了許多基于 NNLM 的工具包。

Mikolov 等人于 2011 年構(gòu)建了 RNNLM 工具包。該工具包支持訓(xùn)練 RNNLM 來(lái)優(yōu)化語(yǔ)音識(shí)別和機(jī)器翻譯,但是它并不支持并行訓(xùn)練算法和 GPU 運(yùn)算。Schwenk 于 2013 年構(gòu)建了神經(jīng)網(wǎng)絡(luò)開源工具 CSLM(連續(xù)空間語(yǔ)言建模),用于支持 FFNN 的訓(xùn)練和評(píng)估。Enarvi 和 Kurimo 于 2016 年提出了可伸縮的神經(jīng)網(wǎng)絡(luò)模型工具包「TheanoLM」,它訓(xùn)練 LM 對(duì)句子進(jìn)行打分并生成文本。

根據(jù)調(diào)查,我們發(fā)現(xiàn)并沒有同時(shí)支持傳統(tǒng) N 元語(yǔ)言模型和 NNLM 的工具包。而且它們通常并不包含加載常用的 LM 的功能。

未來(lái)的研究方向

首先,降低計(jì)算開銷、減少參數(shù)數(shù)量的方法仍然會(huì)被繼續(xù)探索,從而在不增加困惑度的條件下提升訓(xùn)練和評(píng)估的速度。其次,我們期待能夠產(chǎn)生一種新的架構(gòu),它能夠模擬人的工作方式,從而提升 LM 的性能。例如,為 LM 構(gòu)建一種生成模型(例如 GAN),可能會(huì)成為一個(gè)新的研究方向。最后,同樣重要的是,目前的 LM 的評(píng)估體系并不規(guī)范。因此,有必要構(gòu)建一個(gè)評(píng)價(jià)對(duì)比基準(zhǔn)來(lái)統(tǒng)一預(yù)處理以及論文中應(yīng)該展示的實(shí)驗(yàn)結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:從經(jīng)典結(jié)構(gòu)到改進(jìn)方法,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型綜述

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)教程(李亞非)

      第1章 概述  1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展  1.2 生物神經(jīng)元  1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成  第2章人工神經(jīng)網(wǎng)絡(luò)基本模型  2.1 MP模型  2.2 感知器模型  2.3
    發(fā)表于 03-20 11:32

    神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

    神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
    發(fā)表于 08-05 21:01

    MATLAB神經(jīng)網(wǎng)絡(luò)

    MATLAB神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 07-08 15:17

    神經(jīng)網(wǎng)絡(luò)基本介紹

    神經(jīng)網(wǎng)絡(luò)基本介紹
    發(fā)表于 01-04 13:41

    神經(jīng)網(wǎng)絡(luò)資料

    基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法
    發(fā)表于 05-16 17:25

    全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

    全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別
    發(fā)表于 06-06 14:21

    卷積神經(jīng)網(wǎng)絡(luò)如何使用

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么,鑒于神經(jīng)網(wǎng)絡(luò)在工程上經(jīng)歷了曲折的歷史,您為什么還會(huì)在意它呢? 對(duì)于這些非常中肯的問(wèn)題,我們似乎可以給出相對(duì)簡(jiǎn)明的答案。
    發(fā)表于 07-17 07:21

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過(guò)一些最基礎(chǔ)的概念容易理解不清。首先ART神經(jīng)網(wǎng)絡(luò)是競(jìng)爭(zhēng)學(xué)習(xí)的一個(gè)代表,
    發(fā)表于 07-21 04:30

    人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法有哪些?

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu),它的提出是為了解決一些非線性,非平穩(wěn),復(fù)雜的實(shí)際問(wèn)題。那有哪些辦法能實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)呢?
    發(fā)表于 08-01 08:06

    什么是LSTM神經(jīng)網(wǎng)絡(luò)

    簡(jiǎn)單理解LSTM神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 01-28 07:16

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測(cè)
    發(fā)表于 07-12 08:02

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過(guò)對(duì)系統(tǒng)性能的學(xué)習(xí)來(lái)實(shí)現(xiàn)具有最佳組合的PID控制。利用BP
    發(fā)表于 09-07 07:43

    神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

    神經(jīng)網(wǎng)絡(luò)移植到STM32最近在做的一個(gè)項(xiàng)目需要用到網(wǎng)絡(luò)進(jìn)行擬合,并且將擬合得到的結(jié)果用作控制,就在想能不能直接在單片機(jī)上做神經(jīng)網(wǎng)絡(luò)計(jì)算,這樣就可以實(shí)時(shí)計(jì)算,不依賴于上位機(jī)。所以要解決的主要是兩個(gè)
    發(fā)表于 01-11 06:20

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用轉(zhuǎn)載****地址:http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能研究的最新趨勢(shì),作為一個(gè)
    發(fā)表于 08-02 10:39

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識(shí)。就目前而言,神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心,我們所熟知的很多深度學(xué)習(xí)算法的背后其實(shí)都是神經(jīng)網(wǎng)絡(luò)。
    的頭像 發(fā)表于 02-23 09:14 ?3220次閱讀