免费在线黄色视频网站,欧美黄视频在线观看

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內(nèi)部機(jī)制，以提高它們的可靠性和可解釋性。

隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進(jìn)模型和減輕其故障（如幻覺或推理錯誤）至關(guān)重要。眾所周知，最近 LLM 成功的一個(gè)重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu)，特別是自注意力塊的使用，其能夠仔細(xì)選擇輸入序列，進(jìn)而推理出可信的下一個(gè) token。此外，預(yù)測可能需要全局知識，如語法規(guī)則或一般事實(shí)，這些可能不會出現(xiàn)在上下文中，需要存儲在模型中。我們不禁會疑問，為什么基于 Transformer 的模型非常擅長使用它們的上下文來預(yù)測新的 token，這種能力是如何在訓(xùn)練中產(chǎn)生的？帶著這些問題，來自 Meta AI 的研究者進(jìn)行了深入的研究。他們通過研究合成設(shè)置下 Transformer 的學(xué)習(xí)機(jī)制，揭示了其全局和上下文學(xué)習(xí)的平衡，并將權(quán)重矩陣解釋為聯(lián)想記憶，為理解和優(yōu)化 Transformer 提供了基礎(chǔ)。

論文地址：https://arxiv.org/abs/2306.00802 首先要了解的是在訓(xùn)練過程中 Transformer 是如何發(fā)現(xiàn)這些能力的。為此，該研究引入了一個(gè)合成數(shù)據(jù)集，該數(shù)據(jù)集由二元語言模型生成的序列組成。然后，模型需要依靠上下文學(xué)習(xí)來對特定的二元序列進(jìn)行良好的預(yù)測，而全局二元可以根據(jù)當(dāng)前 token 的全局統(tǒng)計(jì)數(shù)據(jù)進(jìn)行猜測。雖然單層的 Transformer 無法可靠地預(yù)測上下文二元，但該研究發(fā)現(xiàn)通過開發(fā)感應(yīng)頭（induction head）機(jī)制的雙層 Transformer 取得了成功，即擁有兩個(gè)注意力頭的 circuit，其允許 Transformer 從上下文 [???, a, b,???, a] 中預(yù)測 b，并且在 Transformer 語言模型中似乎無處不在。這種感應(yīng)頭（induction head）機(jī)制在 Transformer 語言模型中是普遍存在的，并且取得了成功。更進(jìn)一步的，為了更好的了解上下文機(jī)制是怎樣出現(xiàn)在訓(xùn)練過程中的，該研究在隨機(jī)初始化時(shí)凍結(jié)了一些層（包括嵌入和值矩陣）來進(jìn)一步簡化模型架構(gòu)。這樣一來研究重點(diǎn)轉(zhuǎn)移到注意力和前饋機(jī)制，同時(shí)避免了學(xué)習(xí)表征的困難。與此同時(shí)，這種簡化還為單個(gè)權(quán)重矩陣引入了一個(gè)自然模型作為聯(lián)想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機(jī)高維嵌入由于其接近正交性而特別適合這種觀點(diǎn)。總結(jié)而言，該研究的貢獻(xiàn)可概括為：

本文引入了一種新的合成設(shè)置來研究全局和上下文學(xué)習(xí)：序列遵循二元語言模型，其中一些二元在序列中變化，而另一些不會。

本文將 Transformer 的權(quán)重矩陣視為學(xué)習(xí)存儲特定嵌入對的聯(lián)想記憶，并以此為任務(wù)推導(dǎo)出一個(gè)簡化但更可解釋的模型。

本文對訓(xùn)練動態(tài)進(jìn)行了細(xì)致的實(shí)證研究：首先學(xué)習(xí)全局二元，然后以自上而下的方式學(xué)習(xí)適當(dāng)?shù)挠洃?，形成感?yīng)頭。

本文給出了訓(xùn)練動力學(xué)的理論見解，展示了如何通過在噪聲輸入中找到信號，在種群損失上進(jìn)行一些自上而下的梯度步驟來恢復(fù)所需的聯(lián)想記憶。

方法介紹 接著該研究介紹了合成數(shù)據(jù)設(shè)置，這樣能夠仔細(xì)研究感應(yīng)頭機(jī)制在訓(xùn)練過程中的發(fā)展以及 Transformer 如何學(xué)習(xí)利用上下文信息的。雙元數(shù)據(jù)模型：模型序列由一個(gè)通用的雙元語言模型（即馬爾可夫鏈）組成，每個(gè)序列的生成方式如下：下圖 2 可視化了測試序列上的注意力圖，這表明該模型已經(jīng)學(xué)習(xí)了感應(yīng)頭機(jī)制。接著該研究介紹了 Transformer 聯(lián)想記憶觀點(diǎn)：因?yàn)閹缀跽坏那度?，?quán)重矩陣表現(xiàn)為聯(lián)想記憶，將成對的嵌入存儲為其外積的加權(quán)和。研究引入了一個(gè)具有固定隨機(jī)嵌入的簡化 Transformer 模型，將用這種想法產(chǎn)生對學(xué)習(xí)動力學(xué)的精確理解。此外，該研究提出了一個(gè)有用的觀點(diǎn)，將 Transformer 中的模型權(quán)重視為高維嵌入向量的聯(lián)想記憶。感應(yīng)頭機(jī)制可以通過以下外積矩陣作為記憶來獲得，而其他所有權(quán)重則固定為隨機(jī)初始化狀態(tài)： 實(shí)驗(yàn) 圖 3 研究了在迭代 300 次之前凍結(jié)不同層對訓(xùn)練動態(tài)的影響。全局 vs 上下文學(xué)習(xí)。從圖 4（左 / 右）可以看出，當(dāng)聯(lián)合訓(xùn)練所有層時(shí)，全局二元統(tǒng)計(jì)的學(xué)習(xí)速度往往比感應(yīng)頭更快，這可以從早期迭代中的 loss 和 KL 的快速下降中看出。此外，從圖 4（左）中看到，數(shù)據(jù)分布的變化會對上下文機(jī)制的學(xué)習(xí)速度產(chǎn)生重大影響。該研究觀察到以下情況可能會使上下文學(xué)習(xí)減慢：(i) 較少數(shù)量的觸發(fā)器 K， (ii) 僅使用少有的固定觸發(fā)器，以及 (iii) 使用隨機(jī)觸發(fā)器而不是固定觸發(fā)器。該研究還在圖 4（中間）中顯示，在訓(xùn)練時(shí)將輸出 token 分布更改為二元分布會降低準(zhǔn)確率，這表明，使用更多樣化的訓(xùn)練分布可以產(chǎn)生具有更好泛化準(zhǔn)確率的模型，并且只需少量的額外訓(xùn)練成本。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

存儲

存儲

+關(guān)注

關(guān)注
13

文章
4169

瀏覽量
85479
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
490

瀏覽量
10225
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
136

瀏覽量
5961
LLM

LLM

+關(guān)注

關(guān)注
0

文章
252

瀏覽量
285

原文標(biāo)題：基于Transformer的大模型是如何運(yùn)行的？Meta揭秘內(nèi)部機(jī)制！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

了解大型語言模型 (LLM) 領(lǐng)域中的25個(gè)關(guān)鍵術(shù)語

1.LLM（大語言模型）大型語言模型(LLMs)是先進(jìn)的人工智能系統(tǒng)，經(jīng)過大量文本數(shù)據(jù)集的訓(xùn)練，

發(fā)表于 05-10 08:27 ?1173次閱讀

了解<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 領(lǐng)域中的25個(gè)關(guān)鍵術(shù)語

LLM之外的性價(jià)比之選，小語言模型

? 電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）大語言模型的風(fēng)靡給AI應(yīng)用創(chuàng)造了不少機(jī)會，無論是效率還是創(chuàng)意上，大語言模型都帶來了前所未有的表現(xiàn)，這些大語言

發(fā)表于 06-03 05:15 ?2114次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

之后，成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此，它還對自然語言處理領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響?；?b class='flag-5'>Transformer的預(yù)訓(xùn)練模型，如GPT系列和BERT系列，已在多種任務(wù)上取得了卓越的成績。目前的大

發(fā)表于 05-05 12:17

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規(guī)模和復(fù)雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達(dá) 30% 的訓(xùn)練速度。

發(fā)表于 10-10 15:39 ?831次閱讀

大型語言模型有哪些用途？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下，可

發(fā)表于 02-23 19:50 ?5041次閱讀

大型語言模型（LLM）的自定義訓(xùn)練：包含代碼示例的詳細(xì)指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是，要根據(jù)特定任務(wù)或領(lǐng)域定制

發(fā)表于 06-12 09:35 ?2463次閱讀

大型語言模型的應(yīng)用

?? 大型語言模型（LLM）是一種深度學(xué)習(xí)算法，可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大語言

發(fā)表于 07-05 10:27 ?1987次閱讀

Medusa如何加速大型語言模型（LLM）的生成？

面對推測性解碼的復(fù)雜性，研究人員推出了Medusa技術(shù)，這個(gè)框架回歸了Transformer模型的本質(zhì)，減少了復(fù)雜度，增強(qiáng)了效率，讓每個(gè)生成階段都能快速產(chǎn)出結(jié)果。當(dāng)將Medusa與基于樹的注意機(jī)制結(jié)合時(shí)，生成速度提高了2到3倍。

發(fā)表于 09-20 11:23 ?686次閱讀

Long-Context下LLM模型架構(gòu)全面介紹

隨著ChatGPT的快速發(fā)展，基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路，并已應(yīng)用于知

發(fā)表于 11-27 17:37 ?882次閱讀

大語言模型(LLM)快速理解

自2022年，ChatGPT發(fā)布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始，先來整體理解一下大

發(fā)表于 06-04 08:27 ?775次閱讀

LLM模型的應(yīng)用領(lǐng)域

在本文中，我們將深入探討LLM（Large Language Model，大型語言模型）的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù)，

發(fā)表于 07-09 09:52 ?394次閱讀

llm模型和chatGPT的區(qū)別

LLM（Large Language Model）是指大型語言模型，它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理（NLP）

發(fā)表于 07-09 09:55 ?683次閱讀

llm模型有哪些格式

LLM（Large Language Model，大型語言模型）是一種深度學(xué)習(xí)模型，主要用于處理自然語言

發(fā)表于 07-09 09:59 ?436次閱讀

llm模型本地部署有用嗎

在當(dāng)今的人工智能領(lǐng)域，LLM（Large Language Model，大型語言模型）已經(jīng)成為了一種非常受歡迎的技術(shù)。它們在自然語言處理（N

發(fā)表于 07-09 10:14 ?330次閱讀

Transformer語言模型簡介與實(shí)現(xiàn)過程

在自然語言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來最引人注目的技術(shù)之一。Transformer模型

發(fā)表于 07-10 11:48 ?907次閱讀