0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從原理到代碼理解語言模型訓(xùn)練和推理,通俗易懂,快速修煉LLM

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-09-19 16:25 ? 次閱讀

今天分享一篇博客,介紹語言模型的訓(xùn)練和推理,通俗易懂且抓住本質(zhì)核心,強烈推薦閱讀。

標(biāo)題:Language Model Training and Inference: From Concept to Code
作者:CAMERON R. WOLFE
原文:
https://cameronrwolfe.substack.com/p/language-model-training-and-inference

要理解大語言模型(LLM),首先要理解它的本質(zhì),無論預(yù)訓(xùn)練、微調(diào)還是在推理階段,核心都是next token prediction,也就是以自回歸的方式從左到右逐步生成文本。

什么是token?

token是指文本中的一個詞或者子詞,給定一句文本,送入語言模型前首先要做的是對原始文本進行tokenize,也就是把一個文本序列拆分為離散的token序列

340537bc-56c3-11ee-939d-92fbcf53809c.png

其中,tokenizer是在無標(biāo)簽的語料上訓(xùn)練得到的一個token數(shù)量固定且唯一的分詞器,這里的token數(shù)量就是大家常說的詞表,也就是語言模型知道的所有tokens。

當(dāng)我們對文本進行分詞后,每個token可以對應(yīng)一個embedding,這也就是語言模型中的embedding層,獲得某個token的embedding就類似一個查表的過程

3416725c-56c3-11ee-939d-92fbcf53809c.png

我們知道文本序列是有順序的,而常見的語言模型都是基于注意力機制的transformer結(jié)構(gòu),無法自動考慮文本的前后順序,因此需要手動加上位置編碼,也就是每個位置有一個位置embedding,然后和對應(yīng)位置的token embedding進行相加

3426a866-56c3-11ee-939d-92fbcf53809c.png

在模型訓(xùn)練或推理階段大家經(jīng)常會聽到上下文長度這個詞,它指的是模型訓(xùn)練時接收的token訓(xùn)練的最大長度,如果在訓(xùn)練階段只學(xué)習(xí)了一個較短長度的位置embedding,那模型在推理階段就不能夠適用于較長文本(因為它沒見過長文本的位置編碼)

34357954-56c3-11ee-939d-92fbcf53809c.png

語言模型的預(yù)訓(xùn)練

當(dāng)我們有了token embedding和位置embedding后,將它們送入一個decoder-only的transofrmer模型,它會在每個token的位置輸出一個對應(yīng)的embedding(可以理解為就像是做了個特征加工)

34423e6e-56c3-11ee-939d-92fbcf53809c.png

有了每個token的一個輸出embedding后,我們就可以拿它來做next token prediction了,其實就是當(dāng)作一個分類問題來看待:

首先我們把輸出embedding送入一個線性層,輸出的維度是詞表的大小,就是讓預(yù)測這個token的下一個token屬于詞表的“哪一類”

為了將輸出概率歸一化,需要再進行一個softmax變換

訓(xùn)練時就是最大化這個概率使得它能夠預(yù)測真實的下一個token

推理時就是從這個概率分布中采樣下一個token

3456930a-56c3-11ee-939d-92fbcf53809c.png

訓(xùn)練階段:因為有causal自注意力的存在,我們可以一次性對一整個句子每個token進行下一個token的預(yù)測,并計算所有位置token的loss,因此只需要一forward

推理階段:以自回歸的方式進行預(yù)測

每次預(yù)測下一個token

將預(yù)測的token拼接到當(dāng)前已經(jīng)生成的句子上

再基于拼接后的句子進行預(yù)測下一個token

不斷重復(fù)直到結(jié)束

其中,在預(yù)測下一個token時,每次我們都有一個概率分布用于采樣,根據(jù)不同場景選擇采樣策略會略有不同,不然有貪婪策略、核采樣、Top-k采樣等,另外經(jīng)常會看到Temperature這個概念,它是用來控制生成的隨機性的,溫度系數(shù)越小越穩(wěn)定。

3471acb2-56c3-11ee-939d-92fbcf53809c.png

代碼實現(xiàn)

下面代碼來自項目https://github.com/karpathy/nanoGPT/tree/master,同樣是一個很好的項目,推薦初學(xué)者可以看看。

對于各種基于Transformer的模型,它們都是由很多個Block堆起來的,每個Block主要有兩個部分組成:

Multi-headed Causal Self-Attention

Feed-forward Neural Network結(jié)構(gòu)的示意圖如下:

348137fe-56c3-11ee-939d-92fbcf53809c.png

看圖搭一下單個Block

348f6e5a-56c3-11ee-939d-92fbcf53809c.png

然后看下一整個GPT的結(jié)構(gòu)

349c3c70-56c3-11ee-939d-92fbcf53809c.png

主要就是兩個embedding層(token、位置)、多個block、一些額外的dropout和LayerNorm層,以及最后用來預(yù)測下一個token的線性層。說破了就是這么簡單。

這邊還用到了weight tying的技巧,就是最后一層用來分類的線性層的權(quán)重和token embedding層的權(quán)重共享。

接下來重點來關(guān)注一下訓(xùn)練和推理的forward是如何進行的,這能幫助大家更好的理解原理。

首先需要構(gòu)建token embedding和位置embedding,把它們疊加起來后過一個dropout,然后就可以送入transformer的block中了。

34ac7e8c-56c3-11ee-939d-92fbcf53809c.png

需要注意的是經(jīng)過transforemr block后出來的tensor的維度跟之前是一樣的。拿到每個token位置對應(yīng)的輸出embedding后,就可以通過最后的先行層進行分類,然后用交叉熵損失來進行優(yōu)化。

34c3aa94-56c3-11ee-939d-92fbcf53809c.png

再看一下完整的過程,其中只需要將輸入左移一個位置就可以作為target了

34d55122-56c3-11ee-939d-92fbcf53809c.png

接下來看推理階段:

根據(jù)當(dāng)前輸入序列進行一次前向傳播

利用溫度系數(shù)對輸出概率分布進行調(diào)整

通過softmax進行歸一化

從概率分布進行采樣下一個token

拼接到當(dāng)前句子并再進入下一輪循環(huán)

34ea1436-56c3-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    491

    瀏覽量

    10225
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    253

    瀏覽量

    286

原文標(biāo)題:從原理到代碼理解語言模型訓(xùn)練和推理,通俗易懂,快速修煉LLM

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    通俗易懂的PID教程

    本帖最后由 Calvin248 于 2013-5-5 15:31 編輯 幫助大家更好的理解PID算法,講解的很通俗易懂,并且附有程序,幫助大家理解掌握!
    發(fā)表于 05-05 15:30

    通俗易懂的PID算法

    發(fā)幾個通俗易懂的PID算法,需要的拿走
    發(fā)表于 01-26 00:54

    通俗易懂系列整合—電源基礎(chǔ)知識講解

    之前發(fā)表了六篇用通俗易懂的話講解電源知識的文章,分別是關(guān)于三極管、電阻、電容、電感、二極管和場效應(yīng)管的講解。怕想學(xué)習(xí)的壇友找不到內(nèi)容,所以這邊整合一下,給大家分享文章的鏈接。用通俗易懂的話讓你明白
    發(fā)表于 02-17 09:43

    PID通俗易懂

    PID通俗易懂.....................
    發(fā)表于 06-30 18:54

    通俗易懂之電子稱開發(fā)導(dǎo)航篇

    通俗易懂之電子稱開發(fā)立項篇https://bbs.elecfans.com/jishu_919726_1_1.html通俗易懂之電子稱開發(fā)硬件篇https://bbs.elecfans.com
    發(fā)表于 07-18 21:22

    通俗易懂的單片機教程

    通俗易懂的單片機教程
    發(fā)表于 09-29 15:45 ?636次下載
    <b class='flag-5'>通俗易懂</b>的單片機教程

    卡爾曼濾波的原理說明(通俗易懂)

    通俗易懂的 卡爾曼濾波原理 由淺入深不光是公式的介紹
    發(fā)表于 12-08 18:13 ?37次下載

    卡爾曼濾波的原理說明(通俗易懂)

    這是關(guān)于卡爾曼濾波的原理說明(通俗易懂),適合初學(xué)者
    發(fā)表于 03-16 14:40 ?0次下載

    PID通俗易懂

    PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂
    發(fā)表于 04-19 09:54 ?21次下載

    卡爾曼濾波器[附帶例程]通俗易懂

    卡爾曼濾波器[附帶例程] 通俗易懂 附上工程代碼 C語言 c++ 以及matlab
    發(fā)表于 09-27 16:34 ?17次下載

    步進電機基本原理(通俗易懂)

    步進電機基本原理(通俗易懂)
    發(fā)表于 11-30 11:55 ?0次下載

    通俗易懂的講解FFT的讓你快速了解FFT

    相信網(wǎng)上現(xiàn)在有很多關(guān)于FFT的教程,我曾經(jīng)也參閱了很多網(wǎng)上的教程,感覺都不怎么通俗易懂。在基本上的研究FFT,并且通過編程的形式實現(xiàn)之后。我決定寫一篇通俗易懂的關(guān)于FFT的講解。因此我在接下來的敘述中盡量非常通俗細致的講解。
    的頭像 發(fā)表于 03-24 11:52 ?3.6w次閱讀
    <b class='flag-5'>通俗易懂</b>的講解FFT的讓你<b class='flag-5'>快速</b>了解FFT

    大型語言模型LLM)的自定義訓(xùn)練:包含代碼示例的詳細指南

    近年來,像 GPT-4 這樣的大型語言模型LLM) 因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是,要根據(jù)特定任務(wù)或領(lǐng)域定制
    發(fā)表于 06-12 09:35 ?2479次閱讀

    通俗易懂的ArkTS語言入門指南

    本文為我整理出來最通俗易懂的 ArkTS 語言入門指南。
    的頭像 發(fā)表于 06-18 15:12 ?2.2w次閱讀
    最<b class='flag-5'>通俗易懂</b>的ArkTS<b class='flag-5'>語言</b>入門指南

    語言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始
    的頭像 發(fā)表于 06-04 08:27 ?788次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)<b class='flag-5'>快速</b><b class='flag-5'>理解</b>