0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通俗易懂chatGPT原理

深度學(xué)習(xí)自然語言處理 ? 來源:無數(shù)據(jù)不智能 ? 2023-04-07 10:50 ? 次閱讀

目前關(guān)于chatGPT的資料過于零散,沒有詳盡所有知識(shí)點(diǎn)、系統(tǒng)概述的文章,因此,筆者作了這篇總結(jié)性文章。

訓(xùn)練過程總覽

理清演化路徑

預(yù)訓(xùn)練(pretrain)

GPT-3概述

GPT 3模型的理念

GPT-3如何學(xué)習(xí)

數(shù)據(jù)集

指令微調(diào) (Instruction Fine-Tuning,IFT)

有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)

人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback,RLHF)

其他方法

思維鏈 (Chain-of-thought,CoT)

與chatGPT類似的工作

引用

進(jìn)NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進(jìn)入對(duì)應(yīng)投稿群)

訓(xùn)練過程總覽

OpenAI 使用了 175B參數(shù)的大型語言模型(LM) 和 6B參數(shù)的獎(jiǎng)勵(lì)模型(RM)。除預(yù)訓(xùn)練之外,訓(xùn)練過程分為三步:

收集NLP各種任務(wù)的數(shù)據(jù)集,加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集,并使用這些數(shù)據(jù)微調(diào)預(yù)訓(xùn)練的大型語言模型。包括指令微調(diào)和有監(jiān)督微調(diào)。

從上述數(shù)據(jù)集中采樣,使用大型語言模型生成多個(gè)響應(yīng),手動(dòng)對(duì)這些響應(yīng)進(jìn)行排名,并訓(xùn)練獎(jiǎng)勵(lì)模型 (RM) 以適應(yīng)人類偏好。

基于第一階段的有監(jiān)督微調(diào)模型和第二階段的獎(jiǎng)勵(lì)模型,使用強(qiáng)化學(xué)習(xí)算法進(jìn)一步訓(xùn)練大型語言模型。

ee4dc8e8-d4e9-11ed-bfe3-dac502259ad0.svg

img

理清演化路徑

GPT-3.5 參數(shù)量仍然為175B,總體進(jìn)化樹如下:

ee6e9294-d4e9-11ed-bfe3-dac502259ad0.png

img

ee857bb2-d4e9-11ed-bfe3-dac502259ad0.png

img

預(yù)訓(xùn)練(pretrain)

GPT-3概述

ee9c1fa2-d4e9-11ed-bfe3-dac502259ad0.jpg

eebabec6-d4e9-11ed-bfe3-dac502259ad0.png

GPT-3是一種自回歸模型,僅使用解碼器,訓(xùn)練目標(biāo)也是預(yù)測下一個(gè)單詞(沒有判斷下一句任務(wù))。

最大的GPT-3模型有175B參數(shù),是BERT模型大470倍(0.375B)

eedc43ac-d4e9-11ed-bfe3-dac502259ad0.png

image-20230221144754842

GPT 3模型的理念

不需要接新的模型結(jié)構(gòu):如bert用于NER任務(wù)一般接LSTM+CRF

不需要微調(diào)

一個(gè)模型解決NLP多種任務(wù)

NLP任務(wù)都可以用生成模型解決

和人類一樣,只需要看極少數(shù)量的樣例就能學(xué)會(huì)

GPT-3如何學(xué)習(xí)

零樣本學(xué)習(xí):提供任務(wù)描述、提示

單樣本學(xué)習(xí):提供任務(wù)描述、一個(gè)樣例、提示

少樣本學(xué)習(xí):提供任務(wù)描述、幾個(gè)樣例、提示

eefc954e-d4e9-11ed-bfe3-dac502259ad0.png

數(shù)據(jù)集

模型 發(fā)布時(shí)間 參數(shù)量 預(yù)訓(xùn)練數(shù)據(jù)量
BERT-large 2019 年 3 月 3.75 億 約3.3GB
GPT 2018 年 6 月 1.17 億 5GB
GPT-2 2019 年 2 月 15 億 40GB
GPT-3 2020 年 5 月 1,750 億 45TB

BERT-large:BooksCorpus 800M words、 English Wikipedia 2.5Bwords

GPT:WebText2, BooksCorpus、Wikipedia超過 5GB。

GPT-2:WebText2, BooksCorpus、Wikipedia總量達(dá)到了40GB。

GPT-3:**WebText2, BooksCorpus、Wikipedia、Common Crawl **等數(shù)據(jù)集45TB數(shù)據(jù)。

ef1206b8-d4e9-11ed-bfe3-dac502259ad0.png

image-20230221153905277

指令微調(diào) (Instruction Fine-Tuning,IFT)

收集NLP各種任務(wù)的數(shù)據(jù)集,加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集。chatGPT使用到的數(shù)據(jù)集如下:

ef29e4e0-d4e9-11ed-bfe3-dac502259ad0.png

image-20230221113507381

相關(guān)的一些論文:

Unnatural Instructions (Honovich 等, '22)//arxiv.org/abs/2212.09689

Super-natural instructions (Wang 等, '22)//arxiv.org/abs/2204.07705

Self-Instruct (Wang 等, '22)//arxiv.org/abs/2212.10560

T0 (Sanh 等, '22)//arxiv.org/abs/2110.08207

Natural instructions 數(shù)據(jù)集 (Mishra 等, '22)//arxiv.org/abs/2104.08773

FLAN LM (Wei 等, '22)//arxiv.org/abs/2109.01652

OPT-IML (Iyer 等, '22)//arxiv.org/abs/2212.12017

有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)

此步驟未為了防止遇到敏感話題時(shí),回復(fù)【不知道】這種無意義的回答,以加入一些人工標(biāo)注數(shù)據(jù),增加回復(fù)安全性,百級(jí)別的數(shù)據(jù)集即可完成。

ef3c0cc4-d4e9-11ed-bfe3-dac502259ad0.png

相關(guān)的一些論文:

Google 的 LaMDA:附錄 Ahttps://arxiv.org/abs/2201.08239

DeepMind 的 Sparrow: Sparrow :附錄 Fhttps://arxiv.org/abs/2209.14375

人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback,RLHF)

描述:

策略 (policy) :一個(gè)接受提示并返回一系列文本 (或文本的概率分布) 的 LM。

行動(dòng)空間 (action space) :LM 的詞表對(duì)應(yīng)的所有詞元 (一般在 50k 數(shù)量級(jí)) ,

觀察空間 (observation space) 是可能的輸入詞元序列,也比較大 (詞匯量 ^ 輸入標(biāo)記的數(shù)量) 。

獎(jiǎng)勵(lì)函數(shù)是偏好模型和策略轉(zhuǎn)變約束 (Policy shift constraint) 的結(jié)合。

此過程分為兩步:

聚合問答數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 (Reward Model,RM)

用強(qiáng)化學(xué)習(xí) (RL) 方式微調(diào) LM

開源數(shù)據(jù)集:

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用戶提交的反饋。

ef4f0c5c-d4e9-11ed-bfe3-dac502259ad0.png

image-20230221111329526

其他方法

這部分簡單介紹一下和chatGPT使用的微調(diào)并列的一些方法

思維鏈 (Chain-of-thought,CoT)

如下圖所示使用一些帶有逐步推理的數(shù)據(jù)集進(jìn)行微調(diào)

橙色是任務(wù)描述,粉色是問題和答案,藍(lán)色是推理過程

ef70907a-d4e9-11ed-bfe3-dac502259ad0.png

思維鏈提示 (Wei 等, '22)//arxiv.org/abs/2201.11903

與chatGPT類似的工作

Meta 的 BlenderBot//arxiv.org/abs/2208.03188

Google 的 LaMDA//arxiv.org/abs/2201.08239

DeepMind 的 Sparrow//arxiv.org/abs/2209.14375

Anthropic 的 Assistant//arxiv.org/abs/2204.05862

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1199

    瀏覽量

    24594
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21976
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1536

    瀏覽量

    7273

原文標(biāo)題:通俗易懂chatGPT原理

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    通俗易懂的PID教程

    本帖最后由 Calvin248 于 2013-5-5 15:31 編輯 幫助大家更好的理解PID算法,講解的很通俗易懂,并且附有程序,幫助大家理解掌握!
    發(fā)表于 05-05 15:30

    通俗易懂的PID算法

    發(fā)幾個(gè)通俗易懂的PID算法,需要的拿走
    發(fā)表于 01-26 00:54

    通俗易懂系列整合—電源基礎(chǔ)知識(shí)講解

    之前發(fā)表了六篇用通俗易懂的話講解電源知識(shí)的文章,分別是關(guān)于三極管、電阻、電容、電感、二極管和場效應(yīng)管的講解。怕想學(xué)習(xí)的壇友找不到內(nèi)容,所以這邊整合一下,給大家分享文章的鏈接。用通俗易懂的話讓你明白
    發(fā)表于 02-17 09:43

    標(biāo)準(zhǔn)的PID處理例程(PID通俗易懂的講解)[2]

    標(biāo)準(zhǔn)的PID處理例程(PID通俗易懂的講解)[2]
    發(fā)表于 06-13 11:44

    PID通俗易懂

    PID通俗易懂.....................
    發(fā)表于 06-30 18:54

    通俗易懂之電子稱開發(fā)導(dǎo)航篇

    通俗易懂之電子稱開發(fā)立項(xiàng)篇https://bbs.elecfans.com/jishu_919726_1_1.html通俗易懂之電子稱開發(fā)硬件篇https://bbs.elecfans.com
    發(fā)表于 07-18 21:22

    通俗易懂的《路由和交換》

    通俗易懂的《路由和交換》 路由和交換是網(wǎng)絡(luò)世界中兩個(gè)重要的概念。傳統(tǒng)的交換發(fā)生在網(wǎng)絡(luò)的第二層,即數(shù)據(jù)鏈路層,而路由則發(fā)
    發(fā)表于 08-01 10:39 ?942次閱讀

    通俗易懂的單片機(jī)教程

    通俗易懂的單片機(jī)教程
    發(fā)表于 09-29 15:45 ?636次下載
    <b class='flag-5'>通俗易懂</b>的單片機(jī)教程

    卡爾曼濾波的原理說明(通俗易懂)

    通俗易懂的 卡爾曼濾波原理 由淺入深不光是公式的介紹
    發(fā)表于 12-08 18:13 ?37次下載

    卡爾曼濾波的原理說明(通俗易懂)

    這是關(guān)于卡爾曼濾波的原理說明(通俗易懂),適合初學(xué)者
    發(fā)表于 03-16 14:40 ?0次下載

    PID通俗易懂

    PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂PID通俗易懂
    發(fā)表于 04-19 09:54 ?21次下載

    卡爾曼濾波器[附帶例程]通俗易懂

    卡爾曼濾波器[附帶例程] 通俗易懂 附上工程代碼 C語言 c++ 以及matlab
    發(fā)表于 09-27 16:34 ?17次下載

    步進(jìn)電機(jī)基本原理(通俗易懂)

    步進(jìn)電機(jī)基本原理(通俗易懂)
    發(fā)表于 11-30 11:55 ?0次下載

    通俗易懂的講解FFT的讓你快速了解FFT

    相信網(wǎng)上現(xiàn)在有很多關(guān)于FFT的教程,我曾經(jīng)也參閱了很多網(wǎng)上的教程,感覺都不怎么通俗易懂。在基本上的研究FFT,并且通過編程的形式實(shí)現(xiàn)之后。我決定寫一篇通俗易懂的關(guān)于FFT的講解。因此我在接下來的敘述中盡量非常通俗細(xì)致的講解。
    的頭像 發(fā)表于 03-24 11:52 ?3.6w次閱讀
    <b class='flag-5'>通俗易懂</b>的講解FFT的讓你快速了解FFT

    通俗易懂的ArkTS語言入門指南

    本文為我整理出來最通俗易懂的 ArkTS 語言入門指南。
    的頭像 發(fā)表于 06-18 15:12 ?2.2w次閱讀
    最<b class='flag-5'>通俗易懂</b>的ArkTS語言入門指南