一道本在线伊人蕉无码,91精品国产乱码久久久久

目前關(guān)于chatGPT的資料過于零散，沒有詳盡所有知識(shí)點(diǎn)、系統(tǒng)概述的文章，因此，筆者作了這篇總結(jié)性文章。

訓(xùn)練過程總覽

理清演化路徑

預(yù)訓(xùn)練(pretrain)

GPT-3概述

GPT 3模型的理念

GPT-3如何學(xué)習(xí)

數(shù)據(jù)集

指令微調(diào) (Instruction Fine-Tuning，IFT)

有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)

人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback，RLHF)

其他方法

思維鏈 (Chain-of-thought，CoT)

與chatGPT類似的工作

引用

進(jìn)NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進(jìn)入對(duì)應(yīng)投稿群)

訓(xùn)練過程總覽

OpenAI 使用了 175B參數(shù)的大型語言模型（LM）和 6B參數(shù)的獎(jiǎng)勵(lì)模型（RM）。除預(yù)訓(xùn)練之外，訓(xùn)練過程分為三步：

收集NLP各種任務(wù)的數(shù)據(jù)集，加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集，并使用這些數(shù)據(jù)微調(diào)預(yù)訓(xùn)練的大型語言模型。包括指令微調(diào)和有監(jiān)督微調(diào)。

從上述數(shù)據(jù)集中采樣，使用大型語言模型生成多個(gè)響應(yīng)，手動(dòng)對(duì)這些響應(yīng)進(jìn)行排名，并訓(xùn)練獎(jiǎng)勵(lì)模型（RM）以適應(yīng)人類偏好。

基于第一階段的有監(jiān)督微調(diào)模型和第二階段的獎(jiǎng)勵(lì)模型，使用強(qiáng)化學(xué)習(xí)算法進(jìn)一步訓(xùn)練大型語言模型。

img

理清演化路徑

GPT-3.5 參數(shù)量仍然為175B，總體進(jìn)化樹如下：

img

預(yù)訓(xùn)練(pretrain)

GPT-3概述

GPT-3是一種自回歸模型，僅使用解碼器，訓(xùn)練目標(biāo)也是預(yù)測下一個(gè)單詞（沒有判斷下一句任務(wù)）。

最大的GPT-3模型有175B參數(shù)，是BERT模型大470倍(0.375B)

image-20230221144754842

GPT 3模型的理念

不需要接新的模型結(jié)構(gòu)：如bert用于NER任務(wù)一般接LSTM+CRF

不需要微調(diào)

一個(gè)模型解決NLP多種任務(wù)

NLP任務(wù)都可以用生成模型解決

和人類一樣，只需要看極少數(shù)量的樣例就能學(xué)會(huì)

GPT-3如何學(xué)習(xí)

零樣本學(xué)習(xí)：提供任務(wù)描述、提示

單樣本學(xué)習(xí)：提供任務(wù)描述、一個(gè)樣例、提示

少樣本學(xué)習(xí)：提供任務(wù)描述、幾個(gè)樣例、提示

數(shù)據(jù)集

模型	發(fā)布時(shí)間	參數(shù)量	預(yù)訓(xùn)練數(shù)據(jù)量
BERT-large	2019 年 3 月	3.75 億	約3.3GB
GPT	2018 年 6 月	1.17 億	約 5GB
GPT-2	2019 年 2 月	15 億	40GB
GPT-3	2020 年 5 月	1,750 億	45TB

BERT-large：BooksCorpus 800M words、 English Wikipedia 2.5Bwords

GPT：WebText2, BooksCorpus、Wikipedia超過 5GB。

GPT-2：WebText2, BooksCorpus、Wikipedia總量達(dá)到了40GB。

GPT-3：**WebText2, BooksCorpus、Wikipedia、Common Crawl **等數(shù)據(jù)集45TB數(shù)據(jù)。

image-20230221153905277

指令微調(diào) (Instruction Fine-Tuning，IFT)

收集NLP各種任務(wù)的數(shù)據(jù)集，加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集。chatGPT使用到的數(shù)據(jù)集如下：

image-20230221113507381

相關(guān)的一些論文：

Unnatural Instructions (Honovich 等, '22)//arxiv.org/abs/2212.09689

Super-natural instructions (Wang 等, '22)//arxiv.org/abs/2204.07705

Self-Instruct (Wang 等, '22)//arxiv.org/abs/2212.10560

T0 (Sanh 等, '22)//arxiv.org/abs/2110.08207

Natural instructions 數(shù)據(jù)集 (Mishra 等, '22)//arxiv.org/abs/2104.08773

FLAN LM (Wei 等, '22)//arxiv.org/abs/2109.01652

OPT-IML (Iyer 等, '22)//arxiv.org/abs/2212.12017

有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)

此步驟未為了防止遇到敏感話題時(shí)，回復(fù)【不知道】這種無意義的回答，以加入一些人工標(biāo)注數(shù)據(jù)，增加回復(fù)安全性，百級(jí)別的數(shù)據(jù)集即可完成。

相關(guān)的一些論文：

Google 的 LaMDA:附錄 Ahttps://arxiv.org/abs/2201.08239

DeepMind 的 Sparrow: Sparrow :附錄 Fhttps://arxiv.org/abs/2209.14375

人類反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback，RLHF)

描述：

策略 (policy) ：一個(gè)接受提示并返回一系列文本 (或文本的概率分布) 的 LM。

行動(dòng)空間 (action space) ：LM 的詞表對(duì)應(yīng)的所有詞元 (一般在 50k 數(shù)量級(jí)) ，

觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標(biāo)記的數(shù)量) 。

獎(jiǎng)勵(lì)函數(shù)是偏好模型和策略轉(zhuǎn)變約束 (Policy shift constraint) 的結(jié)合。

此過程分為兩步：

聚合問答數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 (Reward Model，RM)

用強(qiáng)化學(xué)習(xí) (RL) 方式微調(diào) LM

開源數(shù)據(jù)集：

Anthropic/hh-rlhf · Datasets at Hugging Face

OpenAI 使用的是用戶提交的反饋。

image-20230221111329526

其他方法

這部分簡單介紹一下和chatGPT使用的微調(diào)并列的一些方法

思維鏈 (Chain-of-thought，CoT)

如下圖所示使用一些帶有逐步推理的數(shù)據(jù)集進(jìn)行微調(diào)

橙色是任務(wù)描述，粉色是問題和答案，藍(lán)色是推理過程

思維鏈提示 (Wei 等, '22)//arxiv.org/abs/2201.11903

與chatGPT類似的工作

Meta 的 BlenderBot//arxiv.org/abs/2208.03188

Google 的 LaMDA//arxiv.org/abs/2201.08239

DeepMind 的 Sparrow//arxiv.org/abs/2209.14375

Anthropic 的 Assistant//arxiv.org/abs/2204.05862

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴