0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

各種大語言模型是徹底被解封了

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-04-20 11:25 ? 次閱讀

自從ChatGPT出現(xiàn)之后,各種大語言模型是徹底被解封了,每天見到的模型都能不重樣,幾乎分不清這些模型是哪個機構(gòu)發(fā)布的、有什么功能特點、以及這些模型的關(guān)系。比如 GPT-3.0 和 GPT 3.5 就有一系列的模型版本和索引,還有羊駝、小羊駝、駱駝 ...... 于是淺淺的調(diào)研了一下比較有名的大語言模型,主要是想混個臉熟,整理完之后就感覺清晰多了,又可以輕松逛知乎學(xué)習(xí)了。

一、Basic Language Model 基礎(chǔ)語言模型是指只在大規(guī)模文本語料中進(jìn)行了預(yù)訓(xùn)練的模型,未經(jīng)過指令和下游任務(wù)微調(diào)、以及人類反饋等任何對齊優(yōu)化。

a731385e-dedb-11ed-bfe3-dac502259ad0.jpg

基礎(chǔ) LLM 基本信息表,GPT-style 表示 decoder-only 的自回歸語言模型,T5-style 表示 encoder-decoder 的語言模型,GLM-style 表示 GLM 特殊的模型結(jié)構(gòu),Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

當(dāng)前絕大部分的大語言模型都是 Decoder-only 的模型結(jié)構(gòu),原因請轉(zhuǎn)移這個問題:為什么現(xiàn)在的LLM都是Decoder only的架構(gòu)[1];

大部分大語言模型都不開源,而 OPT、BLOOM、LLaMA 三個模型是主要面向開源促進(jìn)研究和應(yīng)用的,中文開源可用的是 GLM,后續(xù)很多工作都是在這些開源的基礎(chǔ)模型上進(jìn)行微調(diào)優(yōu)化的。

T5T5 是谷歌提出了一個統(tǒng)一預(yù)訓(xùn)練模型和框架,模型采用了谷歌最原始的 Encoder-Decoder Transformer結(jié)構(gòu)。T5將每個文本處理問題都看成“Text-to-Text”問題,即將文本作為輸入,生成新的文本作為輸出。通過這種方式可以將不同的 NLP 任務(wù)統(tǒng)一在一個模型框架之下,充分進(jìn)行遷移學(xué)習(xí)。 為了告知模型需要執(zhí)行的任務(wù)類型,在輸入的文本前添加任務(wù)特定的文本前綴 (task-specific prefifix ) 進(jìn)行提示,這也就是最早的 Prompt。也就說可以用同樣的模型,同樣的損失函數(shù),同樣的訓(xùn)練過程,同樣的解碼過程來完成所有 NLP 任務(wù)。 T5 本身主要是針對英文訓(xùn)練,谷歌還發(fā)布了支持 101 種語言的 T5 的多語言版本 mT5[3]。

a7380490-dedb-11ed-bfe3-dac502259ad0.jpg

GPT-3大語言模型中最具代表和引領(lǐng)性的就是發(fā)布 ChatGPT 的 OpenAI 的 GPT 系列模型 (GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4),并且當(dāng)前大部分大語言模型的結(jié)構(gòu)都是 GPT-style ,文章生成式預(yù)訓(xùn)練模型[5]中介紹了GPT-1/2/3, 且從 GPT-3 開始才是真正意義的大模型。 GPT-3 是 OpenAI 發(fā)布的 GPT 系列模型的一個,延續(xù)了 GPT-1/2 基于Transformer Decoder 的自回歸語言模型結(jié)構(gòu),但GPT-3 將模型參數(shù)規(guī)模擴大至 175B, 是 GPT-2 的 100 倍,從大規(guī)模數(shù)據(jù)中吸納更多的知識。 GPT-3不再追求 zero-shot 的設(shè)定,而是提出 In-Context Learning ,在下游任務(wù)中模型不需要任何額外的微調(diào),利用 Prompts 給定少量標(biāo)注的樣本讓模型學(xué)習(xí)再進(jìn)行推理生成。就能夠在只有少量目標(biāo)任務(wù)標(biāo)注樣本的情況下進(jìn)行很好的泛化,再次證明大力出擊奇跡,做大模型的必要性。 通過大量的實驗證明,在 zero-shot、one-shot 和 few-shot 設(shè)置下,GPT-3 在許多 NLP 任務(wù)和基準(zhǔn)測試中表現(xiàn)出強大的性能,只有少量目標(biāo)任務(wù)標(biāo)注樣本的情況下進(jìn)行很好的泛化,再次證明大力出擊奇跡,做大模型的必要性。

a73f7040-dedb-11ed-bfe3-dac502259ad0.jpg

LaMDALaMDA 是谷歌在2021年開發(fā)者大會上公布的專用于對話的大語言模型,具有 137B 個參數(shù)。論文中提出三個指導(dǎo)模型更好訓(xùn)練的指標(biāo):質(zhì)量/Quality(合理性/Sensibleness、特異性/Specificity、趣味性/Interestingness,SSI)、安全性/Safety、真實性/Groundedness。 和其他大模型一樣,LaMDA分為預(yù)訓(xùn)練和微調(diào)兩步,在微調(diào)階段,生成式任務(wù)(給定上下文生成響應(yīng))和判別式任務(wù)(評估模型生成響應(yīng)的質(zhì)量和安全性)應(yīng)用于預(yù)訓(xùn)練模型進(jìn)行微調(diào)形成 LaMDA。對話期間,LaMDA 生成器在給定多輪對話上下文時生成幾個候選響應(yīng),然后 LaMDA 判別器預(yù)測每個候選響應(yīng)的 SSI 和安全分?jǐn)?shù)。安全分?jǐn)?shù)低的候選響應(yīng)首先被過濾掉,剩下的候選響應(yīng)根據(jù) SSI 分?jǐn)?shù)重新排名,并選擇分?jǐn)?shù)最高的作為最終響應(yīng)。為提升 LaMDA 生成響應(yīng)的真實可靠性,收集標(biāo)注用戶與 LaMDA 間對話的數(shù)據(jù)集,并在適用的情況下使用檢索查詢和檢索結(jié)果進(jìn)行注釋。然后,在這個數(shù)據(jù)集上微調(diào) LaMDA,學(xué)習(xí)與用戶交互期間調(diào)用外部信息檢索系統(tǒng),提升生成響應(yīng)的真實可靠性。

a750057c-dedb-11ed-bfe3-dac502259ad0.jpg

Jurassic-1Jurassic-1 是以色列的 AI 公司 AI21 Labs 發(fā)布的一對自回歸語言模型,由 178B 參數(shù)模型 J1-Jumbo 和 7B 參數(shù)模型 J1-Large 組成,大致對應(yīng) GPT-3 175B 和 GPT-3 6.7B 兩個模型。 該模型主要對標(biāo) GPT-3,在數(shù)據(jù)補全、零樣本學(xué)習(xí)和少樣本學(xué)習(xí)方面對模型進(jìn)行了評估,Jurassic-1 模型可以預(yù)測來自比 GPT-3 更廣泛的領(lǐng)域的文本(網(wǎng)絡(luò)、學(xué)術(shù)、法律、源代碼等),在零樣本條件中實現(xiàn)可比的性能,并且少樣本性能優(yōu)于 GPT-3,因為他們能夠?qū)⒏嗍纠湃雙rompt中。MT-NLGMegatron-Turing NLG (MT-NLG) 是由 Microsoft 和 NVIDIA 共同研發(fā)的大語言模型,具有 530B 個參數(shù),是 GPT-3 的三倍多,MT-NLG 在多個 benchmarks 中實現(xiàn)了非常好的零、一和少量樣本學(xué)習(xí)性能。 研究認(rèn)為訓(xùn)練如此大的語言模型有兩個挑戰(zhàn),

一是存儲高效性,將模型參數(shù)全部擬合到及時最大GPT的內(nèi)存中已不再可能;

二是計算高效性,若不同時優(yōu)化算法、軟件和硬件堆棧,所需的大量計算操作可能會導(dǎo)致不切實際的長訓(xùn)練時間;

需要在內(nèi)存和計算上都可擴展的高效并行技術(shù),以充分發(fā)揮數(shù)千個 GPU 的潛力。對此,論文提出了結(jié)合了 DeepSpeed 的管道并行和數(shù)據(jù)并行性以及 Megatron 的張量切片并行的高效且可擴展的 3D 并行軟件系統(tǒng)。同時,還介紹了模型高效訓(xùn)練的硬件基礎(chǔ)設(shè)施,提高訓(xùn)練效率和穩(wěn)定性。GopherGopher 是 DeepMind 發(fā)布的大語言模型,擁有過 280B 規(guī)模的參數(shù)。在語言模型和開發(fā)過程中,DeepMind 訓(xùn)練了 6 個不同參數(shù)規(guī)模的系列模型,參數(shù)量包括 44M、117M、417M、1.4B、7.1B、280B(Gopher)。這些模型在 152 項不同的任務(wù)上進(jìn)行了評估,在大多數(shù)任務(wù)中都實現(xiàn)了最先進(jìn)的性能。閱讀理解、事實核查和有毒語言識別等領(lǐng)域性能提升最大,但對于邏輯和數(shù)學(xué)推理等問題的性能提升較小。ChinchillaChinchilla(龍貓)是 DeepMind 發(fā)布的大語言模型,擁有 70B 的參數(shù)規(guī)模。Chinchilla 的研究主要關(guān)注在給定固定的 FLOPs 預(yù)算下,如何權(quán)衡模型規(guī)模大小和訓(xùn)練tokens的數(shù)量規(guī)模的問題。 在 Chinchilla 之前的一系列大語言模型在擴展模型參數(shù)規(guī)模的同時保持訓(xùn)練數(shù)據(jù)量不變,導(dǎo)致計算資源的浪費和大語言模型的訓(xùn)練不足。對于計算成本最優(yōu)的訓(xùn)練,模型規(guī)模大小和訓(xùn)練 tokens 的數(shù)量應(yīng)該同等比例地縮放,模型參數(shù)規(guī)模的加倍時,訓(xùn)練 tokens 的數(shù)量也應(yīng)該加倍。 基于上述假設(shè)訓(xùn)練了計算優(yōu)化模型 Chinchilla,它與 Gopher 使用相同的計算預(yù)算,但具有 70B 的參數(shù)和 4 倍多的訓(xùn)練數(shù)據(jù)。同時,Chinchilla 在大量下游評估任務(wù)上一致且顯著優(yōu)于 Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B) 和 Megatron-Turing NLG (530B)。Chinchilla 使用更少的計算來進(jìn)行微調(diào)和推理,極大地促進(jìn)了下游使用。PaLMPaLM 是谷歌2022年提出的 540B 參數(shù)規(guī)模的大語言模型,它采用的是 GPT-style 的 decoder-only 的單向自回歸模型結(jié)構(gòu),這種結(jié)構(gòu)對于 few-shot 更有利。 PaLM 是使用谷歌提出的Pathways[12]系統(tǒng)(一種新的 ML 系統(tǒng),可以跨多個 TPU Pod 進(jìn)行高效訓(xùn)練)在 6144 塊TPU v4 芯片上訓(xùn)練完成的。 作者在 Pod 級別上跨兩個 Cloud TPU v4 Pods 使用數(shù)據(jù)并行對訓(xùn)練進(jìn)行擴展,與以前的大多數(shù) LLM 相比,是一個顯著的規(guī)模增長。PaLM 實現(xiàn)了 57.8% 的硬件 FLOPs 利用率的訓(xùn)練效率,是 LLM 在這個規(guī)模上實現(xiàn)的最高效率。PaLM 在數(shù)百種語言理解和生成 benchmarks 上實現(xiàn)最先進(jìn)的few-shot 學(xué)習(xí)結(jié)果,證明了scaling 模型的好處。在其中的許多任務(wù)中,PaLM 540B 實現(xiàn)了突破性的性能,在一組多步推理任務(wù)上的表現(xiàn)優(yōu)于經(jīng)過微調(diào)的 SOTA 模型。并且大量 BIG-bench 任務(wù)顯示了模型規(guī)模的擴大帶來性能的不連續(xù)提升,當(dāng)模型擴展到最大規(guī)模,性能急劇提高。

a75accf0-dedb-11ed-bfe3-dac502259ad0.jpg

U-PaLM由于擴大語言模型可以提高性能,但會帶來巨大的計算成本。谷歌提出 UL2R 方法,在幾乎可以忽略不計的額外計算成本和沒有新數(shù)據(jù)的情況下,使用原始的預(yù)訓(xùn)練數(shù)據(jù)繼續(xù)訓(xùn)練 PaLM 模型,能夠顯著改善大語言模型在下游指標(biāo)上的擴展特性。 使用 UL2R 訓(xùn)練 PaLM,引入了一組 8B、62B 和 540B 規(guī)模的新模型,稱為 U-PaLM。在 540B 規(guī)模下,實現(xiàn)了大約 2 倍的計算節(jié)省率,其中 U-PaLM 以大約一半的計算預(yù)算實現(xiàn)了與最終 PaLM 540B 模型相同的性能,并且在在許多小樣本條件上性能優(yōu)于 PaLM。 UL2[14]連接了生成語言模型和雙向語言模型,它提出了混合降噪器目標(biāo),在同一模型中混合前綴(非因果)語言建模和填充(跨度損壞),并利用模式提示(mode prompts)在下游任務(wù)期間切換模式。OPTOPT 是由 Meta AI 研究人員發(fā)布的一系列大規(guī)模預(yù)訓(xùn)練語言模型,模型包括125M、350M、1.3B、2.7B、6.7B、13B、30B、66B、175B 9個不同的參數(shù)規(guī)模和版本,除了 175B 的版本需要填寫申請獲取外,其它規(guī)模版本的模型都完全開放下載,可以免費獲得。 OPT-175B 和 GPT-3 的性能相當(dāng),并且部署只需要損耗 GPT-3 1/7 的能量損耗。OPT 系列模型開源的目的是為促進(jìn)學(xué)術(shù)研究和交流,因為絕大多數(shù)大語言模型訓(xùn)練成本高昂,導(dǎo)致大部分研究人員都無法負(fù)擔(dān)大語言模型的訓(xùn)練或使用;同時,各大企業(yè)發(fā)布的大語言預(yù)訓(xùn)練模型由于商業(yè)目的也都無法完整訪問模型權(quán)重,只能通過 API 調(diào)用獲取結(jié)果,阻礙了學(xué)術(shù)的交流與研究。

Github:metaseq/projects/OPT at main · facebookresearch/metaseq[16];

GitHub - facebookresearch/metaseq: Repo for external large-scale work[17]

LLaMALLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。 這項工作重點關(guān)注使用比通常更多的 tokens 訓(xùn)練一系列語言模型,在不同的推理預(yù)算下實現(xiàn)最佳的性能,也就是說在相對較小的模型上使用大規(guī)模數(shù)據(jù)集訓(xùn)練并達(dá)到較好性能。Chinchilla 論文中推薦在 200B 的 tokens 上訓(xùn)練 10B 規(guī)模的模型,而 LLaMA 使用了 1.4T tokens 訓(xùn)練 7B的模型,增大 tokens 規(guī)模,模型的性能仍在持續(xù)上升。

Github:https://github.com/facebookresearch/llama[19]

BLOOMBLOOM 是 BigScience(一個圍繞研究和創(chuàng)建超大型語言模型的開放協(xié)作研討會)中數(shù)百名研究人員合作設(shè)計和構(gòu)建的 176B 參數(shù)開源大語言模型,同時,還開源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五個參數(shù)規(guī)模相對較小的模型。 BLOOM 是一種 decoder-only 的 Transformer 語言模型,它是在 ROOTS 語料庫上訓(xùn)練的,該數(shù)據(jù)集包含 46 種自然語言和 13 種編程語言(總共 59 種)的數(shù)百個數(shù)據(jù)來源。實驗證明 BLOOM 在各種基準(zhǔn)測試中都取得了有競爭力的表現(xiàn),在經(jīng)過多任務(wù)提示微調(diào)后取得了更好的結(jié)果。BLOOM 的研究旨在針對當(dāng)前大多數(shù) LLM 由資源豐富的組織開發(fā)并且不向公眾公開的問題,研制開源 LLM 以促進(jìn)未來使用 LLM 的研究和應(yīng)用。

a7652df8-dedb-11ed-bfe3-dac502259ad0.jpg

Transformers:https://huggingface.co/bigscience[21]

GLM-130BGLM-130B 是清華大學(xué)與智譜AI共同研制的一個開放的雙語(英漢)雙向密集預(yù)訓(xùn)練語言模型,擁有 1300億個參數(shù),使用通用語言模型(General Language Model, GLM[23])的算法進(jìn)行預(yù)訓(xùn)練。 2022年11月,斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。GLM-130B 在廣泛流行的英文基準(zhǔn)測試中性能明顯優(yōu)于 GPT-3 175B(davinci),而對 OPT-175B 和 BLOOM-176B 沒有觀察到性能優(yōu)勢,它還在相關(guān)基準(zhǔn)測試中性能始終顯著優(yōu)于最大的中文語言模型 ERNIE 3.0 Titan 260B。GLM-130B 無需后期訓(xùn)練即可達(dá)到 INT4 量化,且?guī)缀鯖]有性能損失;更重要的是,它能夠在 4×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPU 上有效推理,是使用 100B 級模型最實惠的 GPU 需求。

a76eff5e-dedb-11ed-bfe3-dac502259ad0.jpg

GLM 預(yù)訓(xùn)練方式:自回歸的空白填充,并通過 GLM 通過添加 2D 位置編碼和打亂片段順序來改進(jìn)空白填充預(yù)訓(xùn)練

Github:https://github.com/THUDM/GLM-130B[24]

ERNIE 3.0 TitanERNIE 3.0[26]是百度發(fā)布的知識增強的預(yù)訓(xùn)練大模型,參數(shù)規(guī)模為 10B。ERNIE 實現(xiàn)了兼顧自然語言理解和自然語言生成的統(tǒng)一預(yù)訓(xùn)練框架,使得經(jīng)過訓(xùn)練的模型可以通過零樣本學(xué)習(xí)、少樣本學(xué)習(xí)或微調(diào)輕松地針對自然語言理解和生成任務(wù)進(jìn)行定制。

a77800d6-dedb-11ed-bfe3-dac502259ad0.jpg

ERNIE 3.0 模型框架:模型包括統(tǒng)一表示模塊(Universal Representation Module) 和 兩個任務(wù)特定的表示模塊(Task-specific Representation Modules),即自然語言理解(NLU)表示模塊和自然語言生成表示模塊(NLG) ERNIE 3.0 Titan 是百度與鵬城實驗室發(fā)布的目前為止全球最大的中文單體模型,它是ERNIE 3.0的擴大和升級,模型參數(shù)規(guī)模達(dá)到 260B,相對GPT-3的參數(shù)量提升50%。 此外,在預(yù)訓(xùn)練階段還設(shè)計了一個自監(jiān)督的對抗性損失和一個可控的語言建模損失,使 ERNIE 3.0 Titan 生成可信和可控的文本(Credible and Controllable Generations)。 為了減少計算開銷,ERNIE 3.0 Titan 提出了一個在線蒸餾框架,教師模型將同時教授學(xué)生模型和訓(xùn)練自己以更高效地利用計算資源。ERNIE 3.0 Titan 在 68 個 NLP 數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的模型。

二、Instruction-Finetuned Language Model 這里的Instruction[27](指令)是指通過自然語言形式對任務(wù)進(jìn)行描述。 如下圖所示,對于翻譯任務(wù),在對需要翻譯的句子 "I Love You." 前加入任務(wù)指令 "Translate the given English utterance to French script." 告訴模型要執(zhí)行的任務(wù)和要求。這種方式符合模型生成的工作模型,最重要的是對于未知任務(wù)具有較好的 zero-shot 性能表現(xiàn)。通過將各種不同的任務(wù)轉(zhuǎn)化為指令數(shù)據(jù)形式,對語言模型進(jìn)行進(jìn)一步微調(diào)。

a7817030-dedb-11ed-bfe3-dac502259ad0.jpg

Instruction-tuning示例 下表為經(jīng)過 Instruction 微調(diào)的大模型,他們幾乎都是在基礎(chǔ)語言模型基礎(chǔ)上進(jìn)行指令微調(diào)、人類反饋、對齊等優(yōu)化操作。

a78766ac-dedb-11ed-bfe3-dac502259ad0.jpg

指令微調(diào)大模型基本信息

a7910d60-dedb-11ed-bfe3-dac502259ad0.jpg

T0T0 是由 Hugging Face 牽頭聯(lián)合 42 位研究人員研發(fā)的一個基于 T5 模型在大規(guī)模多任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào)得到的模型。該研究的目的是在不需要大幅度擴大模型規(guī)模情況下引導(dǎo)模型更好地泛化到未知任務(wù)(zero-shot 性能),并且對 prompts 的措辭表達(dá)選擇與變化更加穩(wěn)健。 研究開發(fā)了一個可以將任何自然語言任務(wù)映射到人類可讀的 prompt 形式的系統(tǒng), 并轉(zhuǎn)換了大量有監(jiān)督的數(shù)據(jù)集,每個數(shù)據(jù)集都有多個 prompt 和不同的措辭,在這個涵蓋各種任務(wù)的多任務(wù)數(shù)據(jù)上微調(diào) encoder-decoder 結(jié)構(gòu)的 T5 模型。T0 在多個標(biāo)準(zhǔn)數(shù)據(jù)集上 zero-shot 性能大幅度超越比其大 16 倍的 GPT-3 模型。

a79c6d2c-dedb-11ed-bfe3-dac502259ad0.jpg

FLANFLAN 是谷歌在 LaMDA 137B 模型基礎(chǔ)上進(jìn)行進(jìn)一步的指令微調(diào)(Instruction tuning)得到的模型,通過指令微調(diào)提高語言模型在未知任務(wù)上的 zero-shot 性能和泛化能力。zero-shot 實驗中 FLAN 在評估的 25 個數(shù)據(jù)集中的 20 個上超過了 GPT-3 175B。FLAN 在 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze 上的表現(xiàn)甚至大大優(yōu)于 few-shot GPT-3。論文的消融實現(xiàn)表明,微調(diào)數(shù)據(jù)集的數(shù)量、模型規(guī)模和自然語言指令是指令微調(diào)成功的關(guān)鍵。

a7a4384a-dedb-11ed-bfe3-dac502259ad0.jpg

Flan-LMFlan-LM 是谷歌在其已有的 T5、PaLM、U-PaLM 基礎(chǔ)模型基礎(chǔ)上利用指令 (Instruction) 數(shù)據(jù)集微調(diào)的一系列語言模型,包括 Flan-T5 (11B)、Flan-PaLM (540B)、Flan-U-PaLM (540B),在指令數(shù)據(jù)集上微調(diào)語言模型可以提高模型性能以及對未知任務(wù)的泛化能力。該工作主要通過擴大模型規(guī)模和微調(diào)任務(wù)數(shù)量來研究指令微調(diào) scaling 的效果, 通過整合 Muffiffiffin(80 tasks)、T0-SF(193 tasks)、NIV2(1554 tasks)、CoT (9 tasks) 四個之前的工作將指令微調(diào)任務(wù)擴大到 1,836 個,同時對 CoT 數(shù)據(jù)進(jìn)行微調(diào)提升模型的邏輯推理能力。實驗證明,指令微調(diào)可以顯著提高預(yù)訓(xùn)練語言模型性能和可用性的通用方法,以及各種提示設(shè)置(零樣本、少樣本、CoT)和評估基準(zhǔn)性能,例如,在 1.8K 任務(wù)上微調(diào)的 Flan-PaLM 540B 指令大大優(yōu)于 PaLM 540B(平均 +9.4%),并在多個基準(zhǔn)測試中實現(xiàn)了最先進(jìn)的性能。

a7c52f28-dedb-11ed-bfe3-dac502259ad0.jpg

BLOOMZ &mT0上述 T0 和 FLAN 等指令微調(diào)模型證明了多任務(wù)提示微調(diào) (MTF) 可以幫助大模型在 zero-shot 條件下泛化到新任務(wù),并且對 MTF 的探索主要集中在英語數(shù)據(jù)和模型上。 Hugging Face將 MTF 應(yīng)用于預(yù)訓(xùn)練的多語言 BLOOM 和 mT5 模型系列,發(fā)布了稱為 BLOOMZ 和 mT0 的指令微調(diào)變體。研究實驗中發(fā)現(xiàn)在具有英語提示的英語任務(wù)上微調(diào)多語言大模型可以將任務(wù)泛化到僅出現(xiàn)在預(yù)訓(xùn)練中的非英語任務(wù);使用英語提示對多語言任務(wù)進(jìn)行微調(diào)進(jìn)一步提高了英語和非英語任務(wù)的性能,實現(xiàn)各種最先進(jìn)的 zero-shot 結(jié)果;論文還研究了多語言任務(wù)的微調(diào),這些任務(wù)使用從英語翻譯的提示來匹配每個數(shù)據(jù)集的語言,實驗發(fā)現(xiàn)翻譯的提示可以提高相應(yīng)語言的人工提示的性能。實驗還發(fā)現(xiàn)模型能夠?qū)λ鼈儚奈匆娺^的語言任務(wù)進(jìn)行零樣本泛化,推測這些模型正在學(xué)習(xí)與任務(wù)和語言無關(guān)的更高級別的能力。GPT-3.5GPT-3.5 是從 GPT-3 演化來的一些列模型,如下圖所示,從初始的 GPT-3 到 GPT-3.5 再到 ChatGPT 是經(jīng)過了一些列的優(yōu)化和演進(jìn)。圖片來源:ChatGPT進(jìn)化的秘密[33]和 拆解追溯 GPT-3.5 各項能力的起源[34],參考文章整理了以下 GPT-3.5 的演化過程。

2020年7月,發(fā)布GPT-3,最原始的 GPT-3 基礎(chǔ)模型主要有 davinci、curie、ada 和 babbage 四個不同版本,其中davinci 是功能最強大的,后續(xù)也都是基于它來優(yōu)化的;

2021年7月,發(fā)布Codex[35],在代碼數(shù)據(jù)上對 GPT-3 微調(diào)得到,對應(yīng)著 code-davinci-001 和 code-cushman-001 兩個模型版本;

2021年3月,發(fā)布 InstructGPT[36]論文,對 GPT-3 進(jìn)行指令微調(diào) (supervised fine-tuning on human demonstrations) 得到davinci-instruct-beta1模型;在指令數(shù)據(jù)和經(jīng)過標(biāo)注人員評分反饋的模型生成樣例數(shù)據(jù)上進(jìn)行微調(diào)得到text-davinci-001,InstructGPT 論文中的原始模型對應(yīng)著davinci-instruct-beta;

2021年6月,發(fā)布 code-davinci-002,是功能最強大的 Codex 型號,在文本和代碼數(shù)據(jù)上進(jìn)行訓(xùn)練,特別擅長將自然語言翻譯成代碼和補全代碼;

2021年6月,發(fā)布 text-davinci-002,它是在code-davinci-002 基礎(chǔ)上進(jìn)行有監(jiān)督指令微調(diào)得到;

2021年11月,發(fā)布 text-davinci-003 和 ChatGPT[37], 它們都是在 text-davinci-002 基礎(chǔ)上利用人類反饋強化學(xué)習(xí) RLHF 進(jìn)一步微調(diào)優(yōu)化得到。

a7cec0ec-dedb-11ed-bfe3-dac502259ad0.jpg

ChatGPTChatGPT 是在 GPT-3.5 基礎(chǔ)上進(jìn)行微調(diào)得到的,微調(diào)時使用了從人類反饋中進(jìn)行強化學(xué)習(xí)的方法(Reinforcement Learning from Human Feedback,RLHF)。這里的人類反饋其實就是人工標(biāo)注數(shù)據(jù),來不斷微調(diào) LLM,主要目的是讓LLM學(xué)會理解人類的命令指令的含義(比如文生成類問題、知識回答類問題、頭腦風(fēng)暴類問題等不同類型的命令),以及讓LLM學(xué)會判斷對于給定的prompt輸入指令(用戶的問題),什么樣的答案輸出是優(yōu)質(zhì)的(富含信息、內(nèi)容豐富、對用戶有幫助、無害、不包含歧視信息等多種標(biāo)準(zhǔn))。 其實從 GPT-1到 GPT-3.5 可以發(fā)現(xiàn)更大的語言模型雖然有了更強的語言理解和生成的能力,但并不能從本質(zhì)上使它們更好地遵循或理解用戶的指令意圖。例如,大型語言模型可能會生成不真實、有害或?qū)τ脩魶]有幫助的輸出,原因在于這些語言模型預(yù)測下一個單詞的訓(xùn)練目標(biāo)與用戶目標(biāo)意圖是不一致的。為了對齊語言模型于人類意圖,ChatGPT展示了一種途徑,可以引入人工標(biāo)注和反饋,通過強化學(xué)習(xí)算法對大規(guī)模語言模型進(jìn)行微調(diào),在各種任務(wù)上使語言模型與用戶的意圖保持一致,輸出人類想要的內(nèi)容。

a7d7960e-dedb-11ed-bfe3-dac502259ad0.jpg

GPT-4GPT-4 是 OpenAI 繼 ChatGPT 之后發(fā)布的一個大規(guī)模的多模態(tài)模型,之前的 GPT 系列模型都是只支持純文本輸入輸出的語言模型,而 GPT-4 可以接受圖像和文本作為輸入,并產(chǎn)生文本輸出。GPT-4 仍然是基于 Transformer 的自回歸結(jié)構(gòu)的預(yù)訓(xùn)練模型。OpenAI 的博客中表示在隨意的對話中,GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙,當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,差異就會出現(xiàn),即 GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。雖然在許多現(xiàn)實場景中的能力不如人類,但 GPT-4 在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出人類水平的表現(xiàn),包括通過模擬律師考試,得分在應(yīng)試者的前 10% 左右。和 ChatGPT RLHF 的方法類似,alignment(對齊)訓(xùn)練過程可以提高模型事實性和對期望行為遵循度的表現(xiàn),具有強大的意圖理解能力,并且對 GPT-4 的安全性問題做了很大的優(yōu)化和提升。AlpacaAlpaca(羊駝)模型是斯坦福大學(xué)基于 Meta 開源的 LLaMA-7B 模型微調(diào)得到的指令遵循(instruction-following)的語言模型。在有學(xué)術(shù)預(yù)算限制情況下,訓(xùn)練高質(zhì)量的指令遵循模型主要面臨強大的預(yù)訓(xùn)練語言模型和高質(zhì)量的指令遵循數(shù)據(jù)兩個挑戰(zhàn),作者利用 OpenAI 的 text-davinci-003 模型以 self-instruct[41]方式生成 52K 的指令遵循樣本數(shù)據(jù),利用這些數(shù)據(jù)訓(xùn)練以有監(jiān)督的方式訓(xùn)練 LLaMA-7B 得到 Alpaca 模型。在測試中,Alpaca 的很多行為表現(xiàn)都與 text-davinci-003 類似,且只有 7B 參數(shù)的輕量級模型 Alpaca 性能可與 GPT-3.5 這樣的超大規(guī)模語言模型性能媲美。

a7dddc08-dedb-11ed-bfe3-dac502259ad0.jpg

Alpaca訓(xùn)練示意圖

博客:https://crfm.stanford.edu/2023/03/13/alpaca.html[42]

Github:https://github.com/tatsu-lab/stanford\_alpaca[43]

Alpaca-LoRA[44]使用 low-rank adaptation (LoRA)[45]重現(xiàn) Alpaca 的結(jié)果,并且能夠以一塊消費級顯卡,在幾小時內(nèi)完成 7B 模型的 fine-turning。 Alpaca 主要支持英文任務(wù),因此許多工作在 Alpaca 基礎(chǔ)上進(jìn)一步訓(xùn)練其他語言的模型,比如,韓語羊 KoAlpaca[46],日語羊駝 Japanese-Alpaca-LoRA[47]。對于中文任務(wù),國內(nèi)開源了參考 Alpaca 訓(xùn)練方式基于 LLaMA 的 Chinese-Vicuna (小羊駝)模型[48],以及 Luotuo(駱駝): Chinese-alpaca-lora[49]。

a7e704fe-dedb-11ed-bfe3-dac502259ad0.jpg

ChatGLMChatGLM 是清華大學(xué)知識工程(KEG)實驗室與其技術(shù)成果轉(zhuǎn)化的公司智譜AI基于此前開源的 GLM-130B[51]千億基座模型研制,是一個初具問答和對話功能的千億中英語言模型。ChatGLM 參考了 ChatGPT 的設(shè)計思路,在千億基座模型 GLM-130B 中注入了代碼預(yù)訓(xùn)練,通過有監(jiān)督微調(diào)(Supervised Fine-Tuning)、反饋自助(Feedback Bootstrap)、人類反饋強化學(xué)習(xí)(Reinforcement Learning from Human Feedback) 等技術(shù)實現(xiàn)人類意圖對齊。 同時,開源了62 億參數(shù)的 ChatGLM-6B[52],結(jié)合模型量化技術(shù),用戶可以在消費級的顯卡上進(jìn)行本地部署(INT4 量化級別下最低只需 6GB 顯存),雖然規(guī)模不及千億模型,但大大降低了用戶部署的門檻,并且已經(jīng)能生成相當(dāng)符合人類偏好的回答。

博客地址:https://chatglm.cn/blog[53]

ERNIE BotERNIE Bot 就是百度的文心一言,基于 ERNIE 系列大模型構(gòu)建的類 ChatGPT 的對話模型,具體細(xì)節(jié)不知道...BardBard 是谷歌基于 LaMDA 研制的對標(biāo) ChatGPT 的對話語言模型,目前應(yīng)該只支持英文對話,限美國和英國用戶預(yù)約訪問,其他未知...

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3062

    瀏覽量

    48575
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    491

    瀏覽量

    10226
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1525

    瀏覽量

    7257

原文標(biāo)題:總結(jié)從T5、GPT-3、Chinchilla、PaLM、LLaMA、Alpaca等近30個最新模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    關(guān)系,從而在各種任務(wù)中表現(xiàn)出色。Transformer架構(gòu)的推出,標(biāo)志著語言模型技術(shù)的重大突破。它摒棄了傳統(tǒng)的遞歸方式,利用自注意力機制捕捉序列中的依賴關(guān)系。這一創(chuàng)新極大地提高了模型
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    ,直到現(xiàn)在的大語言模型。 基于Transformer結(jié)構(gòu),預(yù)訓(xùn)練語言模型可以大致劃分為以下三類。 (1) Encoder-Only 預(yù)訓(xùn)
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的評測

    計算和代碼糾錯等。這些場景覆蓋日常生活和學(xué)習(xí)的多個方面,使得對話能力評測變得尤為復(fù)雜和關(guān)鍵。為了全面評估大語言模型各種應(yīng)用場景下的對話能力,研究人員和使用者需要一套綜合性的評測框架。該框架主要包括評測
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應(yīng)對復(fù)雜的決策。 相應(yīng)地,我們設(shè)計了兩類任務(wù)來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務(wù),類似于人類的系統(tǒng)1,如情感分析和抽取式問答等。大語言
    發(fā)表于 05-07 17:21

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色,耳真正厲害的是Transformer,此框架
    發(fā)表于 05-12 23:57

    8051單片機C語言徹底應(yīng)用

    不錯的資料,跟大家分享下[hide]8051單片機C語言徹底應(yīng)用[/hide]
    發(fā)表于 02-24 23:06

    C8051的C語言徹底應(yīng)用

    C8051的C語言徹底應(yīng)用
    發(fā)表于 10-07 17:22

    C8051的C語言徹底應(yīng)用

    C8051的C語言徹底應(yīng)用
    發(fā)表于 12-18 21:24

    8051C語言徹底應(yīng)用.pdf

    8051C語言徹底應(yīng)用.pdf
    發(fā)表于 03-16 01:33

    C8051的C語言徹底應(yīng)用.pdf

    C8051的C語言徹底應(yīng)用.pdf
    發(fā)表于 04-29 23:05

    8051單片機C語言徹底應(yīng)用

    `8051單片機C語言徹底應(yīng)用[hide][/hide]`
    發(fā)表于 03-04 13:33

    C8051的C語言徹底應(yīng)用

    電子書籍: C8051的C語言徹底應(yīng)用
    發(fā)表于 08-31 16:11 ?29次下載

    FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

    ,大型語言模型(Large Language Models,LLM)徹底改變了自然語言處理領(lǐng)域,使機器能夠生成類似人類的文本并進(jìn)行有意義的對話。這些
    的頭像 發(fā)表于 09-04 16:55 ?535次閱讀
    FPGA加速器支撐ChatGPT類大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>創(chuàng)新

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進(jìn)行介紹。大語言模型
    的頭像 發(fā)表于 12-04 15:51 ?709次閱讀