少妇野外一级内射婬片免费放,在线日韩日本国产亚洲

自從ChatGPT出現(xiàn)之后，各種大語言模型是徹底被解封了，每天見到的模型都能不重樣，幾乎分不清這些模型是哪個機構(gòu)發(fā)布的、有什么功能特點、以及這些模型的關(guān)系。比如 GPT-3.0 和 GPT 3.5 就有一系列的模型版本和索引，還有羊駝、小羊駝、駱駝 ...... 于是淺淺的調(diào)研了一下比較有名的大語言模型，主要是想混個臉熟，整理完之后就感覺清晰多了，又可以輕松逛知乎學(xué)習(xí)了。

一、Basic Language Model 基礎(chǔ)語言模型是指只在大規(guī)模文本語料中進(jìn)行了預(yù)訓(xùn)練的模型，未經(jīng)過指令和下游任務(wù)微調(diào)、以及人類反饋等任何對齊優(yōu)化。

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

當(dāng)前絕大部分的大語言模型都是 Decoder-only 的模型結(jié)構(gòu)，原因請轉(zhuǎn)移這個問題：為什么現(xiàn)在的LLM都是Decoder only的架構(gòu)[1]；

大部分大語言模型都不開源，而 OPT、BLOOM、LLaMA 三個模型是主要面向開源促進(jìn)研究和應(yīng)用的，中文開源可用的是 GLM，后續(xù)很多工作都是在這些開源的基礎(chǔ)模型上進(jìn)行微調(diào)優(yōu)化的。

T5T5 是谷歌提出了一個統(tǒng)一預(yù)訓(xùn)練模型和框架，模型采用了谷歌最原始的 Encoder-Decoder Transformer結(jié)構(gòu)。T5將每個文本處理問題都看成“Text-to-Text”問題，即將文本作為輸入，生成新的文本作為輸出。通過這種方式可以將不同的 NLP 任務(wù)統(tǒng)一在一個模型框架之下，充分進(jìn)行遷移學(xué)習(xí)。為了告知模型需要執(zhí)行的任務(wù)類型，在輸入的文本前添加任務(wù)特定的文本前綴 (task-specific prefifix ) 進(jìn)行提示，這也就是最早的 Prompt。也就說可以用同樣的模型，同樣的損失函數(shù)，同樣的訓(xùn)練過程，同樣的解碼過程來完成所有 NLP 任務(wù)。 T5 本身主要是針對英文訓(xùn)練，谷歌還發(fā)布了支持 101 種語言的 T5 的多語言版本 mT5[3]。

GPT-3大語言模型中最具代表和引領(lǐng)性的就是發(fā)布 ChatGPT 的 OpenAI 的 GPT 系列模型（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4），并且當(dāng)前大部分大語言模型的結(jié)構(gòu)都是 GPT-style ，文章生成式預(yù)訓(xùn)練模型[5]中介紹了GPT-1/2/3，且從 GPT-3 開始才是真正意義的大模型。 GPT-3 是 OpenAI 發(fā)布的 GPT 系列模型的一個，延續(xù)了 GPT-1/2 基于Transformer Decoder 的自回歸語言模型結(jié)構(gòu)，但GPT-3 將模型參數(shù)規(guī)模擴大至 175B，是 GPT-2 的 100 倍，從大規(guī)模數(shù)據(jù)中吸納更多的知識。 GPT-3不再追求 zero-shot 的設(shè)定，而是提出 In-Context Learning ，在下游任務(wù)中模型不需要任何額外的微調(diào)，利用 Prompts 給定少量標(biāo)注的樣本讓模型學(xué)習(xí)再進(jìn)行推理生成。就能夠在只有少量目標(biāo)任務(wù)標(biāo)注樣本的情況下進(jìn)行很好的泛化，再次證明大力出擊奇跡，做大模型的必要性。通過大量的實驗證明，在 zero-shot、one-shot 和 few-shot 設(shè)置下，GPT-3 在許多 NLP 任務(wù)和基準(zhǔn)測試中表現(xiàn)出強大的性能，只有少量目標(biāo)任務(wù)標(biāo)注樣本的情況下進(jìn)行很好的泛化，再次證明大力出擊奇跡，做大模型的必要性。

LaMDALaMDA 是谷歌在2021年開發(fā)者大會上公布的專用于對話的大語言模型，具有 137B 個參數(shù)。論文中提出三個指導(dǎo)模型更好訓(xùn)練的指標(biāo)：質(zhì)量/Quality（合理性/Sensibleness、特異性/Specificity、趣味性/Interestingness，SSI）、安全性/Safety、真實性/Groundedness。和其他大模型一樣，LaMDA分為預(yù)訓(xùn)練和微調(diào)兩步，在微調(diào)階段，生成式任務(wù)（給定上下文生成響應(yīng)）和判別式任務(wù)（評估模型生成響應(yīng)的質(zhì)量和安全性）應(yīng)用于預(yù)訓(xùn)練模型進(jìn)行微調(diào)形成 LaMDA。對話期間，LaMDA 生成器在給定多輪對話上下文時生成幾個候選響應(yīng)，然后 LaMDA 判別器預(yù)測每個候選響應(yīng)的 SSI 和安全分?jǐn)?shù)。安全分?jǐn)?shù)低的候選響應(yīng)首先被過濾掉，剩下的候選響應(yīng)根據(jù) SSI 分?jǐn)?shù)重新排名，并選擇分?jǐn)?shù)最高的作為最終響應(yīng)。為提升 LaMDA 生成響應(yīng)的真實可靠性，收集標(biāo)注用戶與 LaMDA 間對話的數(shù)據(jù)集，并在適用的情況下使用檢索查詢和檢索結(jié)果進(jìn)行注釋。然后，在這個數(shù)據(jù)集上微調(diào) LaMDA，學(xué)習(xí)與用戶交互期間調(diào)用外部信息檢索系統(tǒng)，提升生成響應(yīng)的真實可靠性。

Jurassic-1Jurassic-1 是以色列的 AI 公司 AI21 Labs 發(fā)布的一對自回歸語言模型，由 178B 參數(shù)模型 J1-Jumbo 和 7B 參數(shù)模型 J1-Large 組成，大致對應(yīng) GPT-3 175B 和 GPT-3 6.7B 兩個模型。該模型主要對標(biāo) GPT-3，在數(shù)據(jù)補全、零樣本學(xué)習(xí)和少樣本學(xué)習(xí)方面對模型進(jìn)行了評估，Jurassic-1 模型可以預(yù)測來自比 GPT-3 更廣泛的領(lǐng)域的文本（網(wǎng)絡(luò)、學(xué)術(shù)、法律、源代碼等），在零樣本條件中實現(xiàn)可比的性能，并且少樣本性能優(yōu)于 GPT-3，因為他們能夠?qū)⒏嗍纠湃雙rompt中。MT-NLGMegatron-Turing NLG (MT-NLG) 是由 Microsoft 和 NVIDIA 共同研發(fā)的大語言模型，具有 530B 個參數(shù)，是 GPT-3 的三倍多，MT-NLG 在多個 benchmarks 中實現(xiàn)了非常好的零、一和少量樣本學(xué)習(xí)性能。研究認(rèn)為訓(xùn)練如此大的語言模型有兩個挑戰(zhàn)，

一是存儲高效性，將模型參數(shù)全部擬合到及時最大GPT的內(nèi)存中已不再可能；

二是計算高效性，若不同時優(yōu)化算法、軟件和硬件堆棧，所需的大量計算操作可能會導(dǎo)致不切實際的長訓(xùn)練時間；

需要在內(nèi)存和計算上都可擴展的高效并行技術(shù)，以充分發(fā)揮數(shù)千個 GPU 的潛力。對此，論文提出了結(jié)合了 DeepSpeed 的管道并行和數(shù)據(jù)并行性以及 Megatron 的張量切片并行的高效且可擴展的 3D 并行軟件系統(tǒng)。同時，還介紹了模型高效訓(xùn)練的硬件基礎(chǔ)設(shè)施，提高訓(xùn)練效率和穩(wěn)定性。GopherGopher 是 DeepMind 發(fā)布的大語言模型，擁有過 280B 規(guī)模的參數(shù)。在語言模型和開發(fā)過程中，DeepMind 訓(xùn)練了 6 個不同參數(shù)規(guī)模的系列模型，參數(shù)量包括 44M、117M、417M、1.4B、7.1B、280B（Gopher）。這些模型在 152 項不同的任務(wù)上進(jìn)行了評估，在大多數(shù)任務(wù)中都實現(xiàn)了最先進(jìn)的性能。閱讀理解、事實核查和有毒語言識別等領(lǐng)域性能提升最大，但對于邏輯和數(shù)學(xué)推理等問題的性能提升較小。ChinchillaChinchilla（龍貓）是 DeepMind 發(fā)布的大語言模型，擁有 70B 的參數(shù)規(guī)模。Chinchilla 的研究主要關(guān)注在給定固定的 FLOPs 預(yù)算下，如何權(quán)衡模型規(guī)模大小和訓(xùn)練tokens的數(shù)量規(guī)模的問題。在 Chinchilla 之前的一系列大語言模型在擴展模型參數(shù)規(guī)模的同時保持訓(xùn)練數(shù)據(jù)量不變，導(dǎo)致計算資源的浪費和大語言模型的訓(xùn)練不足。對于計算成本最優(yōu)的訓(xùn)練，模型規(guī)模大小和訓(xùn)練 tokens 的數(shù)量應(yīng)該同等比例地縮放，模型參數(shù)規(guī)模的加倍時，訓(xùn)練 tokens 的數(shù)量也應(yīng)該加倍。基于上述假設(shè)訓(xùn)練了計算優(yōu)化模型 Chinchilla，它與 Gopher 使用相同的計算預(yù)算，但具有 70B 的參數(shù)和 4 倍多的訓(xùn)練數(shù)據(jù)。同時，Chinchilla 在大量下游評估任務(wù)上一致且顯著優(yōu)于 Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B) 和 Megatron-Turing NLG (530B)。Chinchilla 使用更少的計算來進(jìn)行微調(diào)和推理，極大地促進(jìn)了下游使用。PaLMPaLM 是谷歌2022年提出的 540B 參數(shù)規(guī)模的大語言模型，它采用的是 GPT-style 的 decoder-only 的單向自回歸模型結(jié)構(gòu)，這種結(jié)構(gòu)對于 few-shot 更有利。 PaLM 是使用谷歌提出的Pathways[12]系統(tǒng)（一種新的 ML 系統(tǒng)，可以跨多個 TPU Pod 進(jìn)行高效訓(xùn)練）在 6144 塊TPU v4 芯片上訓(xùn)練完成的。作者在 Pod 級別上跨兩個 Cloud TPU v4 Pods 使用數(shù)據(jù)并行對訓(xùn)練進(jìn)行擴展，與以前的大多數(shù) LLM 相比，是一個顯著的規(guī)模增長。PaLM 實現(xiàn)了 57.8% 的硬件 FLOPs 利用率的訓(xùn)練效率，是 LLM 在這個規(guī)模上實現(xiàn)的最高效率。PaLM 在數(shù)百種語言理解和生成 benchmarks 上實現(xiàn)最先進(jìn)的few-shot 學(xué)習(xí)結(jié)果，證明了scaling 模型的好處。在其中的許多任務(wù)中，PaLM 540B 實現(xiàn)了突破性的性能，在一組多步推理任務(wù)上的表現(xiàn)優(yōu)于經(jīng)過微調(diào)的 SOTA 模型。并且大量 BIG-bench 任務(wù)顯示了模型規(guī)模的擴大帶來性能的不連續(xù)提升，當(dāng)模型擴展到最大規(guī)模，性能急劇提高。

U-PaLM由于擴大語言模型可以提高性能，但會帶來巨大的計算成本。谷歌提出 UL2R 方法，在幾乎可以忽略不計的額外計算成本和沒有新數(shù)據(jù)的情況下，使用原始的預(yù)訓(xùn)練數(shù)據(jù)繼續(xù)訓(xùn)練 PaLM 模型，能夠顯著改善大語言模型在下游指標(biāo)上的擴展特性。使用 UL2R 訓(xùn)練 PaLM，引入了一組 8B、62B 和 540B 規(guī)模的新模型，稱為 U-PaLM。在 540B 規(guī)模下，實現(xiàn)了大約 2 倍的計算節(jié)省率，其中 U-PaLM 以大約一半的計算預(yù)算實現(xiàn)了與最終 PaLM 540B 模型相同的性能，并且在在許多小樣本條件上性能優(yōu)于 PaLM。 UL2[14]連接了生成語言模型和雙向語言模型，它提出了混合降噪器目標(biāo)，在同一模型中混合前綴（非因果）語言建模和填充（跨度損壞），并利用模式提示（mode prompts）在下游任務(wù)期間切換模式。OPTOPT 是由 Meta AI 研究人員發(fā)布的一系列大規(guī)模預(yù)訓(xùn)練語言模型，模型包括125M、350M、1.3B、2.7B、6.7B、13B、30B、66B、175B 9個不同的參數(shù)規(guī)模和版本，除了 175B 的版本需要填寫申請獲取外，其它規(guī)模版本的模型都完全開放下載，可以免費獲得。 OPT-175B 和 GPT-3 的性能相當(dāng)，并且部署只需要損耗 GPT-3 1/7 的能量損耗。OPT 系列模型開源的目的是為促進(jìn)學(xué)術(shù)研究和交流，因為絕大多數(shù)大語言模型訓(xùn)練成本高昂，導(dǎo)致大部分研究人員都無法負(fù)擔(dān)大語言模型的訓(xùn)練或使用；同時，各大企業(yè)發(fā)布的大語言預(yù)訓(xùn)練模型由于商業(yè)目的也都無法完整訪問模型權(quán)重，只能通過 API 調(diào)用獲取結(jié)果，阻礙了學(xué)術(shù)的交流與研究。

Github：metaseq/projects/OPT at main · facebookresearch/metaseq[16]；

GitHub - facebookresearch/metaseq: Repo for external large-scale work[17]

LLaMALLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合，LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B)，LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。這項工作重點關(guān)注使用比通常更多的 tokens 訓(xùn)練一系列語言模型，在不同的推理預(yù)算下實現(xiàn)最佳的性能，也就是說在相對較小的模型上使用大規(guī)模數(shù)據(jù)集訓(xùn)練并達(dá)到較好性能。Chinchilla 論文中推薦在 200B 的 tokens 上訓(xùn)練 10B 規(guī)模的模型，而 LLaMA 使用了 1.4T tokens 訓(xùn)練 7B的模型，增大 tokens 規(guī)模，模型的性能仍在持續(xù)上升。

Github：https://github.com/facebookresearch/llama[19]

BLOOMBLOOM 是 BigScience（一個圍繞研究和創(chuàng)建超大型語言模型的開放協(xié)作研討會）中數(shù)百名研究人員合作設(shè)計和構(gòu)建的 176B 參數(shù)開源大語言模型，同時，還開源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五個參數(shù)規(guī)模相對較小的模型。 BLOOM 是一種 decoder-only 的 Transformer 語言模型，它是在 ROOTS 語料庫上訓(xùn)練的，該數(shù)據(jù)集包含 46 種自然語言和 13 種編程語言（總共 59 種）的數(shù)百個數(shù)據(jù)來源。實驗證明 BLOOM 在各種基準(zhǔn)測試中都取得了有競爭力的表現(xiàn)，在經(jīng)過多任務(wù)提示微調(diào)后取得了更好的結(jié)果。BLOOM 的研究旨在針對當(dāng)前大多數(shù) LLM 由資源豐富的組織開發(fā)并且不向公眾公開的問題，研制開源 LLM 以促進(jìn)未來使用 LLM 的研究和應(yīng)用。

Transformers：https://huggingface.co/bigscience[21]

GLM-130BGLM-130B 是清華大學(xué)與智譜AI共同研制的一個開放的雙語（英漢）雙向密集預(yù)訓(xùn)練語言模型，擁有 1300億個參數(shù)，使用通用語言模型（General Language Model， GLM[23]）的算法進(jìn)行預(yù)訓(xùn)練。 2022年11月，斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測，GLM-130B 是亞洲唯一入選的大模型。GLM-130B 在廣泛流行的英文基準(zhǔn)測試中性能明顯優(yōu)于 GPT-3 175B(davinci)，而對 OPT-175B 和 BLOOM-176B 沒有觀察到性能優(yōu)勢，它還在相關(guān)基準(zhǔn)測試中性能始終顯著優(yōu)于最大的中文語言模型 ERNIE 3.0 Titan 260B。GLM-130B 無需后期訓(xùn)練即可達(dá)到 INT4 量化，且?guī)缀鯖]有性能損失；更重要的是，它能夠在 4×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPU 上有效推理，是使用 100B 級模型最實惠的 GPU 需求。

GLM 預(yù)訓(xùn)練方式：自回歸的空白填充，并通過 GLM 通過添加 2D 位置編碼和打亂片段順序來改進(jìn)空白填充預(yù)訓(xùn)練

Github：https://github.com/THUDM/GLM-130B[24]

ERNIE 3.0 TitanERNIE 3.0[26]是百度發(fā)布的知識增強的預(yù)訓(xùn)練大模型，參數(shù)規(guī)模為 10B。ERNIE 實現(xiàn)了兼顧自然語言理解和自然語言生成的統(tǒng)一預(yù)訓(xùn)練框架，使得經(jīng)過訓(xùn)練的模型可以通過零樣本學(xué)習(xí)、少樣本學(xué)習(xí)或微調(diào)輕松地針對自然語言理解和生成任務(wù)進(jìn)行定制。

ERNIE 3.0 模型框架：模型包括統(tǒng)一表示模塊（Universal Representation Module）和兩個任務(wù)特定的表示模塊（Task-specific Representation Modules），即自然語言理解（NLU）表示模塊和自然語言生成表示模塊（NLG） ERNIE 3.0 Titan 是百度與鵬城實驗室發(fā)布的目前為止全球最大的中文單體模型，它是ERNIE 3.0的擴大和升級，模型參數(shù)規(guī)模達(dá)到 260B，相對GPT-3的參數(shù)量提升50%。此外，在預(yù)訓(xùn)練階段還設(shè)計了一個自監(jiān)督的對抗性損失和一個可控的語言建模損失，使 ERNIE 3.0 Titan 生成可信和可控的文本（Credible and Controllable Generations）。為了減少計算開銷，ERNIE 3.0 Titan 提出了一個在線蒸餾框架，教師模型將同時教授學(xué)生模型和訓(xùn)練自己以更高效地利用計算資源。ERNIE 3.0 Titan 在 68 個 NLP 數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的模型。

二、Instruction-Finetuned Language Model 這里的Instruction[27]（指令）是指通過自然語言形式對任務(wù)進(jìn)行描述。如下圖所示，對于翻譯任務(wù)，在對需要翻譯的句子 "I Love You." 前加入任務(wù)指令 "Translate the given English utterance to French script." 告訴模型要執(zhí)行的任務(wù)和要求。這種方式符合模型生成的工作模型，最重要的是對于未知任務(wù)具有較好的 zero-shot 性能表現(xiàn)。通過將各種不同的任務(wù)轉(zhuǎn)化為指令數(shù)據(jù)形式，對語言模型進(jìn)行進(jìn)一步微調(diào)。

Instruction-tuning示例下表為經(jīng)過 Instruction 微調(diào)的大模型，他們幾乎都是在基礎(chǔ)語言模型基礎(chǔ)上進(jìn)行指令微調(diào)、人類反饋、對齊等優(yōu)化操作。

指令微調(diào)大模型基本信息

T0T0 是由 Hugging Face 牽頭聯(lián)合 42 位研究人員研發(fā)的一個基于 T5 模型在大規(guī)模多任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào)得到的模型。該研究的目的是在不需要大幅度擴大模型規(guī)模情況下引導(dǎo)模型更好地泛化到未知任務(wù)（zero-shot 性能），并且對 prompts 的措辭表達(dá)選擇與變化更加穩(wěn)健。研究開發(fā)了一個可以將任何自然語言任務(wù)映射到人類可讀的 prompt 形式的系統(tǒng)，并轉(zhuǎn)換了大量有監(jiān)督的數(shù)據(jù)集，每個數(shù)據(jù)集都有多個 prompt 和不同的措辭，在這個涵蓋各種任務(wù)的多任務(wù)數(shù)據(jù)上微調(diào) encoder-decoder 結(jié)構(gòu)的 T5 模型。T0 在多個標(biāo)準(zhǔn)數(shù)據(jù)集上 zero-shot 性能大幅度超越比其大 16 倍的 GPT-3 模型。

FLANFLAN 是谷歌在 LaMDA 137B 模型基礎(chǔ)上進(jìn)行進(jìn)一步的指令微調(diào)（Instruction tuning）得到的模型，通過指令微調(diào)提高語言模型在未知任務(wù)上的 zero-shot 性能和泛化能力。zero-shot 實驗中 FLAN 在評估的 25 個數(shù)據(jù)集中的 20 個上超過了 GPT-3 175B。FLAN 在 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze 上的表現(xiàn)甚至大大優(yōu)于 few-shot GPT-3。論文的消融實現(xiàn)表明，微調(diào)數(shù)據(jù)集的數(shù)量、模型規(guī)模和自然語言指令是指令微調(diào)成功的關(guān)鍵。

Flan-LMFlan-LM 是谷歌在其已有的 T5、PaLM、U-PaLM 基礎(chǔ)模型基礎(chǔ)上利用指令 (Instruction) 數(shù)據(jù)集微調(diào)的一系列語言模型，包括 Flan-T5 (11B)、Flan-PaLM (540B)、Flan-U-PaLM (540B)，在指令數(shù)據(jù)集上微調(diào)語言模型可以提高模型性能以及對未知任務(wù)的泛化能力。該工作主要通過擴大模型規(guī)模和微調(diào)任務(wù)數(shù)量來研究指令微調(diào) scaling 的效果，通過整合 Muffiffiffin（80 tasks）、T0-SF（193 tasks）、NIV2（1554 tasks）、CoT （9 tasks）四個之前的工作將指令微調(diào)任務(wù)擴大到 1,836 個，同時對 CoT 數(shù)據(jù)進(jìn)行微調(diào)提升模型的邏輯推理能力。實驗證明，指令微調(diào)可以顯著提高預(yù)訓(xùn)練語言模型性能和可用性的通用方法，以及各種提示設(shè)置（零樣本、少樣本、CoT）和評估基準(zhǔn)性能，例如，在 1.8K 任務(wù)上微調(diào)的 Flan-PaLM 540B 指令大大優(yōu)于 PaLM 540B（平均 +9.4%），并在多個基準(zhǔn)測試中實現(xiàn)了最先進(jìn)的性能。

BLOOMZ &mT0上述 T0 和 FLAN 等指令微調(diào)模型證明了多任務(wù)提示微調(diào) (MTF) 可以幫助大模型在 zero-shot 條件下泛化到新任務(wù)，并且對 MTF 的探索主要集中在英語數(shù)據(jù)和模型上。 Hugging Face將 MTF 應(yīng)用于預(yù)訓(xùn)練的多語言 BLOOM 和 mT5 模型系列，發(fā)布了稱為 BLOOMZ 和 mT0 的指令微調(diào)變體。研究實驗中發(fā)現(xiàn)在具有英語提示的英語任務(wù)上微調(diào)多語言大模型可以將任務(wù)泛化到僅出現(xiàn)在預(yù)訓(xùn)練中的非英語任務(wù)；使用英語提示對多語言任務(wù)進(jìn)行微調(diào)進(jìn)一步提高了英語和非英語任務(wù)的性能，實現(xiàn)各種最先進(jìn)的 zero-shot 結(jié)果；論文還研究了多語言任務(wù)的微調(diào)，這些任務(wù)使用從英語翻譯的提示來匹配每個數(shù)據(jù)集的語言，實驗發(fā)現(xiàn)翻譯的提示可以提高相應(yīng)語言的人工提示的性能。實驗還發(fā)現(xiàn)模型能夠?qū)λ鼈儚奈匆娺^的語言任務(wù)進(jìn)行零樣本泛化，推測這些模型正在學(xué)習(xí)與任務(wù)和語言無關(guān)的更高級別的能力。GPT-3.5GPT-3.5 是從 GPT-3 演化來的一些列模型，如下圖所示，從初始的 GPT-3 到 GPT-3.5 再到 ChatGPT 是經(jīng)過了一些列的優(yōu)化和演進(jìn)。圖片來源：ChatGPT進(jìn)化的秘密[33]和拆解追溯 GPT-3.5 各項能力的起源[34]，參考文章整理了以下 GPT-3.5 的演化過程。

2020年7月，發(fā)布GPT-3，最原始的 GPT-3 基礎(chǔ)模型主要有 davinci、curie、ada 和 babbage 四個不同版本，其中davinci 是功能最強大的，后續(xù)也都是基于它來優(yōu)化的；

2021年7月，發(fā)布Codex[35]，在代碼數(shù)據(jù)上對 GPT-3 微調(diào)得到，對應(yīng)著 code-davinci-001 和 code-cushman-001 兩個模型版本；

2021年3月，發(fā)布 InstructGPT[36]論文，對 GPT-3 進(jìn)行指令微調(diào) （supervised fine-tuning on human demonstrations）得到davinci-instruct-beta1模型；在指令數(shù)據(jù)和經(jīng)過標(biāo)注人員評分反饋的模型生成樣例數(shù)據(jù)上進(jìn)行微調(diào)得到text-davinci-001，InstructGPT 論文中的原始模型對應(yīng)著davinci-instruct-beta；

2021年6月，發(fā)布 code-davinci-002，是功能最強大的 Codex 型號，在文本和代碼數(shù)據(jù)上進(jìn)行訓(xùn)練，特別擅長將自然語言翻譯成代碼和補全代碼；

2021年6月，發(fā)布 text-davinci-002，它是在code-davinci-002 基礎(chǔ)上進(jìn)行有監(jiān)督指令微調(diào)得到；

2021年11月，發(fā)布 text-davinci-003 和 ChatGPT[37]，它們都是在 text-davinci-002 基礎(chǔ)上利用人類反饋強化學(xué)習(xí) RLHF 進(jìn)一步微調(diào)優(yōu)化得到。

ChatGPTChatGPT 是在 GPT-3.5 基礎(chǔ)上進(jìn)行微調(diào)得到的，微調(diào)時使用了從人類反饋中進(jìn)行強化學(xué)習(xí)的方法（Reinforcement Learning from Human Feedback，RLHF）。這里的人類反饋其實就是人工標(biāo)注數(shù)據(jù)，來不斷微調(diào) LLM，主要目的是讓LLM學(xué)會理解人類的命令指令的含義（比如文生成類問題、知識回答類問題、頭腦風(fēng)暴類問題等不同類型的命令），以及讓LLM學(xué)會判斷對于給定的prompt輸入指令（用戶的問題），什么樣的答案輸出是優(yōu)質(zhì)的（富含信息、內(nèi)容豐富、對用戶有幫助、無害、不包含歧視信息等多種標(biāo)準(zhǔn)）。其實從 GPT-1到 GPT-3.5 可以發(fā)現(xiàn)更大的語言模型雖然有了更強的語言理解和生成的能力，但并不能從本質(zhì)上使它們更好地遵循或理解用戶的指令意圖。例如，大型語言模型可能會生成不真實、有害或?qū)τ脩魶]有幫助的輸出，原因在于這些語言模型預(yù)測下一個單詞的訓(xùn)練目標(biāo)與用戶目標(biāo)意圖是不一致的。為了對齊語言模型于人類意圖，ChatGPT展示了一種途徑，可以引入人工標(biāo)注和反饋，通過強化學(xué)習(xí)算法對大規(guī)模語言模型進(jìn)行微調(diào)，在各種任務(wù)上使語言模型與用戶的意圖保持一致，輸出人類想要的內(nèi)容。

GPT-4GPT-4 是 OpenAI 繼 ChatGPT 之后發(fā)布的一個大規(guī)模的多模態(tài)模型，之前的 GPT 系列模型都是只支持純文本輸入輸出的語言模型，而 GPT-4 可以接受圖像和文本作為輸入，并產(chǎn)生文本輸出。GPT-4 仍然是基于 Transformer 的自回歸結(jié)構(gòu)的預(yù)訓(xùn)練模型。OpenAI 的博客中表示在隨意的對話中，GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙，當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時，差異就會出現(xiàn)，即 GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。雖然在許多現(xiàn)實場景中的能力不如人類，但 GPT-4 在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出人類水平的表現(xiàn)，包括通過模擬律師考試，得分在應(yīng)試者的前 10% 左右。和 ChatGPT RLHF 的方法類似，alignment（對齊）訓(xùn)練過程可以提高模型事實性和對期望行為遵循度的表現(xiàn)，具有強大的意圖理解能力，并且對 GPT-4 的安全性問題做了很大的優(yōu)化和提升。AlpacaAlpaca（羊駝）模型是斯坦福大學(xué)基于 Meta 開源的 LLaMA-7B 模型微調(diào)得到的指令遵循（instruction-following）的語言模型。在有學(xué)術(shù)預(yù)算限制情況下，訓(xùn)練高質(zhì)量的指令遵循模型主要面臨強大的預(yù)訓(xùn)練語言模型和高質(zhì)量的指令遵循數(shù)據(jù)兩個挑戰(zhàn)，作者利用 OpenAI 的 text-davinci-003 模型以 self-instruct[41]方式生成 52K 的指令遵循樣本數(shù)據(jù)，利用這些數(shù)據(jù)訓(xùn)練以有監(jiān)督的方式訓(xùn)練 LLaMA-7B 得到 Alpaca 模型。在測試中，Alpaca 的很多行為表現(xiàn)都與 text-davinci-003 類似，且只有 7B 參數(shù)的輕量級模型 Alpaca 性能可與 GPT-3.5 這樣的超大規(guī)模語言模型性能媲美。

Alpaca訓(xùn)練示意圖

博客：https://crfm.stanford.edu/2023/03/13/alpaca.html[42]

Github：https://github.com/tatsu-lab/stanford\_alpaca[43]

Alpaca-LoRA[44]使用 low-rank adaptation (LoRA)[45]重現(xiàn) Alpaca 的結(jié)果，并且能夠以一塊消費級顯卡，在幾小時內(nèi)完成 7B 模型的 fine-turning。 Alpaca 主要支持英文任務(wù)，因此許多工作在 Alpaca 基礎(chǔ)上進(jìn)一步訓(xùn)練其他語言的模型，比如，韓語羊 KoAlpaca[46]，日語羊駝 Japanese-Alpaca-LoRA[47]。對于中文任務(wù)，國內(nèi)開源了參考 Alpaca 訓(xùn)練方式基于 LLaMA 的 Chinese-Vicuna （小羊駝）模型[48]，以及 Luotuo（駱駝）: Chinese-alpaca-lora[49]。

ChatGLMChatGLM 是清華大學(xué)知識工程（KEG）實驗室與其技術(shù)成果轉(zhuǎn)化的公司智譜AI基于此前開源的 GLM-130B[51]千億基座模型研制，是一個初具問答和對話功能的千億中英語言模型。ChatGLM 參考了 ChatGPT 的設(shè)計思路，在千億基座模型 GLM-130B 中注入了代碼預(yù)訓(xùn)練，通過有監(jiān)督微調(diào)（Supervised Fine-Tuning）、反饋自助（Feedback Bootstrap）、人類反饋強化學(xué)習(xí)（Reinforcement Learning from Human Feedback）等技術(shù)實現(xiàn)人類意圖對齊。同時，開源了62 億參數(shù)的 ChatGLM-6B[52]，結(jié)合模型量化技術(shù)，用戶可以在消費級的顯卡上進(jìn)行本地部署（INT4 量化級別下最低只需 6GB 顯存），雖然規(guī)模不及千億模型，但大大降低了用戶部署的門檻，并且已經(jīng)能生成相當(dāng)符合人類偏好的回答。

博客地址：https://chatglm.cn/blog[53]

ERNIE BotERNIE Bot 就是百度的文心一言，基于 ERNIE 系列大模型構(gòu)建的類 ChatGPT 的對話模型，具體細(xì)節(jié)不知道...BardBard 是谷歌基于 LaMDA 研制的對標(biāo) ChatGPT 的對話語言模型，目前應(yīng)該只支持英文對話，限美國和英國用戶預(yù)約訪問，其他未知...

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3062

瀏覽量
48575
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
491

瀏覽量
10226
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
28

文章
1525

瀏覽量
7257

原文標(biāo)題：總結(jié)從T5、GPT-3、Chinchilla、PaLM、LLaMA、Alpaca等近30個最新模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

關(guān)系，從而在各種任務(wù)中表現(xiàn)出色。Transformer架構(gòu)的推出，標(biāo)志著語言模型技術(shù)的重大突破。它摒棄了傳統(tǒng)的遞歸方式，利用自注意力機制捕捉序列中的依賴關(guān)系。這一創(chuàng)新極大地提高了模型的

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

,直到現(xiàn)在的大語言模型。基于Transformer結(jié)構(gòu)，預(yù)訓(xùn)練語言模型可以大致被劃分為以下三類。 (1) Encoder-Only 預(yù)訓(xùn)

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的評測

計算和代碼糾錯等。這些場景覆蓋日常生活和學(xué)習(xí)的多個方面，使得對話能力評測變得尤為復(fù)雜和關(guān)鍵。為了全面評估大語言模型在各種應(yīng)用場景下的對話能力，研究人員和使用者需要一套綜合性的評測框架。該框架主要包括評測

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

，它通過抽象思考和邏輯推理，協(xié)助我們應(yīng)對復(fù)雜的決策。相應(yīng)地，我們設(shè)計了兩類任務(wù)來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務(wù)，類似于人類的系統(tǒng)1，如情感分析和抽取式問答等。大語言

發(fā)表于 05-07 17:21

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色，耳真正厲害的是Transformer，此框架被

發(fā)表于 05-12 23:57

8051單片機C語言的徹底應(yīng)用

不錯的資料，跟大家分享下[hide]8051單片機C語言的徹底應(yīng)用[/hide]

發(fā)表于 02-24 23:06

C8051的C語言的徹底應(yīng)用

C8051的C語言的徹底應(yīng)用

發(fā)表于 10-07 17:22

C8051的C語言的徹底應(yīng)用

C8051的C語言的徹底應(yīng)用

發(fā)表于 12-18 21:24

8051C語言徹底應(yīng)用.pdf

8051C語言徹底應(yīng)用.pdf

發(fā)表于 03-16 01:33

C8051的C語言的徹底應(yīng)用.pdf

C8051的C語言的徹底應(yīng)用.pdf

發(fā)表于 04-29 23:05

8051單片機C語言徹底應(yīng)用

`8051單片機C語言徹底應(yīng)用[hide][/hide]`

發(fā)表于 03-04 13:33

C8051的C語言的徹底應(yīng)用

電子書籍： C8051的C語言的徹底應(yīng)用

發(fā)表于 08-31 16:11 ?29次下載

FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

，大型語言模型（Large Language Models，LLM）徹底改變了自然語言處理領(lǐng)域，使機器能夠生成類似人類的文本并進(jìn)行有意義的對話。這些

發(fā)表于 09-04 16:55 ?535次閱讀

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進(jìn)行介紹。大語言模型

發(fā)表于 12-04 15:51 ?709次閱讀

搜索歷史

各種大語言模型是徹底被解封了

評論

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

大語言模型：原理與工程時間+小白初識大語言模型

8051單片機C語言的徹底應(yīng)用

C8051的C語言的徹底應(yīng)用

C8051的C語言的徹底應(yīng)用

8051C語言徹底應(yīng)用.pdf

C8051的C語言的徹底應(yīng)用.pdf

8051單片機C語言徹底應(yīng)用

C8051的C語言的徹底應(yīng)用

FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock