0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT的技術(shù)體系

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-02-17 11:28 ? 次閱讀

ChatGPT的技術(shù)體系

0.參考資料

RLHF論文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)

摘要上下文中的 RLHF:Learning to summarize from Human Feedback (https://arxiv.org/pdf/2009.01325.pdf)

PPO論文:Proximal Policy Optimization Algorithms(https://arxiv.org/pdf/1707.06347.pdf)

Deep reinforcement learning from human preferences (https://arxiv.org/abs/1706.03741)

1. 引言

1.1 ChatGPT的介紹

作為一個 AI Chatbot,ChatGPT 是當前比較強大的自然語言處理模型之一,它基于 Google 的 T5 模型進行了改進,同時加入了許多自然語言處理的技術(shù),使得它可以與人類進行自然的、連貫的對話。ChatGPT 使用了 GPT(Generative Pre-training Transformer)架構(gòu),它是一種基于 Transformer 的預訓練語言模型。GPT 的主要思想是將大量的語料庫輸入到模型中進行訓練,使得模型能夠理解和學習語言的語法、語義等信息,從而生成自然、連貫的文本。與其他 Chatbot 相比,ChatGPT 的優(yōu)勢在于它可以進行上下文感知型的對話,即它可以記住上下文信息,而不是簡單地匹配預先定義的規(guī)則或模式。此外,ChatGPT 還可以對文本進行生成和理解,支持多種對話場景和話題,包括閑聊、知識問答、天氣查詢、新聞閱讀等等。

盡管 ChatGPT 在自然語言處理領(lǐng)域已經(jīng)取得了很好的表現(xiàn),但它仍然存在一些局限性,例如對于一些復雜的、領(lǐng)域特定的問題,它可能無法給出正確的答案,需要通過人類干預來解決。因此,在使用 ChatGPT 進行對話時,我們?nèi)孕枰斏鲗Υ?,盡可能提供明確、簡潔、準確的問題,以獲得更好的對話體驗。

1.2 ChatGPT的訓練模式

ChatGPT 的訓練模式是基于大規(guī)模文本數(shù)據(jù)集的監(jiān)督學習和自我監(jiān)督學習,這些數(shù)據(jù)集包括了各種類型的文本,例如新聞文章、博客、社交媒體、百科全書、小說等等。ChatGPT 通過這些數(shù)據(jù)集進行預訓練,然后在特定任務(wù)的數(shù)據(jù)集上進行微調(diào)。

對于 Reinforcement Learning from Human Feedback 的訓練方式,ChatGPT 通過與人類進行對話來進行模型訓練。具體而言,它通過與人類進行對話,從而了解人類對話的語法、語義和上下文等方面的信息,并從中學習如何生成自然、連貫的文本。當 ChatGPT 生成回復時,人類可以對其進行反饋,例如“好的”、“不太好”等等,這些反饋將被用來調(diào)整模型參數(shù),以提高 ChatGPT 的回復質(zhì)量。Reinforcement Learning from Human Feedback 的訓練方式,可以使 ChatGPT 更加智能,更好地模擬人類的思維方式。不過這種訓練方式也存在一些問題,例如人類反饋的主觀性和不確定性等,這些問題可能會影響模型的訓練效果。因此,我們需要在使用 ChatGPT 進行對話時,謹慎對待反饋,盡可能提供明確、簡潔、準確的反饋,以獲得更好的對話體驗。

1.3 RLHF的介紹

9896098c-ae70-11ed-bfe3-dac502259ad0.png

在過去的幾年中,語言模型通過根據(jù)人類輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而,什么才是“好”文本本質(zhì)上很難定義,因為它是主觀的并且依賴于上下文。有許多應(yīng)用程序,例如編寫您需要創(chuàng)意的故事、應(yīng)該真實的信息性文本片段,或者我們希望可執(zhí)行的代碼片段。編寫一個損失函數(shù)來捕獲這些屬性似乎很棘手,而且大多數(shù)語言模型仍然使用簡單的下一個loss function(例如交叉熵)進行訓練。為了彌補損失本身的缺點,人們定義了旨在更好地捕捉人類偏好的指標,例如 BLEU 或 ROUGE。雖然比損失函數(shù)本身更適合衡量性能,但這些指標只是簡單地將生成的文本與具有簡單規(guī)則的引用進行比較,因此也有局限性。如果我們使用生成文本的人工反饋作為性能衡量標準,或者更進一步并使用該反饋作為損失來優(yōu)化模型,那不是很好嗎?這就是從人類反饋中強化學習(RLHF)的想法;使用強化學習的方法直接優(yōu)化帶有人類反饋的語言模型。RLHF 使語言模型能夠開始將在一般文本數(shù)據(jù)語料庫上訓練的模型與復雜人類價值觀的模型對齊。

在傳統(tǒng)的強化學習中,智能的agent需要通過不斷的試錯來學習如何最大化獎勵函數(shù)。但是,這種方法往往需要大量的訓練時間和數(shù)據(jù),同時也很難確保智能代理所學習到的策略是符合人類期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法,即通過人類偏好來指導智能代理的訓練。具體而言,它要求人類評估一系列不同策略的優(yōu)劣,然后將這些評估結(jié)果作為訓練數(shù)據(jù)來訓練智能代理的深度神經(jīng)網(wǎng)絡(luò)。這樣,智能代理就可以在人類偏好的指導下,學習到更符合人類期望的策略。除了減少訓練時間和提高智能代理的性能之外,Deep Reinforcement Learning from Human Preferences 還可以在許多現(xiàn)實場景中發(fā)揮作用,例如游戲設(shè)計、自動駕駛等。通過使用人類偏好來指導智能代理的訓練,我們可以更好地滿足人類需求,并創(chuàng)造出更加智能和人性化的技術(shù)應(yīng)用

2. 方法介紹

98bc58ee-ae70-11ed-bfe3-dac502259ad0.png

方法總體上包括三個不同步驟:

監(jiān)督調(diào)優(yōu)模型:在一小部分已經(jīng)標注好的數(shù)據(jù)上進行有監(jiān)督的調(diào)優(yōu),讓機器學習從一個給定的提示列表中生成輸出,這個模型被稱為 SFT 模型。

模擬人類偏好,讓標注者們對大量 SFT 模型輸出進行投票,這樣就可以得到一個由比較數(shù)據(jù)組成的新數(shù)據(jù)集。然后用這個新數(shù)據(jù)集來訓練一個新模型,叫做 RM 模型。

用 RM 模型進一步調(diào)優(yōu)和改進 SFT 模型,用一種叫做 PPO 的方法得到新的策略模式。

第一步只需要進行一次,而第二步和第三步可以持續(xù)重復進行,以收集更多的比較數(shù)據(jù)來訓練新的 RM 模型和更新策略模式。

2.1 監(jiān)督調(diào)優(yōu)模型

需要收集數(shù)據(jù)來訓練有監(jiān)督的策略模型。為了做到這一點,選定一些提示,讓標注人員寫出預期的回復。這個過程雖然緩慢和昂貴,但最終得到的是一個相對較小、高質(zhì)量的數(shù)據(jù)集,可用于調(diào)優(yōu)預訓練的語言模型。選擇了 GPT-3.5 系列中的預訓練模型作為基線模型,而不是對原始 GPT-3 模型進行調(diào)優(yōu)。

然而,由于此步驟的數(shù)據(jù)量有限,這個過程得到的 SFT 模型可能會輸出一些不是用戶想要的文本,通常也會出現(xiàn)不一致問題。為了解決這個問題,使用的策略是讓標注者對 SFT 模型的不同輸出進行排序以創(chuàng)建 RM 模型,而不是讓標注者創(chuàng)建一個更大的精選數(shù)據(jù)集。

2.2 訓練回報模型

在這一步中,我們的目標是學習一個目標函數(shù),它可以直接從數(shù)據(jù)中學習,而不是僅僅從有限的訓練數(shù)據(jù)中調(diào)整語言模型。這個目標函數(shù)的作用是為 SFT 模型生成的輸出進行評分,以表示這些輸出對人類來說有多可接受。它反映了人類標注者的偏好和共同準則。最終,這個過程可以得到一個系統(tǒng),它可以模仿人類的偏好。包括以下步驟:

利用prompt 生成多個輸出。

利用標注者對這些輸出進行排序,獲得一個更大質(zhì)量更高的數(shù)據(jù)集。

把模型將 SFT 模型輸出作為輸入,并按優(yōu)先順序?qū)λ鼈冞M行排序。

2.3 使用 PPO 模型微調(diào) SFT 模型

這一步的目標是通過強化學習來調(diào)整 SFT 模型。具體來說,使用了一個叫 PPO 的算法來訓練一個叫做近端策略優(yōu)化模型的調(diào)整模型,用于優(yōu)化 SFT 模型。

PPO 是一種用于訓練智能體的算法,可以不斷地調(diào)整策略以提高效果。與其他算法不同的是,PPO 會限制策略的更改范圍,以確保訓練的穩(wěn)定性。此外,PPO 還使用了一個價值函數(shù)來估計每個行動的價值,從而更加準確地進行調(diào)整。

在這一步中,PPO 模型使用 SFT 模型作為起點,RM 模型作為基礎(chǔ),為給定的輸入生成回報。為了避免過度優(yōu)化,SFT 模型會為每個 token 添加 KL 懲罰因子。

3. 性能評估

作為一個大型語言模型,ChatGPT的評估標準可以有多種。在訓練ChatGPT時,通常會使用一些標準的自然語言處理評估指標來評估其性能,如困惑度(perplexity)、BLEU分數(shù)、ROUGE分數(shù)等。這些指標可以用來評估ChatGPT在生成文本時的流暢度、語義連貫性和表達能力等方面的表現(xiàn)。此外,ChatGPT也可以通過人類評估來評估其性能,例如進行用戶調(diào)查或人類評分實驗。這些方法可以提供更貼近實際使用場景的評估,以便更全面地評估ChatGPT在生成自然語言文本方面的表現(xiàn)。

主要借助以下三個標準進行評估:

幫助性:判斷模型遵循用戶指示以及推斷指示的能力。

真實性:判斷模型在封閉領(lǐng)域任務(wù)中有產(chǎn)生虛構(gòu)事實的傾向。

無害性:標注者評估模型的輸出是否適當、是否包含歧視性內(nèi)容。

4. ChatGPT的前景

ChatGPT 在自然語言處理領(lǐng)域具有廣泛的應(yīng)用前景。它可以用于語言翻譯、情感分析、問答系統(tǒng)、文本摘要、對話系統(tǒng)等多個任務(wù),幫助人們更好地理解和處理自然語言。此外,ChatGPT 還可以應(yīng)用于許多其他領(lǐng)域,例如自然語言生成、自動文本摘要、機器翻譯、自動問答、語音識別等。它也可以用于推薦系統(tǒng)、智能客服、智能問答、知識圖譜等領(lǐng)域。ChatGPT 的未來發(fā)展前景非常廣闊,可以預見的是,隨著技術(shù)的不斷發(fā)展,它將在各個領(lǐng)域得到更廣泛的應(yīng)用和改進。同時,也需要關(guān)注和解決一些挑戰(zhàn),例如如何提高模型的效率和準確性,如何解決對話中的常識推理和知識不足等問題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3073

    瀏覽量

    48587
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    122

    瀏覽量

    10547
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1536

    瀏覽量

    7272

原文標題:ChatGPT的技術(shù)體系

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

    ,ChatGPT 4這樣的模型需要大量的計算資源和優(yōu)化技術(shù),而FPGA只是其中的一部分: // 首先,我們需要在FPGA上創(chuàng)造一個超級智能網(wǎng)絡(luò)精靈 module ChatGPT
    發(fā)表于 02-14 21:58

    在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
    發(fā)表于 03-28 23:41

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    和情緒的選項 實時視頻捕捉,在與ChatGPT 交互時無需發(fā)送照片 有能力在會議和視頻通話中提供協(xié)助 發(fā)布會為其潛在影響提供了清晰的愿景。隨著企業(yè)駕馭不斷變化的技術(shù)領(lǐng)域,擁抱ChatGPT-4o對于實現(xiàn)持續(xù)增長和創(chuàng)新至關(guān)重要。
    發(fā)表于 05-27 15:43

    chatGPT幫我寫硬件代碼,是懂行的,好助手!#chatgpt #物聯(lián)網(wǎng)開發(fā) #python開發(fā)板

    ChatGPT
    蘇州煜瑛微電子科技有限公司
    發(fā)布于 :2023年02月17日 15:27:42

    ChatGPT對話語音識別

    ChatGPT
    YS YYDS
    發(fā)布于 :2023年05月30日 22:13:10

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    產(chǎn)業(yè)版ChatGPT--ChatJD。 可見,大廠的態(tài)度十分鮮明:ChatGPT已經(jīng)是既定的未來,這場新的科技競技賽哨聲響起,誰都不甘落于下風。從科技巨頭,到行業(yè)龍頭,中國企業(yè)競逐AI賽道,AIGC(利用人工智能技術(shù)
    發(fā)表于 03-03 14:28

    chatGPT一種生產(chǎn)力的變革

    推進。標準規(guī)范為AIGC生態(tài)構(gòu)建了一個技術(shù)、內(nèi)容、應(yīng)用、服務(wù)和監(jiān)管的全過程一體化標準 體系,促進AIGC在合理、合規(guī)和合法的框架下進行良性發(fā)展。 以美國為例,雖然美國在AIGC技術(shù)領(lǐng)域起步較早,且
    發(fā)表于 04-25 16:04

    不到1分鐘開發(fā)一個GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

    的能力仍然是不可替代的。 此外,ChatGPT等語言模型的應(yīng)用也需要大量的數(shù)據(jù)和算力支持,以及專業(yè)的技術(shù)人員進行開發(fā)和維護。因此,雖然ChatGPT等語言模型在某些方面具有一定的優(yōu)勢,但它們并不能完全取代
    發(fā)表于 11-19 12:06

    國內(nèi)“山寨”ChatGPT涌現(xiàn),年費999元!阿里、京東、快手在研究類ChatGPT技術(shù)

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近段時間,ChatGPT持續(xù)火熱,隨著微軟將ChatGPT引入旗下產(chǎn)品中,國內(nèi)科技互聯(lián)網(wǎng)巨頭企業(yè),也宣布正在布局類似ChatGPT技術(shù)和應(yīng)用。 ? 除此
    的頭像 發(fā)表于 02-11 01:40 ?7545次閱讀

    ChatGPT實現(xiàn)原理

    OpenAI發(fā)明的一種自然語言處理技術(shù)。它是一種預訓練的深度學習模型,可以用來生成文本,識別語義,做文本分類等任務(wù)。 ChatGPT實現(xiàn)原理 火爆的ChatGPT,得益于AIGC 背后的關(guān)鍵
    的頭像 發(fā)表于 02-13 17:32 ?9.9w次閱讀
    <b class='flag-5'>ChatGPT</b>實現(xiàn)原理

    ChatGPT/GPT的原理 ChatGPT技術(shù)架構(gòu)

    ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架構(gòu)開發(fā)的對話AI模型,是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練,或用于收集大量對話數(shù)據(jù)
    發(fā)表于 02-24 10:05 ?1751次閱讀

    最全ChatGPT技術(shù)匯總

    ChatGPT的強大能力是顯而易見的,但對于人工智能領(lǐng)域不太熟悉的人,對這種黑盒的技術(shù)仍然會擔憂或者不信任。恐懼通常來自于不了解,因此本文將為大家全面剖析ChatGPT技術(shù)原理,盡量
    的頭像 發(fā)表于 03-22 10:06 ?3853次閱讀

    ChatGPT應(yīng)用實戰(zhàn)

    ChatGPT自發(fā)布之后一直大火至今,引起行業(yè)震動,我們也持續(xù)在跟進ChatGPT,體驗其功能,了解其技術(shù)原理,并基于爬蟲技術(shù)封裝了ChatGPT
    發(fā)表于 06-06 17:47 ?4次下載

    chatgpt是什么意思 ChatGPT背后的技術(shù)原理

      今天我們?yōu)榇蠹規(guī)淼奈恼拢钊霚\出地闡釋了ChatGPT背后的技術(shù)原理,沒有NLP或算法經(jīng)驗的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?b class='flag-5'>ChatGPT是一種機器學習自然
    發(fā)表于 07-18 17:12 ?0次下載

    大模型LLM與ChatGPT技術(shù)原理

    在人工智能領(lǐng)域,大模型(Large Language Model, LLM)和ChatGPT等自然語言處理技術(shù)(Natural Language Processing, NLP)正逐步改變著人類
    的頭像 發(fā)表于 07-10 10:38 ?577次閱讀