亚洲aⅴ无码一区二区三区,av高清无码网址大全,一本大道无码日韩精品影视丶

LLM可以標(biāo)記人類偏好數(shù)據(jù)，用于強(qiáng)化學(xué)習(xí)嗎？盡管之前有一些類似的研究，但從沒有人系統(tǒng)地對(duì)比RLHF和RLAIF的性能。今天，我們?yōu)榇蠹規(guī)?lái)一項(xiàng)Google最新的研究，來(lái)看看LLM是否懂得人類的偏好。

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)通過(guò)收集人類反饋，以強(qiáng)化學(xué)習(xí)方法訓(xùn)練LLM，可以更好地理解人類偏好。然而，這個(gè)方法有一個(gè)很大的問(wèn)題：收集高質(zhì)量的人類反饋非常困難和耗時(shí)。

那有沒有更好的方法呢？

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顧名思義，RLAIF是指使用LLM來(lái)代替人類標(biāo)記偏好，基于這些標(biāo)記數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型，然后進(jìn)行RL微調(diào)。

下圖是一個(gè)展示了RLAIF(上)和RLHF(下)的基本流程。

如圖所示，在RLAIF中，首先使用LLM來(lái)評(píng)估給定的文本和2個(gè)候選回復(fù)，然后，這些由LLM生成的偏好數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型，這個(gè)獎(jiǎng)勵(lì)模型用于強(qiáng)化學(xué)習(xí)，以便進(jìn)一步優(yōu)化LLM。

一個(gè)LLM用于評(píng)估回復(fù)的prompt示例如下圖，遵循以下流程：

Preamble-描述任務(wù)介紹和說(shuō)明

Few-shot exemplars(可選)

Sample to annotate

結(jié)束字符串

在這篇研究中，作者還探索了：

避免位置偏差: 候選回復(fù)喂給LLM的順序可能會(huì)偏向它喜歡的候選順序，尤其是在 LLM 參數(shù)較小的情況下。為了減輕位置偏差的影響，作者進(jìn)行了雙重推理和平均處理。

prompt改進(jìn): 還嘗試了使用思維鏈（CoT）推理和self-consistency等方法促進(jìn)LLM的評(píng)估。

實(shí)驗(yàn)結(jié)果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的過(guò)濾過(guò)的TL;DR數(shù)據(jù)集上訓(xùn)練了一個(gè)SFT模型作為baseline。

對(duì)于RLHF方法，獎(jiǎng)勵(lì)模型在OpenAI的TL;DR人類偏好數(shù)據(jù)集上進(jìn)行訓(xùn)練。

對(duì)于RLAIF方法，使用PaLM 2 L生成AI標(biāo)記的偏好

對(duì)于強(qiáng)化學(xué)習(xí)，使用A2C訓(xùn)練策略。策略和價(jià)值模型都是從SFT模型初始化的。

實(shí)驗(yàn)主要有以下發(fā)現(xiàn)：

在性能方面：RLAIF與RLHF有相似的表現(xiàn)。

在人類評(píng)估上，與SFT策略相比，RLAIF被偏好71%的時(shí)間，而RLHF則被偏好73%的時(shí)間。盡管RLHF略微優(yōu)于RLAIF，但這個(gè)差異在統(tǒng)計(jì)上并不顯著。

直接對(duì)比勝率：RLAIF與RLHF在被偏好的程度上是平等的，勝率都是50%。

與人工寫的摘要比較：RLAIF和RLHF生成的摘要分別在79%和80%的時(shí)間內(nèi)被更偏好，與參考摘要的差異也不具統(tǒng)計(jì)意義。

影響因素：RLAIF和RLHF策略傾向于生成比SFT策略更長(zhǎng)的摘要，這可能是質(zhì)量提升的一個(gè)因素。

長(zhǎng)度調(diào)整后表現(xiàn)：即使控制摘要的長(zhǎng)度，RLAIF和RLHF都依然在同樣的幅度內(nèi)優(yōu)于SFT策略。

下圖是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產(chǎn)生更高質(zhì)量的摘要。

對(duì)于prompt方式，使用詳細(xì)的OpenAI preamble和CoT給出了最高的對(duì)齊性能。少樣本提示并沒有提高準(zhǔn)確性，甚至可能使它變得更糟。

Self-Consistency with CoT對(duì)性能的影響如下，用T=1采樣會(huì)導(dǎo)致與人類偏好的一致性較低。

作者還對(duì)用于評(píng)估的LLM的參數(shù)大小進(jìn)行了探索，發(fā)現(xiàn)與人類偏好的一致性隨著LLM大小的增加而增加。

總結(jié)

這項(xiàng)工作似乎暗示RLAIF是一個(gè)不依賴于人工標(biāo)注的、與RLHF可行的替代方案。但是，為了更好地了解這些發(fā)現(xiàn)是否能推廣到其他NLP任務(wù)，還需要在更廣泛的任務(wù)范圍內(nèi)進(jìn)行實(shí)驗(yàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3073

瀏覽量
48583
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
264

瀏覽量
11183
LLM

LLM

+關(guān)注

關(guān)注
0

文章
254

瀏覽量
286

原文標(biāo)題：RLAIF：一個(gè)不依賴人工的RLHF替代方案

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

SILABS CP2103芯片是否不依賴于我錯(cuò)過(guò)的微/ picoblaze處理器？

/TechnicalDocs/CP2103.pdf幾乎沒有說(shuō)明這個(gè)芯片的使用情況（除了告訴我RTS和CTS之外）活躍的低）。這個(gè)芯片的vhdl或verilog示例代碼是否不依賴于我錯(cuò)過(guò)的微/ picoblaze處理器

發(fā)表于 07-23 13:00

一種不依賴于棋盤格等輔助標(biāo)定物體實(shí)現(xiàn)像素級(jí)相機(jī)和激光雷達(dá)自動(dòng)標(biāo)定的方法

主要內(nèi)容本文提出了一種不依賴于棋盤格等輔助標(biāo)定物體，實(shí)現(xiàn)像素級(jí)相機(jī)和激光雷達(dá)自動(dòng)標(biāo)定的方法。方法直接從點(diǎn)云中提取3D邊特征，一避免遮擋問(wèn)題，并且使用了精確度更高的深度連續(xù)邊。文中首先指出：以下四種

發(fā)表于 09-01 07:42

一個(gè)新的Ad hoc安全組密鑰管理方案

本文基于可驗(yàn)證的門限秘密共享技術(shù)，提出一種分布式的可驗(yàn)證組密鑰管理方案。該方案具有不依賴于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化，在惡劣的網(wǎng)絡(luò)攻擊環(huán)境中仍能有效的更新組通信密鑰。

發(fā)表于 05-25 13:49 ?7次下載

據(jù)調(diào)查64％的人表示：日常生活中不依賴物聯(lián)網(wǎng)設(shè)備

大多數(shù)人（64％）表示，他們不依賴連網(wǎng)設(shè)備來(lái)完成日?；顒?dòng)，這一比例是36％的人表示他們依靠設(shè)備來(lái)度過(guò)日常生活的兩倍。領(lǐng)先的B2B研究、評(píng)級(jí)和評(píng)論公司Clutch一項(xiàng)新調(diào)查發(fā)現(xiàn)，67％擁有連網(wǎng)設(shè)備的人擁有智能家用電器，如智能冰箱、

發(fā)表于 10-27 10:13 ?1826次閱讀

量子技術(shù)革GPS的命：不依賴衛(wèi)星就可以進(jìn)行導(dǎo)航

導(dǎo)航衛(wèi)星系統(tǒng)（GNSS），這類系統(tǒng)可以發(fā)送和接收來(lái)自繞地球運(yùn)行的衛(wèi)星的信號(hào)。量子加速度計(jì)是一個(gè)獨(dú)立的系統(tǒng)，不依賴任何外部信號(hào)。這一點(diǎn)尤其重要，因?yàn)樾l(wèi)星信號(hào)可能因高層建筑物等阻礙因素而

發(fā)表于 11-19 16:22 ?349次閱讀

PHP簡(jiǎn)單實(shí)現(xiàn)不依賴于Unix系統(tǒng)Cron的定時(shí)任務(wù)程序資料說(shuō)明

本文檔的主要內(nèi)容詳細(xì)介紹的是PHP簡(jiǎn)單實(shí)現(xiàn)不依賴于Unix系統(tǒng)Cron的定時(shí)任務(wù)程序資料說(shuō)明。

發(fā)表于 03-01 16:52 ?2次下載

PHP簡(jiǎn)單實(shí)現(xiàn)<b class='flag-5'>不依賴</b>于Unix系統(tǒng)Cron的定時(shí)任務(wù)程序資料說(shuō)明

INS是一種不依賴于外部信息的自主式導(dǎo)航系統(tǒng)

慣性導(dǎo)航系統(tǒng)（INS）也稱作慣性參考系統(tǒng)，是一種不依賴于外部信息、也不向外部輻射能量（如無(wú)線電導(dǎo)航那樣）的自主式導(dǎo)航系統(tǒng)。其工作環(huán)境不僅包括空中、地面，還可以在水下。慣性導(dǎo)航的基本工作原理是以牛頓

發(fā)表于 06-08 15:29 ?2544次閱讀

一個(gè)種不依賴昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法

本篇介紹一個(gè)種不依賴昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法，同時(shí)配合LTspice仿真增強(qiáng)理解。工程師可以在普通實(shí)驗(yàn)室環(huán)境中，根據(jù)該方法調(diào)整放大器局部電路實(shí)現(xiàn)偏置電流的準(zhǔn)確測(cè)量。如圖2.36為

發(fā)表于 09-30 16:08 ?2986次閱讀

<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>種<b class='flag-5'>不依賴</b>昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法

以色列成立新研究中心，開發(fā)不依賴GPS的導(dǎo)航系統(tǒng)

以色列開發(fā)不依賴GPS的導(dǎo)航技術(shù) 據(jù)C4ISR網(wǎng)站2021年3月18日?qǐng)?bào)道，以色列國(guó)防部和以色列航空工業(yè)公司（IAI）成立了一個(gè)新的研究中心，開發(fā)不依賴于易中斷的GPS的導(dǎo)航系統(tǒng)。全球

發(fā)表于 04-12 09:43 ?1973次閱讀

openharmony代碼解析開源代碼不依賴AOSP

OpenHarmony 2.0 Canary在代碼托管平臺(tái)gitee上上線開源，新增22個(gè)子系統(tǒng)，支持全面的OS能力和內(nèi)存大于128M的帶屏設(shè)備開發(fā)等。

發(fā)表于 06-22 11:15 ?1564次閱讀

智行者發(fā)布國(guó)內(nèi)首款不依賴高精地圖的高級(jí)別自動(dòng)駕駛解決方案

與市場(chǎng)上其他高速領(lǐng)航系統(tǒng)不同，智行者的H-INP采用了“重感知輕地圖”的技術(shù)方案，成為國(guó)內(nèi)首款不依賴高精地圖的高級(jí)別自動(dòng)駕駛解決方案。

發(fā)表于 08-19 10:19 ?2448次閱讀

一個(gè)種不依賴昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法

發(fā)表于 02-22 14:17 ?709次閱讀

基于LDR和電阻器的閃爍LED電路圖分享

這也許是最簡(jiǎn)單的LED閃光燈，不依賴于任何半導(dǎo)體。該LED閃光燈電路利用普通的無(wú)源元件，如幾個(gè)電阻器、一個(gè)電容器和一個(gè)LDR。這意味著，這款

發(fā)表于 03-04 14:18 ?3248次閱讀

RLHF實(shí)踐中的框架使用與一些坑 (TRL, LMFlow)

我們主要用一個(gè)具體的例子展示如何在兩個(gè)框架下做RLHF，并且記錄下訓(xùn)練過(guò)程中我們踩到的主要的坑。這個(gè)例子包括完整的SFT，獎(jiǎng)勵(lì)建模和 RLHF

發(fā)表于 06-20 14:36 ?1842次閱讀

原生鴻蒙系統(tǒng)正式發(fā)布，余承東宣布不依賴國(guó)外核心技術(shù)

’，標(biāo)志著華為在移動(dòng)操作系統(tǒng)領(lǐng)域邁出了堅(jiān)實(shí)的一步。” 這款原生鴻蒙系統(tǒng)作為中國(guó)自主研發(fā)的移動(dòng)操作系統(tǒng)，其最大的亮點(diǎn)在于不依賴于國(guó)外的編程語(yǔ)言和操作系統(tǒng)內(nèi)核等核心技術(shù)，實(shí)現(xiàn)了真正的自主可控。這一突破對(duì)于提升我國(guó)在全球科技領(lǐng)域的競(jìng)爭(zhēng)

發(fā)表于 10-23 10:08 ?142次閱讀

搜索歷史

RLAIF：一個(gè)不依賴人工的RLHF替代方案

評(píng)論

SILABS CP2103芯片是否不依賴于我錯(cuò)過(guò)的微/ picoblaze處理器？

一種不依賴于棋盤格等輔助標(biāo)定物體實(shí)現(xiàn)像素級(jí)相機(jī)和激光雷達(dá)自動(dòng)標(biāo)定的方法

一個(gè)新的Ad hoc安全組密鑰管理方案

據(jù)調(diào)查64％的人表示：日常生活中不依賴物聯(lián)網(wǎng)設(shè)備

量子技術(shù)革GPS的命：不依賴衛(wèi)星就可以進(jìn)行導(dǎo)航

PHP簡(jiǎn)單實(shí)現(xiàn)不依賴于Unix系統(tǒng)Cron的定時(shí)任務(wù)程序資料說(shuō)明

INS是一種不依賴于外部信息的自主式導(dǎo)航系統(tǒng)

一個(gè)種不依賴昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法

以色列成立新研究中心，開發(fā)不依賴GPS的導(dǎo)航系統(tǒng)

openharmony代碼解析開源代碼不依賴AOSP

智行者發(fā)布國(guó)內(nèi)首款不依賴高精地圖的高級(jí)別自動(dòng)駕駛解決方案

一個(gè)種不依賴昂貴檢測(cè)設(shè)備的偏置電流測(cè)試方法

基于LDR和電阻器的閃爍LED電路圖分享

RLHF實(shí)踐中的框架使用與一些坑 (TRL, LMFlow)

原生鴻蒙系統(tǒng)正式發(fā)布，余承東宣布不依賴國(guó)外核心技術(shù)