LLM可以標(biāo)記人類偏好數(shù)據(jù),用于強(qiáng)化學(xué)習(xí)嗎?盡管之前有一些類似的研究,但從沒有人系統(tǒng)地對(duì)比RLHF和RLAIF的性能。今天,我們?yōu)榇蠹規(guī)?lái)一項(xiàng)Google最新的研究,來(lái)看看LLM是否懂得人類的偏好。
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)通過(guò)收集人類反饋,以強(qiáng)化學(xué)習(xí)方法訓(xùn)練LLM,可以更好地理解人類偏好。然而,這個(gè)方法有一個(gè)很大的問(wèn)題:收集高質(zhì)量的人類反饋非常困難和耗時(shí)。
那有沒有更好的方法呢?
RLAIF方法
RLAIF即Reinforcement learning from AI feedback。顧名思義,RLAIF是指使用LLM來(lái)代替人類標(biāo)記偏好,基于這些標(biāo)記數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型,然后進(jìn)行RL微調(diào)。
下圖是一個(gè)展示了RLAIF(上)和RLHF(下)的基本流程。
如圖所示,在RLAIF中,首先使用LLM來(lái)評(píng)估給定的文本和2個(gè)候選回復(fù),然后,這些由LLM生成的偏好數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,這個(gè)獎(jiǎng)勵(lì)模型用于強(qiáng)化學(xué)習(xí),以便進(jìn)一步優(yōu)化LLM。
一個(gè)LLM用于評(píng)估回復(fù)的prompt示例如下圖,遵循以下流程:
Preamble-描述任務(wù)介紹和說(shuō)明
Few-shot exemplars(可選)
Sample to annotate
結(jié)束字符串
在這篇研究中,作者還探索了:
避免位置偏差: 候選回復(fù)喂給LLM的順序可能會(huì)偏向它喜歡的候選順序,尤其是在 LLM 參數(shù)較小的情況下。為了減輕位置偏差的影響,作者進(jìn)行了雙重推理和平均處理。
prompt改進(jìn): 還嘗試了使用思維鏈(CoT)推理和self-consistency等方法促進(jìn)LLM的評(píng)估。
實(shí)驗(yàn)結(jié)果
作者使用PaLM 2 Extra-Small(XS)在OpenAI的過(guò)濾過(guò)的TL;DR數(shù)據(jù)集上訓(xùn)練了一個(gè)SFT模型作為baseline。
對(duì)于RLHF方法,獎(jiǎng)勵(lì)模型在OpenAI的TL;DR人類偏好數(shù)據(jù)集上進(jìn)行訓(xùn)練。
對(duì)于RLAIF方法,使用PaLM 2 L生成AI標(biāo)記的偏好
對(duì)于強(qiáng)化學(xué)習(xí),使用A2C訓(xùn)練策略。策略和價(jià)值模型都是從SFT模型初始化的。
實(shí)驗(yàn)主要有以下發(fā)現(xiàn):
在性能方面:RLAIF與RLHF有相似的表現(xiàn)。
在人類評(píng)估上,與SFT策略相比,RLAIF被偏好71%的時(shí)間,而RLHF則被偏好73%的時(shí)間。盡管RLHF略微優(yōu)于RLAIF,但這個(gè)差異在統(tǒng)計(jì)上并不顯著。
直接對(duì)比勝率:RLAIF與RLHF在被偏好的程度上是平等的,勝率都是50%。
與人工寫的摘要比較:RLAIF和RLHF生成的摘要分別在79%和80%的時(shí)間內(nèi)被更偏好,與參考摘要的差異也不具統(tǒng)計(jì)意義。
影響因素:RLAIF和RLHF策略傾向于生成比SFT策略更長(zhǎng)的摘要,這可能是質(zhì)量提升的一個(gè)因素。
長(zhǎng)度調(diào)整后表現(xiàn):即使控制摘要的長(zhǎng)度,RLAIF和RLHF都依然在同樣的幅度內(nèi)優(yōu)于SFT策略。
下圖是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產(chǎn)生更高質(zhì)量的摘要。
對(duì)于prompt方式,使用詳細(xì)的OpenAI preamble和CoT給出了最高的對(duì)齊性能。少樣本提示并沒有提高準(zhǔn)確性,甚至可能使它變得更糟。
Self-Consistency with CoT對(duì)性能的影響如下,用T=1采樣會(huì)導(dǎo)致與人類偏好的一致性較低。
作者還對(duì)用于評(píng)估的LLM的參數(shù)大小進(jìn)行了探索,發(fā)現(xiàn)與人類偏好的一致性隨著LLM大小的增加而增加。
總結(jié)
這項(xiàng)工作似乎暗示RLAIF是一個(gè)不依賴于人工標(biāo)注的、與RLHF可行的替代方案。但是,為了更好地了解這些發(fā)現(xiàn)是否能推廣到其他NLP任務(wù),還需要在更廣泛的任務(wù)范圍內(nèi)進(jìn)行實(shí)驗(yàn)。
-
模型
+關(guān)注
關(guān)注
1文章
3073瀏覽量
48583 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
264瀏覽量
11183 -
LLM
+關(guān)注
關(guān)注
0文章
254瀏覽量
286
原文標(biāo)題:RLAIF:一個(gè)不依賴人工的RLHF替代方案
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論