九九视频免费在线观看,免费观看欧美一级片

若干年前，AlphaGo Zero用兩個(gè)AI代理切磋圍棋技藝，打敗了人類。今早，符堯的一篇論文刷新了我的認(rèn)知：讓大語(yǔ)言模型相互對(duì)弈，再加一個(gè)評(píng)論家提供建設(shè)性意見，提高菜市場(chǎng)砍價(jià)技巧！這種模式被作者定義為In-Context Learning from AI Feedback (ICL-AIF)，即來自AI反饋的上下文學(xué)習(xí)，使用評(píng)論家的反饋以及前幾輪對(duì)話歷史作為上下文。

沒錯(cuò)，就是讓GPT和Claude扮演賣家和買家，開展一場(chǎng)價(jià)格廝殺的對(duì)決！

我們先來簡(jiǎn)單介紹游戲玩法：

任務(wù)是賣氣球，交易價(jià)格設(shè)定為10美元至20美元，賣家要以更高的價(jià)格銷售，而買家要以更低的價(jià)格購(gòu)買！對(duì)于每輪交易，論文作者硬編碼賣方以“這是一個(gè)好氣球，價(jià)格為20美元”開始協(xié)商，買方則以“你是否考慮以10美元的價(jià)格出售它？”開始協(xié)商，協(xié)商結(jié)束后會(huì)有批評(píng)家提供反饋，改善買家或賣家的行為。衡量玩家表現(xiàn)的是最終成交價(jià)格。

圖：談判游戲的設(shè)置

哪些模型參與游戲呢？

篩選條件是可通過API調(diào)用的聊天機(jī)器人，包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根據(jù)chain-of-thought hub和HeLM 之類的基準(zhǔn)測(cè)試，這些模型的大致排名是：gpt-4和claude-v1.3大致相似，優(yōu)于gpt-3.5-turbo和claude-instant-v1.0，也優(yōu)于cohere-command和j2-jumbo-instruct。作者表示將在未來考慮更多的模型，例如Google的PaLM-2。

但是，由于cohere-command不能理解談判規(guī)則、AI21的j2-jumbo-instruct不能整合AI反饋，所以這兩個(gè)模型被剔除。只考慮剩下的三個(gè)模型：gpt-3.5-turbo，claude-instant-v1.0和claude-v1.3。從表1看出，這三個(gè)模型在人類和AI反饋方面都表現(xiàn)出相當(dāng)?shù)母倪M(jìn)，這證明了這個(gè)游戲設(shè)置對(duì)于更強(qiáng)的LLM引擎是有效的。

表：使用AI反饋與從預(yù)定義池中隨機(jī)選擇的人類反饋相比，賣家的平均交易價(jià)格

有哪些有意思的實(shí)驗(yàn)結(jié)果？

由于這篇工作只是一個(gè)初步探索，我們先窺探一些模型表現(xiàn)方面有意思的成果吧：

1. 角色差異

像claude-instant-v1.0和gpt-3.5-turbo這樣較弱的代理，作為賣方通過AI反饋進(jìn)行改進(jìn)比作為買方更容易，這表明買方角色比賣方角色更難扮演。但更強(qiáng)的代理（claude-v1.3 / gpt-4）作為買家，仍然可以從AI反饋中獲得改進(jìn)。

圖：500場(chǎng)游戲的交易價(jià)格頻率，反饋前v.s.反饋后。X軸是價(jià)格，Y軸是價(jià)格的頻率

2. 迭代改進(jìn)

將游戲展開到多輪，看看模型是否可以從先前的對(duì)話歷史和迭代AI反饋中持續(xù)改進(jìn)，會(huì)發(fā)現(xiàn)gpt-3.5-turbo可以在多輪中改進(jìn)，但claude-instant-v1.0只能在最多一輪中改進(jìn)。

圖：多回合設(shè)置中，不同的模型在扮演賣/買家時(shí)有不同的行為

3. 成交價(jià)格和成交率的平衡

當(dāng)扮演買家時(shí)，有些模型無(wú)法進(jìn)行改進(jìn)（claude-instant-v1.0），或在三輪之后趨于飽和（claude-v1.3），而gpt-4和gpt-3.5-turbo可以不斷改進(jìn)，gpt-4取得了比gpt-3.5-turbo更低的成交價(jià)格和更高的成交率。

圖:GPT和Claude模型在多輪游戲中的交易價(jià)格及成交率

4. 語(yǔ)言復(fù)雜性

通過繪制每輪之后的平均響應(yīng)長(zhǎng)度（以字符數(shù)度量），可以看到，claude-v1.3和gpt-4在迭代AI反饋后回答變長(zhǎng)。從具體的賣家回答示例也可以看到，經(jīng)過多輪談判，措辭也更加得體。但比起claude-v1.3，gpt-4能使用更少的詞語(yǔ)實(shí)現(xiàn)更好的價(jià)格和成功率。

圖：平均響應(yīng)長(zhǎng)度隨著模型的多輪學(xué)習(xí)而增加

結(jié)論

大語(yǔ)言模型的確可以根據(jù)AI反饋迭代改進(jìn)談判策略，且更強(qiáng)的模型效果更明顯！這個(gè)研究是否意味著，大語(yǔ)言模型可以在最少的人類干預(yù)下實(shí)現(xiàn)自我改進(jìn)呢？只需給它一個(gè)評(píng)論家分身即可！

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴