0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型表現(xiàn)方面有意思的成果

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-23 14:55 ? 次閱讀

若干年前,AlphaGo Zero用兩個(gè)AI代理切磋圍棋技藝,打敗了人類。今早,符堯的一篇論文刷新了我的認(rèn)知:讓大語(yǔ)言模型相互對(duì)弈,再加一個(gè)評(píng)論家提供建設(shè)性意見,提高菜市場(chǎng)砍價(jià)技巧!這種模式被作者定義為In-Context Learning from AI Feedback (ICL-AIF),即來自AI反饋的上下文學(xué)習(xí),使用評(píng)論家的反饋以及前幾輪對(duì)話歷史作為上下文。

沒錯(cuò),就是讓GPT和Claude扮演賣家和買家,開展一場(chǎng)價(jià)格廝殺的對(duì)決!

我們先來簡(jiǎn)單介紹游戲玩法:

任務(wù)是賣氣球,交易價(jià)格設(shè)定為10美元至20美元,賣家要以更高的價(jià)格銷售,而買家要以更低的價(jià)格購(gòu)買!對(duì)于每輪交易,論文作者硬編碼賣方以“這是一個(gè)好氣球,價(jià)格為20美元”開始協(xié)商,買方則以“你是否考慮以10美元的價(jià)格出售它?”開始協(xié)商,協(xié)商結(jié)束后會(huì)有批評(píng)家提供反饋,改善買家或賣家的行為。衡量玩家表現(xiàn)的是最終成交價(jià)格。

8d229cac-f70c-11ed-90ce-dac502259ad0.png圖:談判游戲的設(shè)置

哪些模型參與游戲呢?

篩選條件是可通過API調(diào)用的聊天機(jī)器人,包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根據(jù)chain-of-thought hub和HeLM 之類的基準(zhǔn)測(cè)試,這些模型的大致排名是:gpt-4和claude-v1.3大致相似,優(yōu)于gpt-3.5-turbo和claude-instant-v1.0,也優(yōu)于cohere-command和j2-jumbo-instruct。作者表示將在未來考慮更多的模型,例如Google的PaLM-2。

但是,由于cohere-command不能理解談判規(guī)則、AI21的j2-jumbo-instruct不能整合AI反饋,所以這兩個(gè)模型被剔除。只考慮剩下的三個(gè)模型:gpt-3.5-turbo,claude-instant-v1.0和claude-v1.3。從表1看出,這三個(gè)模型在人類和AI反饋方面都表現(xiàn)出相當(dāng)?shù)母倪M(jìn),這證明了這個(gè)游戲設(shè)置對(duì)于更強(qiáng)的LLM引擎是有效的。

8d2b604e-f70c-11ed-90ce-dac502259ad0.png表:使用AI反饋與從預(yù)定義池中隨機(jī)選擇的人類反饋相比,賣家的平均交易價(jià)格

有哪些有意思的實(shí)驗(yàn)結(jié)果?

由于這篇工作只是一個(gè)初步探索,我們先窺探一些模型表現(xiàn)方面有意思的成果吧:

1. 角色差異

像claude-instant-v1.0和gpt-3.5-turbo這樣較弱的代理,作為賣方通過AI反饋進(jìn)行改進(jìn)比作為買方更容易,這表明買方角色比賣方角色更難扮演。但更強(qiáng)的代理(claude-v1.3 / gpt-4)作為買家,仍然可以從AI反饋中獲得改進(jìn)。

8d385006-f70c-11ed-90ce-dac502259ad0.png圖:500場(chǎng)游戲的交易價(jià)格頻率,反饋前v.s.反饋后。X軸是價(jià)格,Y軸是價(jià)格的頻率

2. 迭代改進(jìn)

將游戲展開到多輪,看看模型是否可以從先前的對(duì)話歷史和迭代AI反饋中持續(xù)改進(jìn),會(huì)發(fā)現(xiàn)gpt-3.5-turbo可以在多輪中改進(jìn),但claude-instant-v1.0只能在最多一輪中改進(jìn)。

8d3f5518-f70c-11ed-90ce-dac502259ad0.png圖:多回合設(shè)置中,不同的模型在扮演賣/買家時(shí)有不同的行為

3. 成交價(jià)格和成交率的平衡

當(dāng)扮演買家時(shí),有些模型無(wú)法進(jìn)行改進(jìn)(claude-instant-v1.0),或在三輪之后趨于飽和(claude-v1.3),而gpt-4和gpt-3.5-turbo可以不斷改進(jìn),gpt-4取得了比gpt-3.5-turbo更低的成交價(jià)格和更高的成交率。

8d45388e-f70c-11ed-90ce-dac502259ad0.png圖:GPT和Claude模型在多輪游戲中的交易價(jià)格及成交率

4. 語(yǔ)言復(fù)雜性

通過繪制每輪之后的平均響應(yīng)長(zhǎng)度(以字符數(shù)度量),可以看到,claude-v1.3和gpt-4在迭代AI反饋后回答變長(zhǎng)。從具體的賣家回答示例也可以看到,經(jīng)過多輪談判,措辭也更加得體。但比起claude-v1.3,gpt-4能使用更少的詞語(yǔ)實(shí)現(xiàn)更好的價(jià)格和成功率。

8d4e0734-f70c-11ed-90ce-dac502259ad0.png圖:平均響應(yīng)長(zhǎng)度隨著模型的多輪學(xué)習(xí)而增加

結(jié)論

大語(yǔ)言模型的確可以根據(jù)AI反饋迭代改進(jìn)談判策略,且更強(qiáng)的模型效果更明顯!這個(gè)研究是否意味著,大語(yǔ)言模型可以在最少的人類干預(yù)下實(shí)現(xiàn)自我改進(jìn)呢?只需給它一個(gè)評(píng)論家分身即可!

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27992

    瀏覽量

    205550
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29380

    瀏覽量

    267659
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3062

    瀏覽量

    48575

原文標(biāo)題:符堯最新研究:大語(yǔ)言模型玩砍價(jià)游戲?技巧水漲船高!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    斯特林發(fā)動(dòng)機(jī),很有意思

    本帖最后由 hands 于 2011-6-29 15:25 編輯 斯特林發(fā)動(dòng)機(jī),很有意思,大家來討論下嘛。
    發(fā)表于 06-29 15:24

    FPGA和ARM哪個(gè)更有意思,更容易進(jìn)步提升快???

    FPGA和ARM方向,哪一個(gè)工作后提升更快,覺得單片機(jī)比較有意思,可是還是想學(xué)點(diǎn)高級(jí)的,以后發(fā)展好點(diǎn),那ARM和FPGA哪個(gè)和更有意思,更有挑戰(zhàn)性;在同等興趣和投入下,F(xiàn)PGA和ARM哪個(gè)更容易遇到
    發(fā)表于 11-24 00:29

    求更多有意思的電子設(shè)計(jì)和制作方案

    求更多有意思的電子設(shè)計(jì)和制作方案。
    發(fā)表于 12-13 21:46

    fpga在醫(yī)療方面有什么應(yīng)用前景

    最近在學(xué)fpga不知道以后能干什么,請(qǐng)教一下,在醫(yī)療方面有什么應(yīng)用前景,如果想在這方面入手的話需要哪方面的資料呢,謝謝
    發(fā)表于 07-11 08:41

    自己剛學(xué)仿真 覺得有意思 就與大家分享一下

    proteus仿真還挺有意思的額希望能從這里起步 這個(gè)地方我很喜歡 相見恨晚啊以后在這里 多多學(xué)習(xí)
    發(fā)表于 08-07 21:20

    求大神推薦一些和運(yùn)放有關(guān)的電路,比較有意思的,

    求大神幫忙,求大神推薦一些和運(yùn)放有關(guān)的電路,比較有意思的,
    發(fā)表于 04-06 10:55

    分享幾個(gè)有意思的小問題

    一般都可以看成一個(gè)RLC串聯(lián)模型。在某個(gè)頻率,會(huì)發(fā)生諧振,此時(shí)電容的阻抗就等于其ESR。如果看電容的頻率阻抗曲線圖,就會(huì)發(fā)現(xiàn)一般都是一個(gè)V形的曲線。具體曲線與電容的介質(zhì)有關(guān),所以選擇旁路電容還要考慮電容
    發(fā)表于 08-24 21:48

    有意思的三極管放大電路

    `有意思的三極管放大電路`
    發(fā)表于 10-25 14:27

    請(qǐng)問QML中有哪些比較有意思的控件?

    QML中有哪些比較有意思的控件?
    發(fā)表于 11-11 07:54

    圖形處理在多媒體技術(shù)應(yīng)用方面的經(jīng)驗(yàn)和成果

    圖形處理在多媒體技術(shù)應(yīng)用方面的經(jīng)驗(yàn)和成果
    發(fā)表于 02-01 06:07

    音響放大器的制作及調(diào)試有電路圖

    面有原理圖和pcb 自己弄個(gè)小音響玩玩很有意思的哦哦
    發(fā)表于 07-12 18:32 ?18次下載

    有意思!如何制作一支吹不滅的蠟燭?

    看到網(wǎng)上有一種“吹不滅的蠟燭”賣,覺得很有意思。一支蠟燭,吹滅了,馬上又自己點(diǎn)著。不但實(shí)用,插在生日蛋糕上也很搞怪,吹不滅蠟燭怎么許愿啊……
    的頭像 發(fā)表于 08-03 15:28 ?2.3w次閱讀

    蘋果秋季發(fā)布會(huì)給我們帶來了三款有意思的AR應(yīng)用

    在剛剛的蘋果秋季發(fā)布會(huì)上,官方除了公布了三款新iPhone和全新的Apple Watch Series 4外,還給我們帶來了三款有意思的 AR 應(yīng)用:B 社的《上古卷軸:Blades》手游、籃球練習(xí)應(yīng)用《Homecourt》、大蜜蜂街機(jī)《Galaga》。
    發(fā)表于 09-13 10:56 ?1444次閱讀

    深讀解析反向傳播算法在解決模型優(yōu)化問題的方面應(yīng)用

    反向傳播算法隸屬于深度學(xué)習(xí),它在解決模型優(yōu)化問題的方面有著重要的地位。
    的頭像 發(fā)表于 11-01 15:48 ?5533次閱讀
    深讀解析反向傳播算法在解決<b class='flag-5'>模型</b>優(yōu)化問題的<b class='flag-5'>方面</b>應(yīng)用

    esp32上使用chatGPT做一些有意思的事情

    將ChatGPT與ESP32進(jìn)行結(jié)合,可以在物聯(lián)網(wǎng)應(yīng)用方面做出更有意思的事情,如聊天機(jī)器人、語(yǔ)音助手和自然語(yǔ)言界面。下面,我將在ESP32中使用ChatGPT API。為了讓ESP32從
    的頭像 發(fā)表于 10-18 10:04 ?125次閱讀