0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

13B模型全方位碾壓GPT-4?這背后有什么貓膩

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-20 09:15 ? 次閱讀

你的測試集信息在訓(xùn)練集中泄漏了嗎?


一個參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項測試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。

如果你細細查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個單詞,模型性能都比較高。
這背后到底有何貓膩?原來是數(shù)據(jù)污染了,即測試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測到。盡管這一問題非常關(guān)鍵,但理解和檢測污染仍然是一個開放且具有挑戰(zhàn)性的難題。
現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。
然而,來自 UC 伯克利、上海交通大學(xué)的研究表明測試數(shù)據(jù)的簡單變化(例如,改寫、翻譯)就可以輕松繞過現(xiàn)有的檢測方法。他們并將測試用例的此類變體稱為「改寫樣本(Rephrased Samples)」。
下面演示了 MMLU 基準測試中的改寫樣本。結(jié)果證明,如果訓(xùn)練集中包含此類樣本,13B 模型可以達到極高的性能 (MMLU 85.9)。不幸的是,現(xiàn)有的檢測方法(例如,n-gram 重疊、嵌入相似性)無法檢測到這種污染。比如嵌入相似性方法很難將改寫的問題與同一主題(高中美國歷史)中的其他問題區(qū)分開來。

通過類似的改寫技術(shù),本文在廣泛使用的編碼和數(shù)學(xué)基準測試中觀察到一致的結(jié)果,例如 HumanEval 和 GSM-8K(如文章開頭圖中所示)。因此,能夠檢測此類改寫樣本變得至關(guān)重要。
接下來,我們看看這項研究是如何進行的。


  • 論文地址:https://arxiv.org/pdf/2311.04850.pdf

  • 項目地址:https://github.com/lm-sys/llm-decontaminator#detect


論文介紹
文中表示,大模型(LLM)在快速發(fā)展的同時,關(guān)于測試集污染的問題被越來越多的重視起來,很多人對公共基準的可信度表示擔(dān)憂。
為了解決這一問題,有些人采用傳統(tǒng)的去污方法如字符串匹配(例如,n-gram 重疊)來刪除基準數(shù)據(jù),但這些操作還遠遠不夠,因為對測試數(shù)據(jù)進行一些簡單的更改(例如,改寫、翻譯)就可以輕松繞過這些凈化措施。
更重要的是,如果不消除測試數(shù)據(jù)的這種更改,13B 模型很容易過度擬合測試基準并實現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?。他們?MMLU、GSK8k 和 HumanEval 等基準測試中驗證了這些觀察結(jié)果。
同時為了解決這些日益增長的風(fēng)險,本文還提出了一種更為強大的基于 LLM 的去污方法 LLM decontaminator,并將其應(yīng)用于流行的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集,結(jié)果表明,本文提出的 LLM 方法在刪除改寫樣本方面明顯優(yōu)于現(xiàn)有方法。
這一做法也揭露了一些先前未知的測試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預(yù)訓(xùn)練集中,本文發(fā)現(xiàn) HumanEval 基準有 8-18% 重疊。此外,本文還在 GPT-3.5/4 生成的合成數(shù)據(jù)集中發(fā)現(xiàn)了這種污染,這也說明了在 AI 領(lǐng)域存在潛在的意外污染風(fēng)險。
本文希望,社區(qū)在使用公共基準時采取更強有力的凈化方法,并呼吁社區(qū)積極開發(fā)新的一次性測試(one-time exams)案例來準確評估模型。
改寫樣本
本文的目標是調(diào)查訓(xùn)練集中包含測試集的簡單變化是否會影響最終的基準性能,并將測試用例的這種變化稱為「改寫樣本」。實驗中考慮了基準的各個領(lǐng)域,包括數(shù)學(xué)、知識和編碼。示例 1 是來自 GSM-8k 的改寫樣本,其中有 10-gram 重疊無法檢測到,修改后和原始文本保持相同的語義。

基準污染具有不同的形式,因此改寫技術(shù)存在一些細微的差異。對于基于文本的基準,本文在不改變語義的情況下改寫測試用例,例如通過重新排列詞序或用同義術(shù)語替換;對于基于代碼的基準測試,本文改變編碼風(fēng)格、命名方式等。
如下所示,算法 1 中針對給定的測試集提出了一種簡單的算法。該方法可以幫助測試樣本逃避檢測。

接下來本文提出了一種新的污染檢測方法,可以準確地從相對于基準的數(shù)據(jù)集中刪除改寫樣本。
具體而言,本文引入了 LLM decontaminator。首先,對于每個測試用例,它使用嵌入相似度搜索來識別具有最高相似度的 top-k 訓(xùn)練項,之后通過 LLM(例如 GPT-4)評估每一對是否相同。這種方法有助于確定數(shù)據(jù)集中有多少改寫樣本。
圖 4 展示了不同污染以及不同檢測方法的維恩圖。

實驗
在第 5.1 節(jié)中,實驗證明了在改寫樣本上訓(xùn)練的模型可以取得顯著的高分,在三個廣泛使用的基準(MMLU、HumanEval 和 GSM-8k)中實現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?,這表明改寫樣本應(yīng)被視為污染,應(yīng)從訓(xùn)練數(shù)據(jù)中刪除。在第 5.2 節(jié)中,本文根據(jù) MMLU/HumanEval 中改寫樣本評估不同的污染檢測方法。在第 5.3 節(jié)中,本文將 LLM decontaminator 應(yīng)用于廣泛使用的訓(xùn)練集并發(fā)現(xiàn)以前未知的污染。
接下來我們看看一些主要結(jié)果。
改寫樣本污染基準
如表 2 所示,在改寫樣本上訓(xùn)練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。這表明經(jīng)過改寫的樣本可能會嚴重扭曲基準數(shù)據(jù),應(yīng)被視為污染。

本文還對 HumanEval 測試集進行了改寫,并將其翻譯成五種編程語言:C、JavaScript、Rust、Go 和 Java。結(jié)果顯示,在改寫樣本上訓(xùn)練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分數(shù),分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達到 67.0。

下表 4 取得了同樣的效果:

對檢測污染方法的評估
如表 5 所示,除 LLM decontaminator 外,所有其他檢測方法都會引入一些誤報。改寫和翻譯的樣本都不會被 n-gram 重疊檢測到。使用 multi-qa BERT,嵌入相似性搜索被證明對翻譯樣本完全無效。

數(shù)據(jù)集污染情況
表 7 顯示了每個訓(xùn)練數(shù)據(jù)集中不同基準的數(shù)據(jù)污染百分比。

LLM decontaminator 揭示了 79 個自改寫樣本的實例,占 MATH 測試集的 1.58%。示例 5 是 MATH 訓(xùn)練數(shù)據(jù)中 MATH 測試的改寫示例。




原文標題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設(shè)計,其獨特的作用在于,讓人們能夠用GPT-4來查找GP
    的頭像 發(fā)表于 06-29 09:55 ?475次閱讀

    OpenAI API Key獲?。洪_發(fā)人員申請GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語言理解和生成能力,成為了許多開發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項目,如開發(fā)一個ChatGPT聊天應(yīng)用,不僅是實踐人工智能技術(shù)
    的頭像 發(fā)表于 06-24 17:40 ?1852次閱讀
    OpenAI API Key獲取:開發(fā)人員申請<b class='flag-5'>GPT-4</b> API Key教程

    OpenAI全新GPT-4o能力炸場!速度快/成本低,能讀懂人類情緒

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)當(dāng)?shù)貢r間5月13日,OpenAI舉行春季發(fā)布會,宣布將推出桌面版ChatGPT,并發(fā)布全新旗艦AI模型GPT-4
    的頭像 發(fā)表于 05-15 00:15 ?7731次閱讀

    OpenAI計劃宣布ChatGPT和GPT-4更新

    人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI近日宣布,將于5月13日進行一場產(chǎn)品更新直播,屆時將揭曉ChatGPT和GPT-4的新進展。這一消息立即引發(fā)了外界對OpenAI下一項重大技術(shù)發(fā)布的廣泛猜測和期待。
    的頭像 發(fā)表于 05-13 11:06 ?542次閱讀

    阿里云發(fā)布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術(shù)進步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(wù)(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風(fēng)險評估)方面表現(xiàn)出色,超越了GPT-4。
    的頭像 發(fā)表于 05-09 14:17 ?868次閱讀

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個云、端、邊全棧大模型產(chǎn)品矩陣,能夠
    的頭像 發(fā)表于 04-24 16:49 ?1021次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據(jù)悉,此模型沿用GPT-4 Turbo系列特有的12.8萬token窗口規(guī)模及截至2023年12月的知識庫架構(gòu),其創(chuàng)新亮點則是強大的視覺理解功能。
    的頭像 發(fā)表于 04-10 10:49 ?341次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?629次閱讀

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    GPT-4被拉下神壇, Claude 3很可能對GPT-4實現(xiàn)全方位碾壓 。 Anthropic發(fā)布3個模型,
    的頭像 發(fā)表于 03-06 22:22 ?559次閱讀
    新火種AI|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!

    全球最強大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內(nèi)的所有大型
    的頭像 發(fā)表于 03-05 09:58 ?579次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認為是全球最強AI模型GPT-4
    的頭像 發(fā)表于 03-05 09:49 ?595次閱讀

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項備受期待的公告:推出GPT-4 Turbo,這是對其突破性AI模型
    的頭像 發(fā)表于 12-13 09:19 ?1005次閱讀
    ChatGPT plus有什么功能?OpenAI 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4?

    谷歌背水一戰(zhàn),發(fā)布Gemini,狙擊GPT-4
    的頭像 發(fā)表于 12-08 09:09 ?1060次閱讀
    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)<b class='flag-5'>碾壓</b><b class='flag-5'>GPT-4</b>?

    OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    OpenAI的GPT-4 Turbo以前所未有的功能和價格改變?nèi)斯ぶ悄艿奈磥?在人工智能領(lǐng)域的一次里程碑式活動中,OpenAI開發(fā)者大會上發(fā)布了GPT-4 Turbo,這是突破性人工智能模型
    的頭像 發(fā)表于 12-05 17:57 ?2312次閱讀
    OpenAI發(fā)布的<b class='flag-5'>GPT-4</b> Turbo版本ChatGPT plus有什么功能?

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領(lǐng)者,一舉一動都牽動著大家的關(guān)注,現(xiàn)在ChatGPT迎來重磅更新。 OpenAI
    的頭像 發(fā)表于 11-07 18:20 ?2724次閱讀
    ChatGPT重磅更新 OpenAI發(fā)布<b class='flag-5'>GPT-4</b> Turbo<b class='flag-5'>模型</b>價格大降2/3