0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型

深度學習自然語言處理 ? 來源:機器之心 ? 2023-02-02 16:15 ? 次閱讀

大型語言模型可以用來教小得多的學生模型如何進行一步一步地推理。本文方法顯著提高了小型 (~0.3B 參數(shù)) 模型在一系列任務上的性能,在許多情況下甚至可以達到或超過大型模型的性能。

語言模型(LMs)在各種下游任務中表現(xiàn)出色,這主要歸功于它們通過 Transformer 架構(Vaswani et al.,2017)和大量網(wǎng)絡訓練數(shù)據(jù)獲得的可擴展性。先前的語言模型研究遵循了在大型語料庫上預先訓練,然后在下游任務上微調(diào)的范式(Raffel et al.,2020; Devlin et al.,2018)。最近,大型語言模型(LLMs)向人們展示了其上下文泛化能力:通過僅在幾個上下文樣例或純自然語言任務描述上調(diào)整就能完成下游任務(Brown et al.,2020; Sun et al.,2021)。

如果給語言模型生成一些 prompting,它還向人們展示了其解決復雜任務的能力。標準 prompting 方法,即為使用少樣本的問答對或零樣本的指令的一系列方法,已經(jīng)被證明不足以解決需要多個推理步驟的下游任務(Chowdhery 等,2022)。

但是,最近的研究已經(jīng)證明,通過包含少數(shù)思維鏈(CoT)推理的樣本(Wang 等,2022b)或通過 promp 來讓模型逐步思考的方法(Kojima 等,2022)可以在大型語言模型中促成復雜的推理能力。

基于 promp 的思維鏈方法的主要缺點是它需要依賴于擁有數(shù)十億參數(shù)的巨大語言模型(Wei et al,2022b;Kojima et al,2022)。由于計算要求和推理成本過于龐大,這些模型難以大規(guī)模部署(Wei et al,2022b)。因此,來自韓國科學技術院的研究者努力使小型模型能夠進行復雜的推理,以用于實際應用。

有鑒于此,本文提出了一種名為微調(diào)思維鏈的方法,該方法旨在利用非常大的語言模型的思維鏈推理能力來指導小模型解決復雜任務。

08425786-a2c3-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2212.10071.pdf

項目地址:https://github.com/itsnamgyu/reasoning-teacher

為了詳細說明,本文應用現(xiàn)有的零樣本思維鏈 prompting(Kojima 等人,2022)從非常大的教師模型中生成推理,并使用它們來微調(diào)較小的學生模型。

0852f578-a2c3-11ed-bfe3-dac502259ad0.png

研究者注意到,與標準的 prompting 類似,對于訓練語言模型來解決復雜推理的任務來說,純微調(diào)往往是不夠的。雖然已經(jīng)有人嘗試用規(guī)定好的推理步驟對小模型進行微調(diào)來解決這個問題,但這些方法需要巨量的推理注釋,而且往往還需要與特定任務匹配的訓練設置(Nye 等人,2021;Cobbe 等人,2021)。

本文提出的方法,由于基于語言模型的教師具有顯著的零樣本推理能力(Kojima 等人,2022),無需手工制作推理注釋及特定任務設置,可以很容易地應用于新的下游任務。從本質(zhì)上講,本文的方法保留了基于 prompting 的思維鏈的多功能性,同時模型規(guī)模還不是很大。

研究者還對本文中的方法提出了一種擴展,稱為多樣化推理,這種擴展方法通過為每個訓練樣本生成多個推理方案來最大限度地提高對思維鏈進行微調(diào)的教學效果。具體來說可以通過簡單的重復隨機抽樣來實現(xiàn)。多樣化推理的動機是,多種推理路徑可以用來解決復雜的第二類任務(Evans, 2010)。本文認為,這種推理路徑的多樣性以及語言模板的加入可以大大有助于復雜推理的微調(diào)。

本文使用公開的 GPT-3 模型對思維鏈微調(diào)和各類任務及規(guī)模的多樣化推理進行了實證評估。本文提出的微調(diào)方法在復雜任務的小模型中具備明顯的推理性能,而以前基于 prompting 的方法則只具有接近隨機的性能。

本文表明,在思維鏈微調(diào)方法下的小模型在某些任務中的表現(xiàn)甚至超過了它們的大模型老師。通過多樣化的推理,研究者發(fā)現(xiàn)維鏈微調(diào)方法的性能是高度可擴展的,并且即使在很少的訓練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對思維鏈微調(diào)方法在眾多數(shù)據(jù)集上的表現(xiàn)進行了徹底的樣本研究和消融實驗,在小模型上證明了其價值。在此過程中,本文揭示了微調(diào)在思維鏈推理中前作沒有被考慮到的一些重要細微差別。

方法概覽

本文提出了思維鏈微調(diào)方法,這是一種與下游任務無關的方法,可以在小型語言模型中實現(xiàn)思維鏈推理。該方法的核心思想是使用基于 prompting 的思維鏈方法從非常大的教師模型中生成推理樣本,然后使用生成的樣本對小型學生模型進行微調(diào)。

這種方法保留了任務無偏的基于 prompt 思維鏈方法的優(yōu)點,同時克服了其對過大模型的依賴性。為了最大限度地提高通用性,本文在教師模型上使用了最新的零樣本思維鏈 prompting 方法(Kojima 等人,2022),因為此方法不需要任何手工注釋的推理解釋。作者注意到,本文提出的方法其實并不限于這種教師模型的 prompting 方式。文本將思維鏈微調(diào)方法拆解為三個步驟,如下圖所示。

086ae4c6-a2c3-11ed-bfe3-dac502259ad0.png

步驟 1—— 推理生成

首先,本文利用一個大型的教師模型來為一個給定的任務生成思維鏈推理解釋。本文定義一個由問題 Q^i 和其真實答案 a^i 組成為一個標準樣本 S^i,然后使用零樣本思維鏈來為教師模型生成一個推理08a771a2-a2c3-11ed-bfe3-dac502259ad0.png來解決問題 q^i,并生成最終的答案預測08b646b4-a2c3-11ed-bfe3-dac502259ad0.png。由此產(chǎn)生的文本序列,包括 prompt 和生成結(jié)果,均采取以下形式

08c3b5c4-a2c3-11ed-bfe3-dac502259ad0.png

第 2 步 —— 整理

為了制備用于微調(diào)的樣本,本文對生成的樣本進行了過濾,并將其重新格式化為 prompt-completion 形式的成對數(shù)據(jù)。對于過濾,本文將教師模型的最終預測值08b646b4-a2c3-11ed-bfe3-dac502259ad0.png與真實答案 a^i 進行比較,這與之前的一些工作是相同的(Zelikman 等人,2022;Huang 等人,2022)。對于所有這樣的實例 i,本文將(S_i ,08a771a2-a2c3-11ed-bfe3-dac502259ad0.png?,?08b646b4-a2c3-11ed-bfe3-dac502259ad0.png)重新打包成一個推理樣本09004fc0-a2c3-11ed-bfe3-dac502259ad0.png,也就是一個 prompt-completion 形式的成對數(shù)據(jù)。由于本文提出的方法旨在為特定任務訓練高效的模型,所以使用基于特殊字符的文本格式來盡量減少標記的使用。具體來說,p_i 采用「###」的形式,c_i 采用

090e5f66-a2c3-11ed-bfe3-dac502259ad0.png

的形式。作者注意到,基于答案預測的過濾并不能確保推理的正確性,特別是對于可能出現(xiàn)隨機猜測的多選題。遺憾的是,以前的工作中這個問題還沒有得到解決。

步驟 3—— 微調(diào)

最后,本文使用開源的 OpenAI API 在集成的推理樣本上對一個小型的預訓練學生模型進行微調(diào)。本文使用與預訓練時相同的訓練目標,即自回歸語言建模目標,或者用 token 預測(Radford 等人,2018)。

多樣化推理

為了最大限度地提高思維鏈微調(diào)方法的對樣本的使用效率,本文提出可以為每個訓練樣本生成多種推理解釋,從而增強微調(diào)數(shù)據(jù)。本文將此稱為多樣化推理。詳細來說,對于一個給定的樣本 S_i,本文不是采用貪心解碼策略的零樣本思維鏈方法來獲得單一的「解釋 — 答案」形式的成對數(shù)據(jù)091b7746-a2c3-11ed-bfe3-dac502259ad0.png,而是采用隨機抽樣策略,即用 T 代表溫度抽樣,然后獲得 D 批不同的生成數(shù)據(jù)

09288490-a2c3-11ed-bfe3-dac502259ad0.png

。隨后對推理樣本整理和微調(diào)工作就像上面一樣進行。本文把 D 稱為推理的多樣性程度。多樣化推理的動機是,多種推理路徑可以用來解決復雜的任務,即第二類任務(Evans, 2010)。

在樣本研究中,研究者確認多樣化推理樣本包含各種推理路徑以及語言模板,這一點也可以在細化的學生模型中觀察到。這與 Wang 等人(2022b);Zelikman 等人(2022);Huang 等人(2022)的成果類似,多樣化推理路徑被生成并被邊緣化以找到最優(yōu)答案。多樣化推理也與 Yoo 等人(2021)有相似之處,后者利用大模型語言模型的生成能力,合成的樣本來增加訓練數(shù)據(jù)。

實驗結(jié)果

下表將思維鏈微調(diào)方法的學生模型,與現(xiàn)有的對下游任務不敏感的方法 —— 零樣本學習(Kojima 等人,2022)以及標準的零樣本 prompt 和沒有任何推理的微調(diào)方法進行對比,并記錄了準確率。

思維鏈微調(diào)在相同的任務中性能明顯更突出,這顯示出使用較小的模型比零樣本思維鏈方法收益更大。

093aab66-a2c3-11ed-bfe3-dac502259ad0.png

上表還顯示,思維鏈微調(diào)對小模型非常有效。同樣地,本文還發(fā)現(xiàn)思維鏈微調(diào)在很多任務中的表現(xiàn)優(yōu)于 vanilla 微調(diào),如上表所示。

下表顯示,多樣化的推理可以顯著提高使用思維鏈微調(diào)的學生模型的性能。

0951c224-a2c3-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3065

    瀏覽量

    48578
  • 語言模型
    +關注

    關注

    0

    文章

    491

    瀏覽量

    10229
  • 大模型
    +關注

    關注

    2

    文章

    2220

    瀏覽量

    2240

原文標題:有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    探索更大、更高效模型架構和訓練方法的空間。在實際應用中,大語言模型的縮放定律推動了自然語言處理等領域的發(fā)展,提升了應用效果和用戶體驗。此外,縮放定律的發(fā)現(xiàn)
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的評測

    和產(chǎn)品化提供有力的數(shù)據(jù)支持。 對于生活閑聊類評測任務,模型的回答主要從人性化程度、內(nèi)容質(zhì)量和社交適應性三個方面進行考察。這些方面共同反映模型在日常對話中的自然度、流暢度和應變能力
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應對復雜的決策。 相應地,我們設計兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務,類似于人類的系統(tǒng)1,如情感分析和抽取式問答等。大語言
    發(fā)表于 05-07 17:21

    基于LS-SVM模型的青霉素發(fā)酵軟測量方法

    針對青霉素發(fā)酵過程中的某些關鍵生物參數(shù)(如菌體濃度、基質(zhì)濃度、產(chǎn)物濃度)難以實時在線測量的問題,提出一種基于最小二乘支持向量機(LS-SVM)模型的軟測量方法。該方法用具有高斯核函數(shù)
    發(fā)表于 09-19 09:36

    COT控制模型邏輯是怎樣的

    COT控制模型邏輯是怎樣的
    發(fā)表于 03-11 06:25

    用tflite接口調(diào)用tensorflow模型進行推理

    摘要本文為系列博客tensorflow模型部署系列的一部分,用于實現(xiàn)通用模型的部署。本文主要實現(xiàn)用tflite接口調(diào)用tensorflow模型進行推理。相關源碼見鏈接引言本文為系列博客
    發(fā)表于 12-22 06:51

    【飛凌RK3568開發(fā)板試用體驗】RKNN模型推理測試

    研的人工智能協(xié)處理器NPU,并且提供RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進行推理應用程序開發(fā)。一、推理應用程序的基本流程RKNN 是 瑞芯微(Rockchip
    發(fā)表于 12-08 19:06

    壓縮模型會加速推理嗎?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型推理時間沒有影響。aiRun 程序在 8
    發(fā)表于 01-29 06:24

    AscendCL快速入門——模型推理篇(上)

    一、概述本文介紹AscendCL模型推理相關知識,介紹AscendCL接口加載離線模型,為離線模型
    發(fā)表于 08-24 11:04

    使用rk3588多npu推理模型,模型推理時間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型推理時間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供面向不同硬件設備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    國足都勝利,國產(chǎn)機可以,雷軍的小米6還有什么理由耍猴?

    中國男足以1:0戰(zhàn)勝了韓國隊!國足都勝利,國產(chǎn)機可以,雷軍的小米6還有什么理由耍猴?現(xiàn)在就期待小米6能帶領小米手機步入高端手機,雷軍不耍猴小米手機還是
    發(fā)表于 03-24 10:08 ?492次閱讀

    全新科學問答數(shù)據(jù)集ScienceQA讓深度學習模型推理思維鏈

    ,即在 GPT-3 模型中引入基于思維鏈的提示學習,從而使得模型能在生成答案的同時,生成相應的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現(xiàn)
    的頭像 發(fā)表于 11-01 16:30 ?1297次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型
    的頭像 發(fā)表于 07-24 11:38 ?652次閱讀

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發(fā)布最新開放模型 Gemma 2,目前與同等規(guī)模的開放模型相比,取得了明顯的優(yōu)勢,同時在安全可控性上得到了顯著的增強。
    的頭像 發(fā)表于 08-09 17:04 ?365次閱讀
    Google Gemma 2<b class='flag-5'>模型</b>的部署和<b class='flag-5'>Fine-Tune</b>演示