0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用較小的語(yǔ)言模型,并用少量樣本來(lái)微調(diào)語(yǔ)言模型的權(quán)重

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:魚(yú)羊 ? 2021-01-07 14:27 ? 次閱讀

2020年,GPT-3可謂火出了圈。

不僅講故事的本職工作做得風(fēng)生水起,還跨界玩起了網(wǎng)頁(yè)設(shè)計(jì)、運(yùn)維、下象棋……

不過(guò),盡管表現(xiàn)驚艷,GPT-3背后到底是實(shí)實(shí)在在的1750億參數(shù),想要在實(shí)際應(yīng)用場(chǎng)景中落地,難度著實(shí)不小。

現(xiàn)在,針對(duì)這個(gè)問(wèn)題,普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出,使用較小的語(yǔ)言模型,并用少量樣本來(lái)微調(diào)語(yǔ)言模型的權(quán)重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,實(shí)驗(yàn)證明,這一名為L(zhǎng)M-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微調(diào)方法,性能最多可以提升30%。

詳情如何,一起往下看。

方法原理

首先,研究人員采用了基于提示的預(yù)測(cè)路線(xiàn)。

所謂基于提示的預(yù)測(cè),是將下游任務(wù)視為一個(gè)有遮蓋(mask)的語(yǔ)言建模問(wèn)題,模型會(huì)直接為給定的提示生成文本響應(yīng)。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


這里要解決的問(wèn)題,是尋找正確的提示。這既需要該領(lǐng)域的專(zhuān)業(yè)知識(shí),也需要對(duì)語(yǔ)言模型內(nèi)部工作原理的理解。

在本文中,研究人員提出引入一個(gè)新的解碼目標(biāo)來(lái)解決這個(gè)問(wèn)題,即使用谷歌提出的T5模型,在指定的小樣本訓(xùn)練數(shù)據(jù)中自動(dòng)生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人員在每個(gè)輸入中,以額外上下文的形式添加了示例。

問(wèn)題的關(guān)鍵在于,要有限考慮信息量大的示例,一方面,因?yàn)榭捎檬纠臄?shù)量會(huì)受到模型最大輸入長(zhǎng)度的限制;另一方面,不同類(lèi)型的大量隨機(jī)示例混雜在一起,會(huì)產(chǎn)生很長(zhǎng)的上下文,不利于模型學(xué)習(xí)。

為此,研究人員開(kāi)發(fā)了一種動(dòng)態(tài)的、有選擇性的精細(xì)策略:對(duì)于每個(gè)輸入,從每一類(lèi)中隨機(jī)抽取一個(gè)樣本,以創(chuàng)建多樣化的最小演示集。

另外,研究人員還設(shè)計(jì)了一種新的抽樣策略,將輸入與相似的樣本配對(duì),以此為模型提供更多有價(jià)值的比較。

實(shí)驗(yàn)結(jié)果

那么,這樣的小樣本學(xué)習(xí)方法能實(shí)現(xiàn)怎樣的效果?

研究人員在8個(gè)單句、7個(gè)句子對(duì)NLP任務(wù)上,對(duì)其進(jìn)行了系統(tǒng)性評(píng)估,這些任務(wù)涵蓋分類(lèi)和回歸。

4dec6b00-5036-11eb-8b86-12bb97331649.png

結(jié)果顯示:

基于提示的微調(diào)在很大程度上優(yōu)于標(biāo)準(zhǔn)微調(diào);

自動(dòng)提示搜索能匹敵、甚至優(yōu)于手動(dòng)提示;

加入示例對(duì)于微調(diào)而言很有效,并提高了少樣本學(xué)習(xí)的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一類(lèi)樣本數(shù)為16)的情況下,從上表結(jié)果可以看到,該方法在所有任務(wù)中,平均能實(shí)現(xiàn)11%的性能增益,顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)程序。在SNLI任務(wù)中,提升達(dá)到30%。

不過(guò),該方法目前仍存在明顯的局限性,性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇,清華大學(xué)本科生特等獎(jiǎng)學(xué)金獲得者,本科期間即發(fā)表4篇頂會(huì)論文,師從THUNLP實(shí)驗(yàn)室的劉知遠(yuǎn)副教授。

今年夏天,他本科畢業(yè)后赴普林斯頓攻讀博士,師從本文的另一位作者陳丹琦。

此前,量子位曾經(jīng)分享過(guò)他在寫(xiě)論文、做實(shí)驗(yàn)、與導(dǎo)師相處方面的經(jīng)驗(yàn)。

Adam Fisch,MIT電氣工程與計(jì)算機(jī)科學(xué)專(zhuān)業(yè)在讀博士,是CSAIL和NLP研究小組的成員,主要研究方向是應(yīng)用于NLP的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。

他本科畢業(yè)于普林斯頓大學(xué),2015-2017年期間曾任Facebook AI研究院研究工程師。

至于陳丹琦大神,想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班,后于斯坦福大學(xué)拿下博士學(xué)位,2019年秋成為普林斯頓計(jì)算機(jī)科學(xué)系助理教授。

最后,該論文代碼即將開(kāi)源,如果還想了解更多論文細(xì)節(jié),請(qǐng)戳文末論文鏈接詳讀~

傳送門(mén)

論文地址:

https://arxiv.org/abs/2012.15723v1

項(xiàng)目地址:

https://github.com/princeton-nlp/LM-BFF

責(zé)任編輯:xj

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào),性能最高提升30%

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    492

    瀏覽量

    10229
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    15255
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    281

    瀏覽量

    13313

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào),性能最高提升30%

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專(zhuān)業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專(zhuān)業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書(shū)中
    發(fā)表于 07-25 14:33

    語(yǔ)言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語(yǔ)言的通用知識(shí),為后續(xù)的任務(wù)
    的頭像 發(fā)表于 07-11 10:11 ?326次閱讀

    模型為什么要微調(diào)?大模型微調(diào)的原理

    在人工智能(AI)領(lǐng)域,特別是自然語(yǔ)言處理(NLP)領(lǐng)域,大模型(如BERT、GPT系列等)的出現(xiàn)為許多復(fù)雜任務(wù)提供了強(qiáng)大的解決方案。然而,這些預(yù)訓(xùn)練的大模型雖然具有廣泛的適用性,但在特定任務(wù)上往往
    的頭像 發(fā)表于 07-10 10:43 ?2803次閱讀

    語(yǔ)言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語(yǔ)言模型(LargeLanguageModel),簡(jiǎn)稱(chēng)LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開(kāi)始,先來(lái)整體理解一下大語(yǔ)言模型。一、發(fā)展歷史大
    的頭像 發(fā)表于 06-04 08:27 ?812次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLM)快速理解

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    類(lèi)任務(wù)上表現(xiàn)出色,甚至在零樣本條件下也能取得良好效果。另一類(lèi)則需要逐步推理才能完成的任務(wù),類(lèi)似于人類(lèi)的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語(yǔ)言模型在這類(lèi)任務(wù)上并未出現(xiàn)質(zhì)的飛躍,除非有精心
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    語(yǔ)言模型的評(píng)測(cè)是確保模型性能和應(yīng)用適應(yīng)性的關(guān)鍵環(huán)節(jié)。從基座模型微調(diào)模型,再到行業(yè)
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴(lài)微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》2.0

    《大語(yǔ)言模型“原理與工程實(shí)踐”》是關(guān)于大語(yǔ)言模型內(nèi)在機(jī)理和應(yīng)用實(shí)踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實(shí)踐案例,幫助讀者理解如何將理論知識(shí)應(yīng)用于解決實(shí)際問(wèn)題。書(shū)中的案
    發(fā)表于 05-07 10:30

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    特定任務(wù)對(duì)模型進(jìn)行微調(diào)。這種方法的成功不僅是自然語(yǔ)言處理發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),還為許多現(xiàn)實(shí)世界的應(yīng)用場(chǎng)帶來(lái)了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)訓(xùn)練的模型參數(shù)量越來(lái)越大預(yù)訓(xùn)
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下,這樣的話(huà),工作量很大。 我主要看了-大語(yǔ)言模型基礎(chǔ)技術(shù)這節(jié) 大語(yǔ)言模型(Large Language Models,LLMs)的核心技術(shù)涵蓋了從
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    Transformer架構(gòu),利用自注意力機(jī)制對(duì)文本進(jìn)行編碼,通過(guò)預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語(yǔ)言理解和生成能力。 大語(yǔ)言模型的涌現(xiàn)能力,是指隨著
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    《大語(yǔ)言模型》是一本深入探討人工智能領(lǐng)域中語(yǔ)言模型的著作。作者通過(guò)對(duì)語(yǔ)言模型的基本概念、基礎(chǔ)技術(shù)
    發(fā)表于 04-30 15:35

    語(yǔ)言模型推斷中的批處理效應(yīng)

    隨著開(kāi)源預(yù)訓(xùn)練大型語(yǔ)言模型(Large Language Model, LLM )變得更加強(qiáng)大和開(kāi)放,越來(lái)越多的開(kāi)發(fā)者將大語(yǔ)言模型納入到他們的項(xiàng)目中。其中一個(gè)關(guān)鍵的適應(yīng)步驟是將領(lǐng)域特定
    的頭像 發(fā)表于 01-04 12:32 ?542次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推斷中的批處理效應(yīng)

    語(yǔ)言模型概述

    在科技飛速發(fā)展的當(dāng)今時(shí)代,人工智能技術(shù)成為社會(huì)進(jìn)步的關(guān)鍵推動(dòng)力之一。在廣泛關(guān)注的人工智能領(lǐng)域中,大語(yǔ)言模型以其引人注目的特性備受矚目。 大語(yǔ)言模型的定義及發(fā)展歷史 大
    的頭像 發(fā)表于 12-21 17:53 ?1391次閱讀

    語(yǔ)言模型簡(jiǎn)介:基于大語(yǔ)言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語(yǔ)言模型與生成式AI的全家桶:Bedrock對(duì)大語(yǔ)言模型進(jìn)行介紹。大語(yǔ)言模型
    的頭像 發(fā)表于 12-04 15:51 ?710次閱讀