欧美日韩AⅤ在线视频,熟女色综合,欧美精品午夜理论片在线播放

2020年，GPT-3可謂火出了圈。

不僅講故事的本職工作做得風(fēng)生水起，還跨界玩起了網(wǎng)頁(yè)設(shè)計(jì)、運(yùn)維、下象棋……

不過(guò)，盡管表現(xiàn)驚艷，GPT-3背后到底是實(shí)實(shí)在在的1750億參數(shù)，想要在實(shí)際應(yīng)用場(chǎng)景中落地，難度著實(shí)不小。

現(xiàn)在，針對(duì)這個(gè)問(wèn)題，普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出，使用較小的語(yǔ)言模型，并用少量樣本來(lái)微調(diào)語(yǔ)言模型的權(quán)重。

并且，實(shí)驗(yàn)證明，這一名為L(zhǎng)M-BFF（better few-shot fine-tuning fo language models）的方法相比于普通微調(diào)方法，性能最多可以提升30%。

詳情如何，一起往下看。

方法原理

首先，研究人員采用了基于提示的預(yù)測(cè)路線(xiàn)。

所謂基于提示的預(yù)測(cè)，是將下游任務(wù)視為一個(gè)有遮蓋（mask）的語(yǔ)言建模問(wèn)題，模型會(huì)直接為給定的提示生成文本響應(yīng)。

這里要解決的問(wèn)題，是尋找正確的提示。這既需要該領(lǐng)域的專(zhuān)業(yè)知識(shí)，也需要對(duì)語(yǔ)言模型內(nèi)部工作原理的理解。

在本文中，研究人員提出引入一個(gè)新的解碼目標(biāo)來(lái)解決這個(gè)問(wèn)題，即使用谷歌提出的T5模型，在指定的小樣本訓(xùn)練數(shù)據(jù)中自動(dòng)生成提示。

其次，研究人員在每個(gè)輸入中，以額外上下文的形式添加了示例。

問(wèn)題的關(guān)鍵在于，要有限考慮信息量大的示例，一方面，因?yàn)榭捎檬纠臄?shù)量會(huì)受到模型最大輸入長(zhǎng)度的限制；另一方面，不同類(lèi)型的大量隨機(jī)示例混雜在一起，會(huì)產(chǎn)生很長(zhǎng)的上下文，不利于模型學(xué)習(xí)。

為此，研究人員開(kāi)發(fā)了一種動(dòng)態(tài)的、有選擇性的精細(xì)策略：對(duì)于每個(gè)輸入，從每一類(lèi)中隨機(jī)抽取一個(gè)樣本，以創(chuàng)建多樣化的最小演示集。

另外，研究人員還設(shè)計(jì)了一種新的抽樣策略，將輸入與相似的樣本配對(duì)，以此為模型提供更多有價(jià)值的比較。

實(shí)驗(yàn)結(jié)果

那么，這樣的小樣本學(xué)習(xí)方法能實(shí)現(xiàn)怎樣的效果？

研究人員在8個(gè)單句、7個(gè)句子對(duì)NLP任務(wù)上，對(duì)其進(jìn)行了系統(tǒng)性評(píng)估，這些任務(wù)涵蓋分類(lèi)和回歸。

結(jié)果顯示：

基于提示的微調(diào)在很大程度上優(yōu)于標(biāo)準(zhǔn)微調(diào)；

自動(dòng)提示搜索能匹敵、甚至優(yōu)于手動(dòng)提示；

加入示例對(duì)于微調(diào)而言很有效，并提高了少樣本學(xué)習(xí)的性能。

在K=16（即每一類(lèi)樣本數(shù)為16）的情況下，從上表結(jié)果可以看到，該方法在所有任務(wù)中，平均能實(shí)現(xiàn)11%的性能增益，顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)程序。在SNLI任務(wù)中，提升達(dá)到30%。

不過(guò)，該方法目前仍存在明顯的局限性，性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇，清華大學(xué)本科生特等獎(jiǎng)學(xué)金獲得者，本科期間即發(fā)表4篇頂會(huì)論文，師從THUNLP實(shí)驗(yàn)室的劉知遠(yuǎn)副教授。

今年夏天，他本科畢業(yè)后赴普林斯頓攻讀博士，師從本文的另一位作者陳丹琦。

此前，量子位曾經(jīng)分享過(guò)他在寫(xiě)論文、做實(shí)驗(yàn)、與導(dǎo)師相處方面的經(jīng)驗(yàn)。

Adam Fisch，MIT電氣工程與計(jì)算機(jī)科學(xué)專(zhuān)業(yè)在讀博士，是CSAIL和NLP研究小組的成員，主要研究方向是應(yīng)用于NLP的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。

他本科畢業(yè)于普林斯頓大學(xué)，2015-2017年期間曾任Facebook AI研究院研究工程師。

至于陳丹琦大神，想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班，后于斯坦福大學(xué)拿下博士學(xué)位，2019年秋成為普林斯頓計(jì)算機(jī)科學(xué)系助理教授。

最后，該論文代碼即將開(kāi)源，如果還想了解更多論文細(xì)節(jié)，請(qǐng)戳文末論文鏈接詳讀~

傳送門(mén)

論文地址：

https://arxiv.org/abs/2012.15723v1

項(xiàng)目地址：

https://github.com/princeton-nlp/LM-BFF

責(zé)任編輯：xj

原文標(biāo)題：【前沿】陳丹琦團(tuán)隊(duì)最新論文：受GPT-3啟發(fā)，用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào)，性能最高提升30%

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
492

瀏覽量
10229
GPT

GPT

+關(guān)注

關(guān)注
0

文章
348

瀏覽量
15255
自然語(yǔ)言

自然語(yǔ)言

+關(guān)注

關(guān)注
1

文章
281

瀏覽量
13313

原文標(biāo)題：【前沿】陳丹琦團(tuán)隊(duì)最新論文：受GPT-3啟發(fā)，用小樣本學(xué)習(xí)給語(yǔ)言模型做微調(diào)，性能最高提升30%

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

搜索歷史

如何使用較小的語(yǔ)言模型，并用少量樣本來(lái)微調(diào)語(yǔ)言模型的權(quán)重

評(píng)論

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

大語(yǔ)言模型的預(yù)訓(xùn)練

大模型為什么要微調(diào)？大模型微調(diào)的原理

大語(yǔ)言模型(LLM)快速理解

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》2.0

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

大語(yǔ)言模型推斷中的批處理效應(yīng)

大語(yǔ)言模型概述

大語(yǔ)言模型簡(jiǎn)介：基于大語(yǔ)言模型模型全家桶Amazon Bedrock