非洲黑人又大又粗免费a片,久久亚洲AV成人无码动态图,青青草久草国产夫妻精品视频

1 簡介?????????

在demonstration selection的方法中，其中有部分方法也考慮到demonstration內(nèi)部示例之間的順序，雖然有的論文里提及他們的ICL方法對于demonstration內(nèi)部示例順序不敏感，但這些實(shí)驗(yàn)中考慮到的排列順序還是不夠全面，從而導(dǎo)致某些結(jié)論比較片面。毋庸置疑，如何對挑選出的demonstration示例進(jìn)行排序是demonstration organization的重要部分。對于同樣樣本組成的demonstration，好的樣本順序可以讓LLM有接近于SOTA的性能，而糟糕的樣本順序會讓LLM的表現(xiàn)接近于隨機(jī)猜測。就跟打牌一樣，再好的手牌，不合理安排規(guī)劃出牌順序，很容易就會一敗涂地。

2 Demonstration ordering

為了更好的研究demonstration樣本排列的影響，需要考慮在不同模型規(guī)模，樣本數(shù)量以及不同模型上的表現(xiàn)。研究發(fā)現(xiàn)，隨著模型規(guī)模的增加，demonstration不同樣本排列的效果的方差有所縮小，但是依舊差距明顯，即demonstration好的排列跟壞的排列之間的效果距離很大（見Subj數(shù)據(jù)集）。增加樣本數(shù)量，依舊不能顯著降低這其中的方差。另外，在A模型上表現(xiàn)良好的demonstration排列，在其他的模型效果往往不能得到保證，也就是好的demonstration排列并不能遷移到更多模型中去。

圖1:不同模型尺寸下demonstration ordering的影響

圖2: demonstration ordering在不同模型見的遷移能力

關(guān)于demonstration的排列，最簡單的方式就是按照跟當(dāng)前問題x的關(guān)系來排序。由于in-context learning中模型的輸入都是demonstration+x(當(dāng)前問題)，在demonstration中越靠后的示例距離當(dāng)前的問題x的距離就越近，于是可以通過示例跟當(dāng)前問題x的相似程度來對示例進(jìn)行排序，跟當(dāng)前問題x越相似的示例就放在demonstration越靠后的位置。

目前確實(shí)存在若干種demonstration ordering的方法，但是最大的問題是在缺乏監(jiān)督驗(yàn)證集的情況下自動選擇更優(yōu)的demonstration排列。于是就有研究提出自動構(gòu)建探測集（probing set），具體流程如下 a)給定一個訓(xùn)練集S={xi, yi}，i=1…n,利用一個模版轉(zhuǎn)換函數(shù)（將樣本數(shù)據(jù)轉(zhuǎn)換成某種自然語言）獲得一個自然語言數(shù)據(jù)集S’={ti}, ti=input:xi,type:yi。 b)定義n個訓(xùn)練樣本的所有排列函數(shù)（也就是demonstration的所有排列），F(xiàn)={fm},cm=fm(S’)，m=1,…,n!。每個cm都是n個t組成的一種排列。 c)對于每一個候選排列cm，利用語言模型生成后續(xù)的序列，生成新的樣本，對生成結(jié)果解析后得到模型生成測試集D。

圖3: probing set構(gòu)造流程

有了模型生成數(shù)據(jù)集后，研究者就提出了兩種用于選擇最佳demonstration排列的方法Global entropy(GlobalE)以及Local entropy(LocalE)。對于每個demonstration排列cm，在給定demonstration排列cm跟當(dāng)前問題x的條件下，會預(yù)測所有標(biāo)簽y的概率，將概率最大的標(biāo)簽作為當(dāng)前問題x的預(yù)測結(jié)果，從而計(jì)算整個探測集中所有預(yù)測標(biāo)簽分布的交叉熵作為排列cm的GlobalE得分。而LocalE得分則是計(jì)算每個探測集數(shù)據(jù)的預(yù)測交叉熵的平均值。簡單的理解就是，如果在探測集上預(yù)測的標(biāo)簽分布相對平衡，那么對應(yīng)的得分就比較高，作者就認(rèn)為是比較好的demonstration排列。

通過這兩種方式選擇的demonstration排列，效果上得到明顯提升，并且這種方法還是比較魯棒的，加入更多不好的demonstration排列只會讓效果越來越差。

圖4: 不同demonstration策略的效果對比

圖5:基于demonstration ordering選擇的demonstration排列的的平均效果

3 總結(jié)????????

Demonstration ordering目前看來還是一個值得進(jìn)一步研究的問題，即便模型規(guī)模達(dá)到一定程度，依舊對此敏感?？紤]到demonstration排列的數(shù)量跟訓(xùn)練樣本庫之間是一個指數(shù)關(guān)系，而目前看到絕大多數(shù)Demonstration ordering都是針對每個排列進(jìn)行的，即便可以自動構(gòu)建探測集，計(jì)算成本還是比較高的，很難考慮所有demonstration排列，目前除了根據(jù)與當(dāng)前問題的相似度進(jìn)行排序以及上一篇文章提到的馬爾可夫決策過程可以處理，其他的方法都只停留在理論層面，很難在實(shí)際中大范圍使用。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴