免费看美女午夜大片,51国偷自产一区二区三区,国产色图视频

雖然BERT等語言模型有很大的成果，但在對(duì)句子表征方面（sentence embeddings）上表現(xiàn)依然不佳，因?yàn)锽ERT存在 sentence bias 、 anisotropy 問題；

我們發(fā)現(xiàn)prompt，再給定不同的template時(shí)可以生成不同方面的positive pair，且避免embedding bias。

相關(guān)工作

Contrastive Learning（對(duì)比學(xué)習(xí)） 可以利用BERT更好地學(xué)習(xí)句子表征。其重點(diǎn)在于如何尋找正負(fù)樣本。例如，使用inner dropout方法構(gòu)建正樣本。

現(xiàn)有的研究表明，BERT的句向量存在一個(gè) 坍縮現(xiàn)象 ，也就是句向量受到高頻詞的影響，進(jìn)而坍縮在一個(gè)凸錐，也就是各向異性，這個(gè)性質(zhì)導(dǎo)致度量句子相似性的時(shí)候存在一定的問題，這也就是 anisotropy 問題。

發(fā)現(xiàn)

（1）Original BERT layers fail to improve the performance.

對(duì)比兩種不同的sentence embedding方法：

對(duì)BERT的輸入input embedding進(jìn)行平均；

對(duì)BERT的輸出（last layer）進(jìn)行平均

評(píng)價(jià)兩種sentence embedding的效果，采用sentence level anisotropy評(píng)價(jià)指標(biāo)：

anisotropy ：將corpus里面的sentence，兩兩計(jì)算余弦相似度，求平均。

對(duì)比了不同的語言模型，預(yù)實(shí)驗(yàn)如下所示：

從上表可以看出，貌似anisotropy對(duì)應(yīng)的spearman系數(shù)比較低，說明相關(guān)性不大。比如bert-base-uncased，

可以看出static token embedding的anisotropy很大，但是最終的效果也差不多。

（2）Embedding biases harms the sentence embeddings performance.

token embedding會(huì)同時(shí)受到token frequency和word piece影響

不同的語言模型的token embedding高度受到詞頻、subword的影響；

通過可視化2D圖，高頻詞通常會(huì)聚在一起，低頻詞則會(huì)分散

For frequency bias, we can observe that high fre- quency tokens are clustered, while low frequency tokens are dispersed sparsely in all models (Yan et al., 2021). The begin-of-word tokens are more vulnerable to frequency than subword tokens in BERT. However, the subword tokens are more vul- nerable in RoBERTa.

三、方法

如何避免BERT在表征句子時(shí)出現(xiàn)上述提到的問題，本文提出使用Prompt來捕捉句子表征。但不同于先前prompt的應(yīng)用（分類或生成），我們并不是獲得句子的標(biāo)簽，而是獲得句子的向量，因此關(guān)于prompt-based sentence embedding，需要考慮兩個(gè)問題：

如何使用prompt表征一個(gè)句子；

如何尋找恰當(dāng)?shù)膒rompt；

本文提出一種基于prompt和對(duì)比學(xué)習(xí)的句子表征學(xué)習(xí)模型。

3.1 如何使用prompt表征一個(gè)句子

本文設(shè)計(jì)一個(gè)template，例如“[X] means [MASK]”，[X] 表示一個(gè)placehoder，對(duì)應(yīng)一個(gè)句子，[MASK]則表示待預(yù)測(cè)的token。給定一個(gè)句子，并轉(zhuǎn)換為prompt后喂入BERT中。有兩種方法獲得該句子embedding：

方法一：直接使用[MASK]對(duì)應(yīng)的隱狀態(tài)向量：；

方法二：使用MLM在[MASK]位置預(yù)測(cè)topK個(gè)詞，根據(jù)每個(gè)詞預(yù)測(cè)的概率，對(duì)每個(gè)詞的word embedding進(jìn)行加權(quán)求和來表示該句子：

方法二將句子使用若干個(gè)MLM生成的token來表示，依然存在bias，因此本文只采用第一種方法

3.2 如何尋找恰當(dāng)?shù)膒rompt

關(guān)于prompt設(shè)計(jì)上，可以采用如下三種方法：

manual design：顯式設(shè)計(jì)離散的template；

使用T5模型生成；

OptiPrompt：將離散的template轉(zhuǎn)換為continuous template;

3.3 訓(xùn)練

采用對(duì)比學(xué)習(xí)方法，對(duì)比學(xué)習(xí)中關(guān)于positive的選擇很重要，一種方法是采用dropout。本文采用prompt方法，為同一個(gè)句子生成多種不同的template，以此可以獲得多個(gè)不同的positive embedding。

The idea is using the different templates to repre- sent the same sentence as different points of view, which helps model to produce more reasonable pos- itive pairs.
為了避免template本身對(duì)句子產(chǎn)生語義上的偏向。作者采用一種trick：

喂入含有template的句子，獲得[MASK]對(duì)應(yīng)的embedding ；

只喂入template本身，且template的token的position id保留其在原始輸入的位置，此時(shí)獲得[MASK]對(duì)應(yīng)的embeding：

最后套入對(duì)比學(xué)習(xí)loss中進(jìn)行訓(xùn)練：

四、實(shí)驗(yàn)

作者在多個(gè)文本相似度任務(wù)上進(jìn)行了測(cè)試，實(shí)驗(yàn)結(jié)果如圖所示：

驚奇的發(fā)現(xiàn)，PromptBERT某些時(shí)候竟然比SimCSE高，作者也提出使用對(duì)比學(xué)習(xí)，也許是基于SimCSE之上精細(xì)微調(diào)后的結(jié)果。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
492

瀏覽量
10229

原文標(biāo)題：Prompt+對(duì)比學(xué)習(xí)，更好地學(xué)習(xí)句子表征

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

一種改進(jìn)的句子相似度計(jì)算模型

在基于實(shí)例的機(jī)器翻譯中，句子相似度計(jì)算是實(shí)例匹配的有效機(jī)制。該文對(duì)基于相同詞的句子相似模型作進(jìn)一步的改進(jìn)，包括關(guān)鍵詞抽取，以及在句子相似度的

發(fā)表于 11-20 15:18 ?9次下載

基于分層組合模式的句子組合模型

和短語向量組成的三元組來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型；然后，通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型來組合句子向量（兩種組合方法：

發(fā)表于 12-01 13:38 ?0次下載

基于分層組合模式的<b class='flag-5'>句子</b>組合<b class='flag-5'>模型</b>

一種新的目標(biāo)分類特征深度學(xué)習(xí)模型

為提高低配置計(jì)算環(huán)境中的視覺目標(biāo)實(shí)時(shí)在線分類特征提取的時(shí)效性和分類準(zhǔn)確率，提出一種新的目標(biāo)分類特征深度學(xué)習(xí)模型。根據(jù)高時(shí)效性要求，選用分類器模型離線深度

發(fā)表于 03-20 17:30 ?0次下載

<b class='flag-5'>一種</b>新的目標(biāo)分類特征深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>

深度學(xué)習(xí)模型介紹,Attention機(jī)制和其它改進(jìn)

al. 于2016年提出了PCNNs+Attention（APCNNs）算法。相比之前的PCNNs模型，該算法在池化層之后，softmax層之前加入了一種基于句子級(jí)別的attention機(jī)制，算法的示意圖如下：

發(fā)表于 03-22 15:41 ?1.9w次閱讀

深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>介紹,Attention機(jī)制和其它改進(jìn)

語義表征的無監(jiān)督對(duì)比學(xué)習(xí)：一個(gè)新理論框架

首先，是否存在良好且廣泛適用的表征呢？在計(jì)算機(jī)視覺等領(lǐng)域，答案是肯定的，因?yàn)樯疃染矸e神經(jīng)網(wǎng)絡(luò) (CNN) 在大型含多類別標(biāo)簽數(shù)據(jù)集 (如 ImageNet) 上以高精度訓(xùn)練時(shí)，最終會(huì)學(xué)習(xí)得到非常強(qiáng)大而簡(jiǎn)潔的表征信息。

發(fā)表于 04-04 17:41 ?2850次閱讀

語義<b class='flag-5'>表征</b>的無監(jiān)督<b class='flag-5'>對(duì)比</b><b class='flag-5'>學(xué)習(xí)</b>：<b class='flag-5'>一</b>個(gè)新理論框架

一種新型的AI模型可以提升學(xué)生的學(xué)習(xí)能力

研究人員設(shè)計(jì)了一種人工智能(AI)模型，該模型可以更好地預(yù)測(cè)教育游戲中學(xué)生的學(xué)習(xí)量。改進(jìn)后的模型利用了稱為多任務(wù)

發(fā)表于 04-27 16:12 ?1493次閱讀

一種注意力增強(qiáng)的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層添加到ESIM模型的雙向LSTM網(wǎng)絡(luò)中，從而更有效地

發(fā)表于 03-25 11:34 ?9次下載

一種基于間隔準(zhǔn)則的多標(biāo)記學(xué)習(xí)算法

針對(duì)多標(biāo)記學(xué)習(xí)分類問題，算法適應(yīng)方法將其轉(zhuǎn)化為排序問題，并將輸出標(biāo)記按照其與示例的相關(guān)性進(jìn)行排序，該類方法取得了較好的分類效果。基于間隔準(zhǔn)則提出一種多標(biāo)記學(xué)習(xí)算法，通過優(yōu)化模型在示例的

發(fā)表于 03-26 11:33 ?9次下載

一種可分享數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的區(qū)塊鏈

作為一種可用于分享數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的區(qū)抉鏈，基于骨架網(wǎng)絡(luò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，以全網(wǎng)節(jié)點(diǎn)匿名分享的數(shù)據(jù)作為訓(xùn)練模型的數(shù)據(jù)集，實(shí)現(xiàn)了不依賴第三方

發(fā)表于 04-14 16:09 ?15次下載

一種基于Q學(xué)習(xí)算法的增量分類模型

大數(shù)據(jù)時(shí)代的數(shù)據(jù)信息呈現(xiàn)持續(xù)性、爆炸性的増長(zhǎng)，為杋器學(xué)習(xí)算法帶來了大量監(jiān)督樣本。然而，這對(duì)信息通常不是次性獲得的，且獲得的數(shù)據(jù)標(biāo)記是不準(zhǔn)確的，這對(duì)傳統(tǒng)的分類模型提岀了挑戰(zhàn)，而増量學(xué)習(xí)是一種

發(fā)表于 05-13 14:17 ?3次下載

結(jié)合句子間差異的無監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE

句向量表征技術(shù)目前已經(jīng)通過對(duì)比學(xué)習(xí)獲取了很好的效果。而對(duì)比學(xué)習(xí)的宗旨就是拉近相似數(shù)據(jù)，推開不相似數(shù)據(jù)，有效地

發(fā)表于 05-05 11:35 ?1156次閱讀

對(duì)比學(xué)習(xí)中的4種典型范式的應(yīng)用分析

對(duì)比學(xué)習(xí)是無監(jiān)督表示學(xué)習(xí)中一種非常有效的方法，核心思路是訓(xùn)練query和key的Encoder，讓這個(gè)Encoder對(duì)相匹配的query和key生成的編碼距離接近，不匹配的編碼距離遠(yuǎn)。

發(fā)表于 07-08 11:03 ?1943次閱讀

如何通過多模態(tài)對(duì)比學(xué)習(xí)增強(qiáng)句子特征學(xué)習(xí)

視覺作為人類感知體驗(yàn)的核心部分，已被證明在建立語言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。

發(fā)表于 09-21 10:06 ?1316次閱讀

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的對(duì)比與區(qū)別

。機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘是一對(duì)相互關(guān)聯(lián)的領(lǐng)域。它們都是理解數(shù)據(jù)、建立模型和提取知識(shí)的工具，但目標(biāo)和方法有所不同。在這篇文章中，我們將比較機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘，并討論它們之間的區(qū)別和聯(lián)系。

發(fā)表于 08-17 16:11 ?1430次閱讀

AI大模型與深度學(xué)習(xí)的關(guān)系

AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系，它們互為促進(jìn)，相輔相成。以下是對(duì)兩者關(guān)系的介紹：一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐：

發(fā)表于 10-23 15:25 ?147次閱讀

搜索歷史

一種基于prompt和對(duì)比學(xué)習(xí)的句子表征學(xué)習(xí)模型

評(píng)論

一種改進(jìn)的句子相似度計(jì)算模型

基于分層組合模式的句子組合模型

一種新的目標(biāo)分類特征深度學(xué)習(xí)模型

深度學(xué)習(xí)模型介紹,Attention機(jī)制和其它改進(jìn)

語義表征的無監(jiān)督對(duì)比學(xué)習(xí)：一個(gè)新理論框架

一種新型的AI模型可以提升學(xué)生的學(xué)習(xí)能力

一種注意力增強(qiáng)的自然語言推理模型aESIM

一種基于間隔準(zhǔn)則的多標(biāo)記學(xué)習(xí)算法

一種可分享數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的區(qū)塊鏈

一種基于Q學(xué)習(xí)算法的增量分類模型

結(jié)合句子間差異的無監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE

對(duì)比學(xué)習(xí)中的4種典型范式的應(yīng)用分析

如何通過多模態(tài)對(duì)比學(xué)習(xí)增強(qiáng)句子特征學(xué)習(xí)

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的對(duì)比與區(qū)別

AI大模型與深度學(xué)習(xí)的關(guān)系