日本丰满少妇毛茸茸,丝袜波多野结衣美腿视频,手机在线观看成人国产亚洲AV

前兩天刷arxiv論文，又刷到一篇通用信息抽取框架，今天帶給大家，全名為《Universal Information Extraction as Unified Semantic Matching》，即 基于統(tǒng)一語義匹配的通用信息抽取框架-USM ，狀態(tài)為accepted by AAAI2023。

paper地址：https://arxiv.org/pdf/2301.03282.pdf

介紹

信息提取（Information Extraction，IE）需要提取句子中的實(shí)體、關(guān)系、事件等，其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu)，因此，傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型設(shè)計(jì)和數(shù)據(jù)標(biāo)注，使得難以推廣到新的模式中，極大限制了IE系統(tǒng)的使用。

2022年《Unified Structure Generation for Universal Information Extraction》一文，提出了 通用信息提取（UIE）的概念 ，旨在使用一個(gè)通用模型來解決多個(gè)信息提取任務(wù)，提出了一種Seq2Seq的生成模型，以結(jié)構(gòu)化模式提示器+文本內(nèi)容作為輸出，直接生成結(jié)構(gòu)化抽取語言，最終獲取信息提取內(nèi)容。

然而，由于Seq2Seq的生成模型的 黑盒特性 ，導(dǎo)致無法判斷跨任務(wù)或跨模式的遷移在什么情況下會(huì)成功or失敗。因此，本論文提出了統(tǒng)一語義匹配框架（Universal Information Extraction，USM）對(duì)各種信息提取任務(wù)進(jìn)行統(tǒng)一建模， 明確模型在遷移過程的有效性、健壯性和可解釋性 。如圖1所示，IE任務(wù)中多樣化的任務(wù)和抽取目標(biāo)，可以解耦為以下兩個(gè)操作：

（1） Structuring ，即結(jié)構(gòu)化，從文本中抽取目標(biāo)結(jié)構(gòu)中標(biāo)簽未知的基本子結(jié)構(gòu)。例如：抽取“Monet”、“Paris”、“France”等文本或者“ Monet-Paris”、“France-Paris”等文本pair對(duì)。
（2） ** Conceptualizing** ，即概念化，它將抽取文本和文本pair對(duì)與目標(biāo)語義標(biāo)簽進(jìn)行對(duì)應(yīng)。例如：“Monet”與“person”標(biāo)簽進(jìn)行對(duì)應(yīng)，“Monet”-"Paris"與“birth place”標(biāo)簽進(jìn)行對(duì)應(yīng)。

并且在給定目標(biāo)抽取模式時(shí)，可以通過結(jié)構(gòu)化操作，重新建立抽取目標(biāo)結(jié)構(gòu)與文本的語義信息；通過概念化操作，將抽取文本或文本pair與目標(biāo)語義標(biāo)簽進(jìn)行匹配，完成信息抽取任務(wù)。

USM框架基于上述發(fā)現(xiàn)的規(guī)則，將結(jié)構(gòu)化和概念化轉(zhuǎn)化為一系列有向Token-Linking操作，聯(lián)合建模文本與模式，統(tǒng)一抽取文本或文本pair，并根據(jù)需要可控生成目標(biāo)結(jié)構(gòu)，實(shí)現(xiàn)在不同的目標(biāo)結(jié)構(gòu)和語義模式之間進(jìn)行共享抽取的功能。

基于有向Token-Linking的統(tǒng)一語義匹配

如圖2所示，USM框架以任意抽取標(biāo)簽?zāi)Ｊ胶驮嘉谋咀鳛檩斎?，根?jù)給定的模式直接輸出結(jié)構(gòu)。

Schema-Text Joint Embedding

為了捕捉標(biāo)簽?zāi)Ｊ胶臀谋局g的關(guān)聯(lián)，USM框架學(xué)習(xí)模式標(biāo)簽和文本標(biāo)記的聯(lián)合上下文嵌入，即將抽取提示實(shí)例化為token序列，并與文本序列進(jìn)行拼接，最后計(jì)算標(biāo)簽-文本聯(lián)合嵌入，具體如下，

其中，為Transformer的Encoder結(jié)構(gòu)，為掩碼矩陣，用于確定一對(duì)Token之間是否可以相互作用。

Token-Token Linking for Structuring

在得到標(biāo)簽-文本聯(lián)合上下文嵌入后，USM框架使用Token-Token鏈接（TTL）操作抽取所有有效的文本片段。

Utterance ：輸入文本中的一段連續(xù)Token序列，例如：實(shí)體文本“Monet”、事件觸發(fā)詞“born in”等。如圖3所示，通過片段的頭尾連接（H2T），抽取一個(gè)文本片段。例如，“Monet”是自身到自身，“born in”是“born”到“in”。
Association pair ：輸入文本中的相關(guān)文本pair對(duì)，例如，具有主客體關(guān)系的“Monet”-“Paris”文本對(duì)，具有觸發(fā)詞-要素關(guān)系的“born in”-“Paris”文本對(duì)。如圖3所示，通過頭頭連接（H2H）和尾尾連接（T2T），抽取文本對(duì)。

對(duì)于上述三種Token到Token鏈接(H2T, H2H, T2T)操作，USMk框架分別對(duì)所有有效的token-pair候選集中token-to-token 鏈接進(jìn)行評(píng)分，對(duì)于每個(gè)token-pair，鏈接分?jǐn)?shù)如下：

其中，為輸出維度的前饋層，為旋轉(zhuǎn)位置嵌入，可以有效地將相對(duì)位置信息注入到對(duì)應(yīng)的結(jié)構(gòu)中。

Label-Token Linking for Utterance Conceptualizing

在得到標(biāo)簽嵌入和文本嵌入后，USM框架使用 label-token鏈接(LTL)操作將有效的文本進(jìn)行概念化。

LTL操作的輸出是標(biāo)簽名詞和文本內(nèi)容的pair對(duì)，例如："person"- “Monet”、"country"-“Paris”等。有兩種類型的概念化：

實(shí)體的類型 ，即為每一個(gè)文本分配標(biāo)簽類型，例如，實(shí)體“Monet”的類型為person。
客體的謂詞 ，即將謂詞類型賦給每個(gè)候選客體，例如，客體“Paris”的謂語詞為birth place。其中，實(shí)體的類型和客體的謂詞在概念化時(shí)采用相同的LT操作，使得兩種標(biāo)簽語義之間相互加強(qiáng)。并按照頭尾片段抽取風(fēng)格，使用label到head(L2H)和label到tail(L2T)來定義L2T鏈路操作，例如，客體的謂詞“Paris”-“birth place”，將標(biāo)簽“birth place”的頭“birth”與客體“Paris”鏈接，將標(biāo)簽“birth place”尾頭“ place”與客體“Paris”鏈接。計(jì)算LTL的得分，如下：

Token-Label Linking for Pairing Conceptualizing

為了概念化文本pair對(duì)，USM框架使用 Token-Label鏈接（TLL）將文本pair對(duì)的主體鏈接到標(biāo)簽上。也就是，TLL操作用head到label(H2L)和tail到label(T2L)操作連接了三元組中主體和謂語詞。例如，主體“Monet”的head“Monet”鏈接標(biāo)簽“birth place”的head“birth”，主體“Monet”的tail“Monet”鏈接標(biāo)簽“birth place”的tail“place”。計(jì)算TLL的得分，如下：

Schema-constraint Decoding for Structure Composing

USM框架采用模式約束解碼算法來解碼最終結(jié)構(gòu)，通過統(tǒng)一的token-linking操作提取給定的文本結(jié)構(gòu)。如圖3所示，USM框架，首先解碼由TTL操作提取的實(shí)體文本和主客體文本，例如：“Monet”，“Paris”，“France”，“Monet”-“Pairs”，“France”-“Pairs”；然后通過LTL操作對(duì)標(biāo)簽名詞和文本內(nèi)容的pair對(duì)進(jìn)行解碼，例如：“person”-“Monet”，“country”-“France”，“birth place”-“Paris”，“capital”-“Paris”；最后利用TLL操作對(duì)標(biāo)簽及文本對(duì)進(jìn)行解碼，例如：“Monet”-“birth place”，“France”-“capital”。

由于以上三種鏈接操作互不影響，因此，在進(jìn)行模型推理過程中，三種操作是高度并行的。

最后，可以根據(jù)從輸入類型的模式定義，將實(shí)體類型country和person與關(guān)系類型 birth place和capital分離出來。根據(jù)TLL操作的結(jié)果“Monet”-“birth place”，“France”-“capital”，可以得到完整的三元組結(jié)構(gòu)“Monet”-“birth place”-Paris和“France”-“capital”-“Paris”。

Learning from Heterogeneous Supervision

本文利用異構(gòu)監(jiān)督資源來學(xué)習(xí)統(tǒng)一令牌鏈接的通用結(jié)構(gòu)和概念化能力，通過語言化的標(biāo)簽表示和統(tǒng)一的token鏈接，將異構(gòu)的監(jiān)督數(shù)據(jù)統(tǒng)一為進(jìn)行預(yù)訓(xùn)練。

Pre-training

USM框架對(duì)共享語義表示中的標(biāo)簽?zāi)Ｊ胶臀谋具M(jìn)行統(tǒng)一編碼，并使用統(tǒng)一的token-linking對(duì)文本中的信息進(jìn)行結(jié)構(gòu)化和概念化。幫助為了學(xué)習(xí)常見的結(jié)構(gòu)和概念化能力，本文收集了三種不同的監(jiān)督數(shù)據(jù)用于USM的預(yù)訓(xùn)練。

任務(wù)數(shù)據(jù) ：來自信息抽取任務(wù)的標(biāo)注數(shù)據(jù)，即數(shù)據(jù)樣本都有一個(gè)金標(biāo)準(zhǔn)。
遠(yuǎn)程監(jiān)督數(shù)據(jù) ：數(shù)據(jù)樣本來自文本和知識(shí)庫(kù)對(duì)齊。
間接監(jiān)督數(shù)據(jù) ：數(shù)據(jù)樣本來自其他相關(guān)的NLP任務(wù)，主要使用機(jī)器閱讀理解的數(shù)據(jù)，將（問題-文檔-答案）實(shí)例中問題作為標(biāo)簽?zāi)Ｊ剑臋n作為輸入文本，答案作為提及。

Learning function

在訓(xùn)練過程中，由于token-linking占比僅為所有token鏈接候選集合的1%，因此在模型優(yōu)化過程中，標(biāo)簽的極端稀疏性是要重點(diǎn)解決的問題。

主要采用類別不平衡損失函數(shù)，

其中，表示USM框架中的鏈接類型，表示鏈接對(duì)，表示非鏈接對(duì)，表示鏈接操作的分?jǐn)?shù)。

實(shí)驗(yàn)

監(jiān)督實(shí)驗(yàn)

在4個(gè)任務(wù)的13個(gè)數(shù)據(jù)集上與其他sota模型進(jìn)行了對(duì)比實(shí)驗(yàn)，其中AVE-unify表示非重疊數(shù)據(jù)集的平均指標(biāo)，AVE-total表示所有數(shù)據(jù)集的平均指標(biāo)，如表1所示，USM框架達(dá)到了sota的效果，并在AVE-total上優(yōu)于各任務(wù)sota方法1.3，及時(shí)在不使用預(yù)訓(xùn)練模型的情況下，用Roberta初始化的USM框架也表現(xiàn)出了較好的效果，說明統(tǒng)一token-linking具有較強(qiáng)的可遷移性和泛化能力。

采用異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練的USM框架相比于Roberta初始化的USM框架在所有數(shù)據(jù)集上平均提高了0.74，說明異構(gòu)預(yù)訓(xùn)練為信息抽取的結(jié)構(gòu)化和概念化提供了更好的基礎(chǔ)。

在所有任務(wù)上進(jìn)行微調(diào)的USM-Unify模型也表現(xiàn)出，說明USM框架可以通過單一的多任務(wù)模型解決大量信息抽取任務(wù)。

Zero-shot實(shí)驗(yàn)

在不同領(lǐng)域的9個(gè)數(shù)據(jù)集上進(jìn)行了Zero-shot實(shí)驗(yàn)，如表2所示，遠(yuǎn)程監(jiān)督數(shù)據(jù)和間接監(jiān)督數(shù)據(jù)在預(yù)訓(xùn)練過程中起到很重要的作用。通過表3，可以看出，在330M參數(shù)下，就可以比137B參數(shù)量的GPT3模型效果更優(yōu)。

Few-shot實(shí)驗(yàn)

在四個(gè)信息任務(wù)上進(jìn)行了Few-shot實(shí)驗(yàn)，如表4所示，USM框架在少量數(shù)據(jù)下要比UIE效果更優(yōu)，并且要好于使用Roberta進(jìn)行初始化的模型。當(dāng)將標(biāo)簽文本轉(zhuǎn)化成固定符號(hào)表示時(shí)，效果變差，說明語言表達(dá)標(biāo)簽?zāi)Ｊ讲⒉皇菬o意義的，在語義表征過程中，它起到了決定性的作用。

總結(jié)

該論文通過三種統(tǒng)一的Token-Linking操作，實(shí)現(xiàn)信息抽取任務(wù)的統(tǒng)一模型，讓我眼前一亮，相較于Seq2Seq模型來說，該方法的可解釋性更強(qiáng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
397

瀏覽量
17364
USM

USM

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
7209

評(píng)論

相關(guān)推薦

基于多模態(tài)語義SLAM框架

本文提出了一個(gè)魯棒且快速的多模態(tài)語義 SLAM 框架，旨在解決復(fù)雜和動(dòng)態(tài)環(huán)境中的 SLAM 問題。具體來說，將僅幾何聚類和視覺語義信息相結(jié)合

發(fā)表于 08-31 09:39 ?1630次閱讀

NLPIR語義分析是對(duì)自然語言處理的完美理解

單位，詞語具有特定的語義和內(nèi)涵。在詞語層次上，詞語語義分析意味著詞語的內(nèi)涵分析、詞語之間的語義相似度或相關(guān)度分析，這是句子分析和篇章語義分析的基礎(chǔ)，也是

發(fā)表于 10-19 11:34

文本信息抽取的分階段詳細(xì)介紹

模型是上述一般文本信息抽取的具體實(shí)現(xiàn)。 NLPIR大數(shù)據(jù)語義智能分析平臺(tái)在文本信息提取介紹方面，能夠?qū)崿F(xiàn)新詞提取和關(guān)鍵詞提取。新詞發(fā)現(xiàn)能

發(fā)表于 09-16 15:03

一種從零搭建汽車知識(shí)的語義網(wǎng)絡(luò)及圖譜思路

應(yīng)用。　　構(gòu)建后將獲得的收益：　　知識(shí)圖譜統(tǒng)一知識(shí)表示。通過整合多源異構(gòu)數(shù)據(jù)，形成統(tǒng)一視圖；　　語義信息豐富。通過關(guān)系推理可以發(fā)現(xiàn)新關(guān)系邊，獲得更豐富的

發(fā)表于 11-22 15:37

一種支持QoS約束的語義Web服務(wù)發(fā)現(xiàn)框架

針對(duì)當(dāng)前語義Web服務(wù)發(fā)現(xiàn)缺乏OoS約束的問題，構(gòu)建一個(gè)支持QoS約束的語義Web服務(wù)發(fā)現(xiàn)框架。使用QoS認(rèn)證中心確保QoS信息的動(dòng)態(tài)更新。

發(fā)表于 03-31 10:17 ?10次下載

統(tǒng)一通用入侵檢測(cè)框架的研究與設(shè)計(jì)

入侵檢測(cè)是信息安全保障的關(guān)鍵技術(shù)之一，本文介紹了目前入侵檢測(cè)系統(tǒng)中采用的兩種通用模型：通用入侵檢測(cè)框架（CIDF）和入侵檢測(cè)

發(fā)表于 08-13 09:27 ?8次下載

基于XML的WEB信息抽取模型設(shè)計(jì)

對(duì)現(xiàn)有的信息抽取技術(shù)和XML 技術(shù)加以研究，在此基礎(chǔ)上提出了適合XML 的通用的web 信息抽取模型，它能夠把Web 上的數(shù)據(jù)

發(fā)表于 12-22 13:56 ?17次下載

Web實(shí)體語義信息搜索平臺(tái)

Web上實(shí)體信息過于分散且缺乏語義，傳統(tǒng)基于關(guān)鍵詞匹配的搜索引擎往往因缺少上下文等語義信息，無法搜索到精確的結(jié)果。為了對(duì)Web數(shù)據(jù)進(jìn)行精確查

發(fā)表于 02-09 16:04 ?0次下載

Web實(shí)體<b class='flag-5'>語義</b><b class='flag-5'>信息</b>搜索平臺(tái)

基于句法語義依存分析的金融事件抽取

是關(guān)注的重點(diǎn).因此,本文聚焦于金融事件,抽取三元組事件ET(Sub,Pred,Obj).在中文財(cái)經(jīng)新聞中,存在大量事件嵌套和成分共享等現(xiàn)象,致使易岀現(xiàn)事件漏抽和事件成分缺失的情況.為了解決這些冋題,本文建立句法和語義依存分析相結(jié)合的中文事件

發(fā)表于 03-24 14:03 ?8次下載

基于句法<b class='flag-5'>語義</b>依存分析的金融事件<b class='flag-5'>抽取</b>

結(jié)合百科知識(shí)和句子語義特征的CNN抽取模型

關(guān)系抽取是信息抽取領(lǐng)域中重要的研究任務(wù)之一，其典型的應(yīng)用場(chǎng)景包括知識(shí)圖譜、問答系統(tǒng)、機(jī)器翻譯等。目前已經(jīng)有大量的研究工作將深度學(xué)習(xí)應(yīng)用于關(guān)系抽取

發(fā)表于 06-15 16:56 ?5次下載

深度學(xué)習(xí)—基于軍事知識(shí)圖譜的作戰(zhàn)預(yù)案語義匹配方法研究

基于軍事知識(shí)圖譜的作戰(zhàn)預(yù)案語義匹配方法研究人工智能技術(shù)與咨詢前天本文來自《指揮與控制學(xué)報(bào)》?，作者梁汝鵬等摘要?提出了一種智能化的預(yù)案語義

發(fā)表于 11-11 11:08 ?1640次閱讀

如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

信息抽取任務(wù)包括命名實(shí)體識(shí)別（NER）、關(guān)系抽取（RE）、事件抽取（EE）等各種各樣的任務(wù)。

發(fā)表于 09-20 15:25 ?1203次閱讀

基于統(tǒng)一語義匹配的通用信息抽取框架USM

信息提取（Information Extraction，IE）需要提取句子中的實(shí)體、關(guān)系、事件等，其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu)，因此，傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型設(shè)計(jì)和數(shù)據(jù)標(biāo)注，使得難以推廣到新的模式中，極大限制了IE系統(tǒng)的使用。

發(fā)表于 01-16 10:21 ?1025次閱讀

介紹一種信息抽取的大一統(tǒng)方法USM

信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu)，而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注，這樣非常的耗時(shí)耗力。

發(fā)表于 02-15 14:13 ?733次閱讀

Instruct-UIE：信息抽取統(tǒng)一大模型

Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法，可以融合不同類型任務(wù)以及不同的標(biāo)注規(guī)范，統(tǒng)一進(jìn)行訓(xùn)練。針對(duì)新的任務(wù)需求，僅需要少量的數(shù)據(jù)進(jìn)行增量式學(xué)習(xí)，即可完成模型的升級(jí)。

發(fā)表于 04-25 10:46 ?1594次閱讀

搜索歷史

基于統(tǒng)一語義匹配的通用信息抽取框架-USM

介紹