0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:現(xiàn)有聯(lián)合抽取工作的不足之處

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習的知識小 ? 2021-01-07 15:06 ? 次閱讀

這是一篇關于實體關系聯(lián)合抽取的工作。關于現(xiàn)有的聯(lián)合抽取工作,作者提出了兩點不足之處:

Feature Confusiong: 用于同樣的特征表示進行NER和RE(關系分類)兩項任務,可能會對模型的學習造成誤解;

現(xiàn)有的基于Table-Filling方法去完成聯(lián)合抽取的工作,會將表結構轉(zhuǎn)化成一個序列結構,這樣導致丟失了重要的結構信息。

因此本文的工作有以下特點:

針對NER和RE,分別學習出不同的序列表示(sequence representations)和表格表示(table representations); 這兩種表示能分別捕獲任務相關的信息,同時作者還涉及了一種機制使他們彼此交互;

保持表格的結構,通過神經(jīng)網(wǎng)絡結構來捕捉二維表格中的結構信息;同時,引入BERT中的attention權重,進行表格中元素表示的學習。

c796a5b0-5036-11eb-8b86-12bb97331649.png

模型的核心部分包括以下模塊:

Text Embedding: 對于一個輸入的包含n個words的句子,其詞向量、字符向量和BERT詞向量的共同構成了每個word的表示。

Table Encoder: 目標在于學出 N×N 表格下的向量表示,表格第i行第j列的向量表示,與句子中的第i個和第j個詞相對應,如Figure1所示。文中使用基于GRU結構的MD-RNN(多維RNN)作為Text Encoder,在更新表格中當前cell的信息時,通過MDRNN融合其上下左右四個方向上的信息,從而利用了表格的結構特點;同時引入當前cell所對應的兩個詞在Sequence Encoder下的表示,使得Table Encoder和Sequence Encoder之間發(fā)生信息的交流;

c7f39a22-5036-11eb-8b86-12bb97331649.png

Sequence Encoder: Sequence Encoder的結構與Transformer類似,不同之處在于將Transformer中的scaled dot-product attention 替換為文中提出的 table-guided attention。具體地,將Transformer中計算Q,K之間分值的過程直接替換為對應兩個word在table中對應的向量:

c8445e30-5036-11eb-8b86-12bb97331649.png

由于 T_ij 融合了四個方向上的信息,能夠更加充分的捕捉上下文信息以及詞與詞之間的關系,同時也使Table Encoder和Sequence Encoder之間產(chǎn)生了雙向的信息交流。

c89b028a-5036-11eb-8b86-12bb97331649.png

Exploit Pre-trained Attention Weights: Text Embeddings部分有用到BERT,因此將BERT中各個層上多頭attention每個頭上的atention權重堆疊起來,得到張量T l ∈ R N × N × ( L l × A l ) T^{l} in mathbb{R}^{N imes N imes (L^l imes A^l)} T和 Text Embedding中每個詞的表示,來構成Table的初始輸入:

c8fcda28-5036-11eb-8b86-12bb97331649.png

c9423afa-5036-11eb-8b86-12bb97331649.png

作者通過在不同數(shù)據(jù)集上的實驗證明了模型的有效性,并通過消融實驗進行了相關的分析。

責任編輯:xj

原文標題:【EMNLP2020】用填表的方式進行實體關系聯(lián)合抽取

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    588

    瀏覽量

    13464
  • nlp
    nlp
    +關注

    關注

    1

    文章

    483

    瀏覽量

    21974

原文標題:【EMNLP2020】用填表的方式進行實體關系聯(lián)合抽取

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    PIC單片機的優(yōu)勢和不足之處

    PIC單片機系列,作為美國微芯公司的杰出產(chǎn)品,憑借其卓越的性能和廣泛的應用領域,在單片機市場上占據(jù)了舉足輕重的地位。該系列分為基本級、中級和高級三個級別,旨在滿足不同層次的應用需求。 PIC單片機的核心優(yōu)勢在于其CPU采用的RISC結構,這一結構精簡而高效,分別包含33、35、58條指令,構成了精簡指令集。這種設計不僅減少了指令的數(shù)量,還提高了指令的執(zhí)行效率。 同時,PIC單片機采用了Harvard雙總線結構,使得程序存儲器和數(shù)據(jù)存儲器的訪
    的頭像 發(fā)表于 09-25 17:22 ?240次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?257次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?640次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發(fā)展,NLP領域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?400次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域都有廣泛
    的頭像 發(fā)表于 07-09 10:26 ?592次閱讀

    NLP技術在人工智能領域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術作為連接人類語言與機器
    的頭像 發(fā)表于 07-04 16:03 ?338次閱讀

    NLP模型中RNN與CNN的選擇

    NLP中的應用場景、工作原理、優(yōu)缺點,以及在選擇時應考慮的關鍵因素,以期為讀者提供一個全面而深入的理解。
    的頭像 發(fā)表于 07-03 15:59 ?320次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的一個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統(tǒng)。NLP的目標是使計算機能夠像人類一樣
    的頭像 發(fā)表于 07-02 18:16 ?707次閱讀

    特斯拉頻繁調(diào)價,馬斯克解釋傳統(tǒng)經(jīng)銷商模式價格不穩(wěn)

    IT之家發(fā)現(xiàn),Whole Mars博客的Omar認為特斯拉的定價策略缺乏連續(xù)性,Sawyer Merritt則指出,雖然定價更為透明,但這或許是特斯拉直銷模式的不足之處。
    的頭像 發(fā)表于 04-22 15:15 ?234次閱讀

    UART轉(zhuǎn)RS485電路的不足之處

    當RE#為低時,接收數(shù)據(jù); 當RE#為高時,禁止接收; 當DE為高時,發(fā)送數(shù)據(jù); 當DE為低時,禁止發(fā)送。 RO為接收輸出端,DI為發(fā)送輸入端。
    發(fā)表于 03-28 10:21 ?1551次閱讀
    UART轉(zhuǎn)RS485電路的<b class='flag-5'>不足之處</b>

    汽車轉(zhuǎn)向器軸承滑動力測試深度解析

    軟件平臺采用了簡儀的銳視測控軟件平臺,面向?qū)ο篁?qū)動——FirmDrive,快速實現(xiàn)了AI CI同步采集,確保了力與位移的同步,消除了任何偏移,解決了原有PLC方案存在的不足之處。
    發(fā)表于 03-07 11:24 ?325次閱讀
    汽車轉(zhuǎn)向器軸承滑動力測試深度解析

    谷歌發(fā)布Pixel手機3月功能更新,優(yōu)化應用屏幕共享和快速配對功能

    除對先前階段不足之處進行修復和增強系統(tǒng)穩(wěn)定性外,谷歌還將重點放在了擴大“圈選即搜”(Circle to Search)功能的覆蓋范圍、優(yōu)化應用屏幕共享和Fast Pair等功能上。
    的頭像 發(fā)表于 03-05 10:10 ?584次閱讀

    什么是“車規(guī)級”?使用車規(guī)零件的不足之處分享

    車規(guī)和工規(guī),誰的要求高。普遍的認為標準的高低順序是軍工 > 汽車 > 工業(yè) > 消費電子。但個人卻不不能完全接受這個順序。
    發(fā)表于 12-22 16:47 ?595次閱讀
    什么是“車規(guī)級”?使用車規(guī)零件的<b class='flag-5'>不足之處</b>分享

    請問一個平臺的多個sharc 21469如何聯(lián)合工作?

    你好, 請問一個平臺的多個sharc 21469如何聯(lián)合工作。根據(jù)adi的spec有l(wèi)ink port可以將多個sharc連接到一起,那么他們的工作方式是各自獨立并行工作還是某種
    發(fā)表于 11-29 06:39

    介紹一種前饋形式的振蕩控制器(下)

    上篇跟大家聊到了posicast的不足之處在于,對于系統(tǒng)的模型不匹配敏感,其實有個簡單的解決辦法:把兩個posicast串聯(lián)在一起。
    的頭像 發(fā)表于 11-07 17:14 ?586次閱讀
    介紹一種前饋形式的振蕩控制器(下)