隨著最近幾年多模態(tài)大火的,越來越多的任務(wù)都被推陳出新為多模態(tài)版本。譬如,傳統(tǒng)對話任務(wù),推出了考慮視覺信息的多模態(tài)數(shù)據(jù)集;事件抽取,也推出視頻形式的多模態(tài)版本;就連 grammar induction(語法歸納),也有了多模態(tài)版的(詳見 NAACL'2021 best paper)。
然而,多模態(tài)大火雖是最近的事情,但它并不是近兩年才有的什么新技術(shù)。如果是想要對這一領(lǐng)域有比較深的研究,甚至想要做出工作、有所創(chuàng)新,那僅僅了解多模態(tài)最近兩年幾個大火的多模態(tài)模型顯然是不足夠的。
事實(shí)上,有些任務(wù)已經(jīng)天生就是多模態(tài)很多年了。早在多模態(tài)成為焦點(diǎn)之前,就已經(jīng)默默被研究二十來年了。比如,智能文檔(Document AI)技術(shù)。所謂智能文檔技術(shù),也就是自動理解、分析業(yè)務(wù)文檔技術(shù),文檔內(nèi)容可包含文字、圖片、視頻等多種形式。由于理解多模態(tài)形式的多模態(tài)形式文的需求其實(shí)廣泛長期存在,所以智能文檔技術(shù)很多年來都是幾個大廠的研究重點(diǎn)之一。近年來,深度學(xué)習(xí)技術(shù)的普及也更好地推動了例如文檔布局分析、可視化信息提取、文檔可視化問答、文檔圖像分類等智能文檔算法的發(fā)展。近期,微軟亞研院發(fā)表了一篇綜述,簡要回顧了一些有代表性的DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)集。小編認(rèn)為這篇概述的總結(jié)體系非常扎實(shí),是值得細(xì)細(xì)閱讀的多模態(tài)相關(guān)綜述,故與各位分享。
Document AI 發(fā)展歷程
作者概述智能文檔的發(fā)展大致經(jīng)歷了以下三個階段:
第一階段: 啟發(fā)式階段
20世紀(jì)90年代初,研究人員主要使用基于規(guī)則的啟發(fā)式(Heuristic rule-based document layout analysis)來理解和分析文檔,通過手動觀察文檔的布局信息,從而總結(jié)出一些啟發(fā)式規(guī)則。啟發(fā)式規(guī)則方法主要使用固定的布局信息來處理文檔.方法較為固定,定制的規(guī)則可擴(kuò)展性較差,通用性較差。
基于啟發(fā)式規(guī)則的文檔的布局分析大致分為三種方式:
(1)自頂向下:文檔圖像逐步劃分到不同的區(qū)域,遞歸執(zhí)行切割直到該區(qū)域被劃分為預(yù)定義的標(biāo)準(zhǔn),通常是塊或列。例如projection profile,采用X-Y cut算法對文檔進(jìn)行剪切,通常用于文本區(qū)域和行距固定的結(jié)構(gòu)化文本,對特定格式的文檔進(jìn)行更快、更有效的分析.但其對邊界噪聲敏感,對傾斜文本的處理效果不佳。
(2)自底向上:使用像素或組件作為基本單元,將其分組并合并成一個更大的同質(zhì)區(qū)域,自底向上方法雖然需要更多的計算資源,但更通用,可以覆蓋更多具有不同布局類型的文檔。
(3)混合策略:將自上而下和自下而上相結(jié)合,例如Okamoto & Takahashi使用分隔符和空格來切割塊,并將內(nèi)部組件進(jìn)一步合并到每個塊中的文本行中,進(jìn)而解析文檔的布局。
第二階段:機(jī)器學(xué)習(xí)階段
直到從2000年來 隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,以機(jī)器學(xué)習(xí)模型逐漸成為文檔處理的主流方法。研究者設(shè)計功能模板以了解不同功能的權(quán)重,進(jìn)而理解和分析文檔的內(nèi)容和布局。
基于機(jī)器學(xué)習(xí)的文檔分析過程通常分為兩個階段:
1)對文檔圖像進(jìn)行分割,獲得多個候選區(qū)域;
2)對文檔區(qū)域進(jìn)行分類和區(qū)分,如文本塊和圖像。
盡管帶注釋的數(shù)據(jù)被用于監(jiān)督學(xué)習(xí),并且以前的方法可以帶來一定程度的性能改進(jìn),但是由于缺乏定制規(guī)則和訓(xùn)練樣本數(shù)量,通用性仍然不令人滿意。此外,不同類型文檔的遷移和適應(yīng)成本相對較高,這使得以前的方法不適合廣泛的商業(yè)應(yīng)用。
第三階段:深度學(xué)習(xí)階段
隨著深度學(xué)習(xí)的發(fā)展和大量未標(biāo)注電子文檔的積累,可以通過工具HTML/XML提取、PDF解析器、OCR等提取不同類型的文檔中的內(nèi)容,其文本內(nèi)容、布局信息和基本圖像信息等基本組織良好,然后對大規(guī)模深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練和微調(diào),以完成各種下游文檔AI任務(wù).包括文檔布局分析、視覺信息提取、文檔視覺問答和文檔圖像分類等。現(xiàn)有的基于深度學(xué)習(xí)的智能文檔模型主要分為兩大類:
針對特定任務(wù)的深度學(xué)習(xí)模型
支持各種下游任務(wù)的通用預(yù)訓(xùn)練模型
DocumentAI的主要任務(wù)
Document AI在我們現(xiàn)實(shí)的應(yīng)用場景主要有以下四類任務(wù):
Document Layout Analysis
該任務(wù)主要是對文檔布局中的圖像、文本、表格、圖等位置關(guān)系進(jìn)行自動分析、識別、理解的過程.主要分為兩個主任務(wù):Visual analysis 與Semantic analysis.Visual analysis為視覺元素的分析,主要目的是檢測文檔的結(jié)構(gòu),確定相似區(qū)域的邊界,而Semantic analysis為語義分析檢測區(qū)域識別特定的文檔元素,例如標(biāo)題、段落、表格等。
Visual Information Extraction
該任務(wù)從文檔中的大量非結(jié)構(gòu)化內(nèi)容中提取實(shí)體及關(guān)系.對于視覺豐富的文檔建模為計算機(jī)視覺問題,通過語義分割或文本框檢測來進(jìn)行信息提取,將文檔圖像視為像素網(wǎng)格,將文本特征添加到視覺特征圖中。根據(jù)文本信息的粒度,該任務(wù)從字符級發(fā)展到單詞級,再發(fā)展到上下文級。
Document Visual Question Answering
該任務(wù)為通過判斷識別文本的內(nèi)部邏輯來回答關(guān)于文檔的自然語言問題。文檔VQA中的文本信息在任務(wù)中起著至關(guān)重要的作用,現(xiàn)有的有代表性的方法都是以文檔圖像的OCR獲取的文本作為輸入。獲得文檔文本后,將VQA任務(wù)建模為不同的問題.主流方法將其建模為機(jī)器閱讀理解(MRC)問題,根據(jù)問題從給定文檔中提取文本片段作為相應(yīng)的答案。
Document Image Classi?cation
該任務(wù)是對文檔圖像進(jìn)行分析和識別,并將其劃分為不同類別的過程,如科學(xué)論文、簡歷、發(fā)票、收據(jù)等。最早文檔圖像分類問題的方法與自然圖像分類方法基本一樣,例如基于CNN的文檔圖像分類方法使用經(jīng)過ImageNet訓(xùn)練的Alexnet作為初始化對文檔圖像進(jìn)行模型適配。
下圖為作者整理的四大Task的Benchmark:
Document AI 主流模型
Documents layout analysis with convolutional neural networks
文檔布局分析可以看作是對文檔圖像進(jìn)行目標(biāo)檢測的任務(wù)。將文檔中的標(biāo)題、段落、表格、圖表等基本單元是需要檢測和識別的對象。Yang等人將文檔布局分析作為像素級的分割任務(wù),利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行像素分類,取得了較好的效果.
Visual information extraction with graph networks
對于視覺信息豐富的文檔的結(jié)構(gòu)不僅僅由文本內(nèi)容的結(jié)構(gòu)決定,與布局、排版、格式、表/圖結(jié)構(gòu)等視覺元素同樣相關(guān).例如收據(jù)、證書、保險文件等.Liu等人提出的利用圖卷積神經(jīng)網(wǎng)絡(luò)建模視覺元素豐富的文檔,首先通過OCR系統(tǒng)獲得一組Text Blocks,每一個Text Block包含其在圖像中與文本內(nèi)容的坐標(biāo)信息,將其構(gòu)成一個完全連通的有向圖,即每個Text Blocks構(gòu)成一個節(jié)點(diǎn),通過Bi-LSTM獲取節(jié)點(diǎn)的初始特征,邊的初始特征是相鄰文本塊與當(dāng)前文本塊之間的相對距離以及這兩個文本塊的長寬比。對“節(jié)點(diǎn)-邊緣-節(jié)點(diǎn)”三元特征集進(jìn)行卷積,實(shí)驗(yàn)表明,視覺信息發(fā)揮了主要作用,增加了文本識別相似語義的能力,對視覺信息也起到一定的輔助作用。
General-purpose multimodal pre-training with the transformer
文本塊的空間關(guān)系通常包含豐富的語義信息。例如,在表格中本塊通常以網(wǎng)格布局排列,標(biāo)題通常出現(xiàn)在第一列或第一行。不同文檔類型之間的布局不變性是通用預(yù)訓(xùn)練的一個關(guān)鍵屬性。通過預(yù)訓(xùn)練與文本自然對齊的位置信息可以為下游任務(wù)提供更豐富的語義信息。對于視覺信息豐富的文檔,其視覺信息如字體類型、大小、樣式等明顯的視覺差異,其可以通過視覺編碼器提取出來,結(jié)合到預(yù)訓(xùn)練階段,從而有效地改善下游任務(wù)。為了利用布局和視覺信息,2020年Xu提出通用文檔預(yù)訓(xùn)練模型LayoutLM,在已有預(yù)訓(xùn)練模型的基礎(chǔ)上,增加了2-Dposition embedding 和image embedding.首先根據(jù)OCR得到的文本邊界框得到文本在文檔中的坐標(biāo)。將對應(yīng)的坐標(biāo)轉(zhuǎn)換為虛坐標(biāo)后,模型計算出x、y、w、h四個embedding sublayers對應(yīng)的坐標(biāo)表示,最終的二維位置嵌入是四個子層的embedding之和。在imageembedding 中,模型將每個文本對應(yīng)的邊框作為Faster R-CNN,提取相應(yīng)的局部特征。特別是,由于[CLS]符號用于表示整個文檔的語義,因此模型還使用整個文檔的image作為image embedding以保持多模態(tài)對齊,Layout模型在三個下游任務(wù),表單理解,票據(jù)理解,文檔圖像分類,都取得了顯著的準(zhǔn)確率提升。
LayoutLM的兩個自監(jiān)督預(yù)訓(xùn)練任務(wù)Masked Visual-Language :隨機(jī)mask除了2D postionembedding,以及其他文本的text embdedding,讓模型預(yù)測mask的 token.Task2:Multi-Label Document Classi?cation:在給定一組掃描文檔的情況下,利用文檔標(biāo)簽對訓(xùn)練前的過程進(jìn)行監(jiān)督,使模型能夠?qū)碜圆煌I(lǐng)域的知識進(jìn)行聚類,生成更好的文檔級表示.該模型的相關(guān)實(shí)驗(yàn)表明,利用布局和視覺信息的預(yù)訓(xùn)練可以有效地轉(zhuǎn)移到下游任務(wù)中。
小結(jié)
除了這篇文章介紹的之外LayoutLM等經(jīng)典模型,最近DocumentAI的研究工作中幾個后起之秀也非常值得關(guān)注。例如LayouLM后出現(xiàn)的LayoutLMv2以及LayoutXML,將跨模態(tài)對齊的思路貫徹在模型訓(xùn)練的過程中。不僅僅利用文本和布局信息,將圖像信息也融合到文檔多模態(tài)的框架內(nèi)。除此之外,跨模態(tài)文檔理解模型ERINE-Layout,提出閱讀順序預(yù)測和細(xì)粒度圖文匹配兩個與訓(xùn)練任務(wù),除了跨模態(tài)予以對齊能力外,增加了布局理解能力。我們可以看到,在預(yù)訓(xùn)練時代下,DocumentAI正在逐漸向“多模態(tài)文檔理解”方向前進(jìn),從模態(tài)之間的對齊到預(yù)測,DocumentAI將會怎樣找尋可以建模的更多元素,挖掘視覺與文本、布局之間的精細(xì)關(guān)系,變得更加值得期待了。
-
模型
+關(guān)注
關(guān)注
1文章
3062瀏覽量
48575 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8323瀏覽量
132165 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1197瀏覽量
24592
原文標(biāo)題:MSRA-萬字綜述 直擊多模態(tài)文檔理解
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論