丰满人妻熟妇乱又伦精品视频三,亚洲福利视频午夜

本文簡(jiǎn)單介紹ACMMM2023錄用的論文“Relational Contrastive Learning for Scene Text Recognition”的主要工作。該論文主要研究了基于對(duì)比學(xué)習(xí)的文本識(shí)別自監(jiān)督方法。文章受到基于上下文感知方法在文字監(jiān)督學(xué)習(xí)中取得的巨大成功[1]，利用文本和背景的異質(zhì)性，將文字的上下文信息理解為文本基元的關(guān)系，為表征學(xué)習(xí)提供有效的自監(jiān)督標(biāo)簽。但是由于詞匯依賴[2]，文本關(guān)系被限制在有限的數(shù)據(jù)集中，這可能導(dǎo)致過(guò)擬合并損害表征的魯棒性。因此，該文提出通過(guò)重排、分層和交互來(lái)豐富文本關(guān)系，并設(shè)計(jì)了一個(gè)統(tǒng)一的框架RCLSTR: Relational Contrastive Learning for Scene Text Recognition。實(shí)驗(yàn)表明，該方法能夠有效提升對(duì)比學(xué)習(xí)文本識(shí)別的自監(jiān)督性能。

一、背景介紹

場(chǎng)景文本圖像的特點(diǎn)與自然圖像有很大的不同。首先，前景（文本）和背景是異構(gòu)的，文本識(shí)別主要依賴于文本而不是背景。第二，大部分文本圖像通常具有從左到右的結(jié)構(gòu)。第三，文本圖像包含了字符序列和多粒度的結(jié)構(gòu)。先前的文本自監(jiān)督方法主要是從自然圖像遷移而來(lái)的，僅僅探索了文本的部分特點(diǎn)。該文章啟發(fā)于上下文感知方法在文字監(jiān)督學(xué)習(xí)中的成功應(yīng)用，在自監(jiān)督對(duì)比學(xué)習(xí)中充分探索文本的特點(diǎn)。提出通過(guò)重排、分層和交互來(lái)豐富文本關(guān)系，從而形成更完整的對(duì)比學(xué)習(xí)機(jī)制。

如上圖所示，首先，對(duì)于“重排”，文本圖像可以被分割并重新排列成新的上下文關(guān)系，該文設(shè)計(jì)了一個(gè)重排模塊來(lái)生成新的單詞圖像，豐富了文本關(guān)系的多樣性。第二，對(duì)于“分層”，由于文本圖像中存在詞、子詞、字符等多個(gè)不同粒度的對(duì)象，提出了一種分層結(jié)構(gòu)在多個(gè)層級(jí)上進(jìn)行表征學(xué)習(xí)，從而豐富語(yǔ)義信息，增強(qiáng)表征的魯棒性。第三，對(duì)于“交互”，利用不同層級(jí)對(duì)象之間的交互，例如字符-子詞和子詞-詞相似度，約束不同層級(jí)上語(yǔ)義相似性的一致性，從而促進(jìn)學(xué)習(xí)高質(zhì)量的表征。

二、方法介紹

基于MoCo[3]的框架，該文提出了用于文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)框架(RCLSTR)。如下圖所示：1、在Online分支(上半部分)中引入了一個(gè)新的重排階段，從原始分支中產(chǎn)生水平重排的圖像，稱為關(guān)系正則化模塊（Relational Regularization）。2、文章設(shè)計(jì)了一個(gè)分層結(jié)構(gòu)來(lái)學(xué)習(xí)每一層內(nèi)部的關(guān)系，稱為分層關(guān)系模塊（Hierarchical Relation）。3、提出了一個(gè)跨層次關(guān)系一致性模塊（Cross-Hierarchy Relational Consistency），以便網(wǎng)絡(luò)學(xué)習(xí)層級(jí)之間的關(guān)系。

對(duì)于Relational Regularization，該文提出了一個(gè)重排模塊來(lái)生成新的文本圖像，生成的圖像包含更多的上下文關(guān)系。如下圖所示，該模塊將文本圖像水平劃分為幾個(gè)片段，然后隨機(jī)打亂，重新連接片段后生成重排后的圖像。重排后的圖像經(jīng)過(guò)Online編碼器和投影層后得到對(duì)應(yīng)特征，然后將特征復(fù)位到原始圖片中的位置。

文章分別計(jì)算了原始特征和正則化特征（對(duì)應(yīng)于重新排列的圖像）上的對(duì)比損失，然后將兩者求和得到：

對(duì)于Hierarchical Relation，考慮到文本在水平方向上具有不同的粒度，該文提出了一種分層的對(duì)比學(xué)習(xí)結(jié)構(gòu)，通過(guò)不同粒度的池化層將特征映射到幀、子詞和詞三個(gè)層次，然后進(jìn)行分層級(jí)的關(guān)系對(duì)比學(xué)習(xí)，每個(gè)層級(jí)計(jì)算對(duì)比損失（上標(biāo)指代幀、子詞和詞三個(gè)層級(jí)），并求和得到：

對(duì)于Cross-Hierarchy Relational Consistency，提出一致性約束來(lái)學(xué)習(xí)相鄰層之間的關(guān)系，實(shí)現(xiàn)幀-子詞和子詞-詞之間的一致性約束。對(duì)于幀-子詞關(guān)系，由于來(lái)自相同空間位置(在同一圖像中)的幀和子詞特征在特征空間中表現(xiàn)出更高的相似性，因此將其視為正樣本對(duì)，將其他位置的特征視為負(fù)樣本對(duì)，子詞-詞之間的正負(fù)對(duì)關(guān)系類似。該模塊通過(guò)KL損失來(lái)約束相似度分布之間的一致性：

其中表示幀-子詞一致性損失，表示子詞-詞一致性損失。最后總的損失函數(shù)為正則化的多層級(jí)損失和跨層級(jí)損失求和：

三、實(shí)驗(yàn)結(jié)果

表征質(zhì)量的結(jié)果如下表所示，與SeqMoCo的baseline相比，加入三個(gè)主要模塊后，基于CTC的解碼器性能平均提高了+12.38%，基于注意力的解碼器平均提高了+10.15%。同時(shí)，該表也展示了三個(gè)關(guān)鍵模塊各自的有效性。

下圖是使用t-SNE[4]將IIIT5K[5]數(shù)據(jù)集圖像特征可視化的結(jié)果，對(duì)應(yīng)于SeqMoCo(Baseline)和該文的方法RCLSTR?？梢钥闯?，RCLSTR方法能更好地挖掘字符關(guān)系，對(duì)應(yīng)相同類別的字符特征能夠更好地成簇。

四、總結(jié)

該工作提出了一個(gè)新的場(chǎng)景文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)框架(RCLSTR)。在這個(gè)框架中，通過(guò)三個(gè)模塊對(duì)文本圖像之間的關(guān)系進(jìn)行了充分的探討。提出了Relational Regularization模塊，以豐富圖像內(nèi)部和圖像間的上下文關(guān)系。同時(shí)設(shè)計(jì)了用于關(guān)系對(duì)比學(xué)習(xí)的Hierarchical Relation模塊，在不同粒度上進(jìn)行分層級(jí)對(duì)比學(xué)習(xí)。此外，針對(duì)場(chǎng)景文本圖像中不同層次的交互，設(shè)計(jì)了Cross-Hierarchy Relational Consistency模塊。實(shí)驗(yàn)結(jié)果表明該方法能夠有效提升對(duì)比學(xué)習(xí)文本識(shí)別的自監(jiān)督性能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1128

瀏覽量
40585
模塊

模塊

+關(guān)注

關(guān)注
7

文章
2626

瀏覽量
47210
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24590

原文標(biāo)題：ACM MM 2023 | 上交提出RCLSTR：面向場(chǎng)景文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

請(qǐng)問(wèn)instaspin foc識(shí)別的參數(shù)跟注入電流大小關(guān)系比較大怎么處理?

instaspin foc識(shí)別的參數(shù)跟注入電流大小關(guān)系比較大.Rs Ls學(xué)習(xí)的電流設(shè)置為1A或者10A,都能識(shí)別完成,但是發(fā)現(xiàn)學(xué)到的Rs和Ls前后差別卻很大,有2倍的差距.請(qǐng)問(wèn)這種情況

發(fā)表于 09-21 14:15

基于多標(biāo)記學(xué)習(xí)的汽車評(píng)論文本多性能識(shí)別

針對(duì)汽車產(chǎn)品評(píng)論文本中出現(xiàn)的多方面性能，提出一種基于多標(biāo)記學(xué)習(xí)的汽車評(píng)論文本多方面性能識(shí)別方法。首先，結(jié)合

發(fā)表于 12-06 17:12 ?0次下載

基于多標(biāo)記<b class='flag-5'>學(xué)習(xí)</b>的汽車評(píng)論<b class='flag-5'>文本</b>多性能<b class='flag-5'>識(shí)別</b>

基于面向文本標(biāo)題的任務(wù)關(guān)系抽取

為了克服文本標(biāo)題的人物關(guān)系抽取中非人物實(shí)體的干擾、關(guān)系特征詞的選取以及標(biāo)題中多人物實(shí)體對(duì)目標(biāo)實(shí)體的關(guān)系判定的影響，提出基于決策樹(shù)的人物實(shí)體判

發(fā)表于 12-22 09:56 ?0次下載

基于<b class='flag-5'>面向</b><b class='flag-5'>文本</b>標(biāo)題的任務(wù)<b class='flag-5'>關(guān)系</b>抽取

面向人體動(dòng)作識(shí)別的隨機(jī)增量型混合學(xué)習(xí)機(jī)模型

針對(duì)自然人機(jī)交互應(yīng)用中的人體動(dòng)作識(shí)別問(wèn)題，總結(jié)了傳統(tǒng)機(jī)器學(xué)習(xí)模型在識(shí)別人體動(dòng)作時(shí)的缺點(diǎn)，然后在此基礎(chǔ)上針對(duì)自然人機(jī)交互應(yīng)用的獨(dú)特要求提出了面向

發(fā)表于 01-03 15:50 ?1次下載

面向實(shí)體識(shí)別的聚類算法

實(shí)體識(shí)別是數(shù)據(jù)質(zhì)量的一個(gè)重要方面，對(duì)于大數(shù)據(jù)處理不可或缺，已有的實(shí)體識(shí)別研究工作聚焦于數(shù)據(jù)對(duì)象相似度算法、分塊技術(shù)和監(jiān)督的實(shí)體識(shí)別技術(shù)，而非監(jiān)督的實(shí)體識(shí)別中匹配決定的問(wèn)題很少被涉及．

發(fā)表于 01-09 15:52 ?0次下載

如何使用EAST文本檢測(cè)器在自然場(chǎng)景下檢測(cè)文本

EAST是一種基于深度學(xué)習(xí)的文本探測(cè)器，即高效、準(zhǔn)確的場(chǎng)景文本檢測(cè)（Efficient and Accurate Scene Text detectionpipeline）。更重要的是

發(fā)表于 08-24 08:40 ?1.1w次閱讀

語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景

在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家，大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交換機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能、語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品，同時(shí)也包括語(yǔ)音識(shí)別與語(yǔ)音合成功能。人們可以通過(guò)電話網(wǎng)絡(luò)用語(yǔ)音

發(fā)表于 03-27 15:04 ?2w次閱讀

語(yǔ)音識(shí)別的技術(shù)歷程

深度學(xué)習(xí)技術(shù)自 2009 年興起之后，已經(jīng)取得了長(zhǎng)足進(jìn)步。語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境，但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見(jiàn)詞匯場(chǎng)景下的語(yǔ)音識(shí)別率已經(jīng)超過(guò) 95%，意味著具備了與人類

發(fā)表于 08-22 14:21 ?4378次閱讀

面向港口停留區(qū)域識(shí)別的船舶停留軌跡提取方法

面向港口停留區(qū)域識(shí)別的船舶停留軌跡提取方法介紹。

發(fā)表于 03-17 16:13 ?6次下載

淺談面向人臉表情識(shí)別的雙模板稀疏分類方法

提出一種面向人臉表情識(shí)別的雙模板稀疏分類方法(DT-SRC)。該算法在用訓(xùn)練樣本組成觀測(cè)矩陣的基礎(chǔ)上，通過(guò)添加正、

發(fā)表于 05-05 00:05 ?1830次閱讀

面向網(wǎng)絡(luò)攻擊識(shí)別的威脅情報(bào)畫(huà)像分析方法

新型網(wǎng)絡(luò)攻擊向高隱蔽性、高持久性和髙擴(kuò)散性的方向發(fā)展，導(dǎo)致攻擊識(shí)別與檢測(cè)難度驟增。為提高網(wǎng)絡(luò)攻擊識(shí)別的效率與準(zhǔn)確性，提出一種面向攻擊識(shí)別的威

發(fā)表于 05-12 13:57 ?2次下載

面向人臉識(shí)別的FusNet網(wǎng)絡(luò)模型

面向人臉識(shí)別的FusNet網(wǎng)絡(luò)模型

發(fā)表于 06-09 14:59 ?8次下載

機(jī)器視覺(jué)與生物特征識(shí)別的關(guān)系

機(jī)器視覺(jué)與生物特征識(shí)別的關(guān)系 機(jī)器視覺(jué)和生物特征識(shí)別是目前科技領(lǐng)域非常熱門的方向。機(jī)器視覺(jué)是指利用電子設(shè)備來(lái)對(duì)物體進(jìn)行識(shí)別、分析和處理，尤其是指計(jì)算機(jī)對(duì)視覺(jué)信息的處理；而生物特征

發(fā)表于 08-09 17:43 ?686次閱讀

小模型也能進(jìn)行上下文學(xué)習(xí)！字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

場(chǎng)景文本識(shí)別（Scene Text Recognition）的目標(biāo)是將圖像中的文本內(nèi)容提取出來(lái)。實(shí)際應(yīng)用場(chǎng)景中，

發(fā)表于 11-27 16:28 ?829次閱讀

如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練？

如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練？使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)和自動(dòng)訓(xùn)練需要掌握一些重要的概念和技術(shù)。在本文中，我們將介紹如何使用Python中的一些常用

發(fā)表于 01-12 16:06 ?497次閱讀