亚洲第一伊人,最近中文字幕完整视频高清1

本文簡要介紹ECCV 2022錄用的論文“When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。該論文旨在緩解目前大部分基于注意力機制的手寫數(shù)學公式識別算法在處理較長或者空間結(jié)構(gòu)較復雜的數(shù)學公式時，容易出現(xiàn)的注意力不準確的情況。本文通過將符號計數(shù)任務(wù)和手寫數(shù)學公式識別任務(wù)聯(lián)合優(yōu)化來增強模型對于符號位置的感知，并驗證了聯(lián)合優(yōu)化和符號計數(shù)結(jié)果都對公式識別準確率的提升有貢獻。

一、研究背景

OCR技術(shù)發(fā)展到今天，對于常規(guī)文本的識別已經(jīng)達到了較高的準確率。但是對于在自動閱卷、數(shù)字圖書館建設(shè)、辦公自動化等領(lǐng)域經(jīng)常出現(xiàn)的手寫數(shù)學公式，現(xiàn)有OCR算法的識準確率依然不太理想。不同于常規(guī)文本，手寫數(shù)學公式有著復雜的空間結(jié)構(gòu)以及多樣化的書寫風格，如圖1所示。其中復雜的空間結(jié)構(gòu)主要是由數(shù)學公式獨特的分式、上下標、根號等結(jié)構(gòu)造成的。雖然目前的OCR算法能較好地識別水平排布的常規(guī)文本，甚至對于一些多方向以及彎曲文本也能夠有不錯的識別效果，但是依然不能很好地識別具有復雜空間結(jié)構(gòu)的數(shù)學公式。

圖1 手寫數(shù)學公式示例

二、研究動機

現(xiàn)有的大部分手寫數(shù)學公式識別算法采用的是基于注意力機制的編碼器-解碼器結(jié)構(gòu)，模型在識別每一個符號時，需要注意到圖像中該符號對應(yīng)的位置區(qū)域。在識別常規(guī)文本時，注意力的移動規(guī)律比較單一，往往是從左至右或從右至左。但是在識別數(shù)學公式時，注意力在圖像中的移動具有更多的可能性。因此，模型在解碼較復雜的數(shù)學公式時，容易出現(xiàn)注意力不準確的現(xiàn)象，導致重復識別某符號或者是漏識別某符號。

為了緩解上述現(xiàn)象，本文提出將符號計數(shù)引入手寫數(shù)學公式識別。這種做法主要基于以下兩方面的考慮：1）符號計數(shù)（如圖2(a)所示）可以隱式地提供符號位置信息，這種位置信息可以使得注意力更加準確（如圖2(b)所示）。2）符號計數(shù)結(jié)果可以作為額外的全局信息來提升公式識別的準確率。

圖2 （a）符號計數(shù)任務(wù)；（b）符號計數(shù)任務(wù)讓模型擁有更準確的注意力

三、方法簡述

模型整體框架：如圖3所示，CAN模型由主干特征提取網(wǎng)絡(luò)、多尺度計數(shù)模塊（MSCM）和結(jié)合計數(shù)的注意力解碼器（CCAD）構(gòu)成。主干特征提取網(wǎng)絡(luò)采用的是DenseNet[1]。對于給定的輸入圖像，主干特征提取網(wǎng)絡(luò)提取出2D特征圖F。隨后該特征圖F被輸入到多尺度計數(shù)模塊MSCM，輸出計數(shù)向量V。特征圖F和計數(shù)向量V都會被輸入到結(jié)合計數(shù)的注意力解碼器CCAD來產(chǎn)生最終的預(yù)測結(jié)果。

圖3 CAN模型整體框架

多尺度計數(shù)模塊：在人群計數(shù)等任務(wù)中，部分方法采用弱監(jiān)督的范式，在不需要使用人群位置標注的情況下預(yù)測人群密度圖。本文借鑒了這一做法，在只使用公式識別原始標注（即LaTeX序列）而不使用符號位置標注的情況下進行多類符號計數(shù)。針對符號計數(shù)任務(wù)，該計數(shù)模塊做了兩方面獨特的設(shè)計：1）用計數(shù)圖的通道數(shù)表征類別數(shù)，并在得到計數(shù)圖前使用Sigmoid激活函數(shù)將每個元素的值限制在(0,1)的范圍內(nèi)，這樣在對計數(shù)圖進行H和W維度上的加和后，可以直接表征各類符號的計數(shù)值。2）針對手寫數(shù)學公式符號大小多變的特點，采用多尺度的方式提取特征以提高符號計數(shù)準確率。

圖4 多尺度計數(shù)模塊MSCM

結(jié)合計數(shù)的注意力解碼器：為了加強模型對于空間位置的感知，使用位置編碼表征特征圖中不同空間位置。另外，不同于之前大部分公式識別方法只使用局部特征進行符號預(yù)測的做法，在進行符號類別預(yù)測時引入符號計數(shù)結(jié)果作為額外的全局信息來提升識別準確率。

圖5 結(jié)合計數(shù)的注意力解碼器CCAD

四、實驗結(jié)果

在廣泛使用的CROHME數(shù)據(jù)集以及新出現(xiàn)的HME100K[2]數(shù)據(jù)集上都進行了實驗并與之前的最優(yōu)方法做了比較。如表1和表2所示，可以看出CAN取得了目前最高的識別準確率。此外，使用經(jīng)典模型DWAP[3]作為baseline得到的CAN-DWAP以及使用之前最優(yōu)模型ABM[4]作為baseline得到的CAN-ABM，其結(jié)果都分別優(yōu)于對應(yīng)的baseline模型，這說明本文所提出的方法可以被應(yīng)用在目前大部分編碼器-解碼器結(jié)構(gòu)的公式識別模型上并提升它們的識別準確率。

表1 在CROHME數(shù)據(jù)集上的結(jié)果表2 在HME100K數(shù)據(jù)集上的結(jié)果? ?

圖6 在CROHME數(shù)據(jù)集上DWAP和CAN-DWAP的識別結(jié)果展示

對于模型各部分帶來的提升，本文做了消融實驗。如表3所示，加入位置編碼、將兩種任務(wù)聯(lián)合優(yōu)化以及融合符號計數(shù)結(jié)果進行預(yù)測都能提升模型對于手寫數(shù)學公式的識別準確率。此外，為了驗證采用多尺度的方式提取特征的有效性以及研究符號計數(shù)結(jié)果對于公式識別準確率的影響，本文做了實驗進行驗證。如表4所示，使用大小不同的卷積核提取多尺度特征有助于獲得更高的符號計數(shù)準確率。并且計數(shù)結(jié)果越準確，對公式識別的提升也越大。表5則展示了當使用符號計數(shù)的GT（Ground Truth）時對于模型識別準確率的提升。

表3 模型各部分帶來的提升

表4 計數(shù)模塊中卷積核大小的影響

表5 符號計數(shù)結(jié)果對公式識別準確率的影響?

符號計數(shù)對于公式識別有促進作用，那么反過來公式識別能否提升符號計數(shù)的準確率呢？本文對這一問題也做了探討，實驗結(jié)果和符號計數(shù)可視化結(jié)果如表6和圖7所示，可以看出公式識別任務(wù)也可以提升符號計數(shù)的準確率。本文認為這是因為公式識別的解碼過程提供了符號計數(shù)任務(wù)缺少的上下文語義信息。

表6 公式識別對符號計數(shù)準確率的影響

圖7 符號計數(shù)結(jié)果及計數(shù)圖可視化

五、文本結(jié)論

本文設(shè)計了一種新穎的多尺度計數(shù)模塊，該計數(shù)模塊能夠在只使用公式識別原始標注（即LaTeX序列）而不使用符號位置標注的情況下進行多類別符號計數(shù)。通過將該符號計數(shù)模塊插入到現(xiàn)有的基于注意力機制的編碼器-解碼器結(jié)構(gòu)的公式識別網(wǎng)絡(luò)中，能夠提升現(xiàn)有模型的公式識別準確率。此外，本文還驗證了公式識別任務(wù)也能通過聯(lián)合優(yōu)化來提升符號計數(shù)的準確率。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
44

文章
3552

瀏覽量
133784
模型

模型

+關(guān)注

關(guān)注
1

文章
3058

瀏覽量
48572
OCR

OCR

+關(guān)注

關(guān)注
0

文章
142

瀏覽量
16293

原文標題：ECCV 2022 | 白翔團隊提出CAN：手寫數(shù)學公式識別新算法

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

提供銀行卡識別API免費接入的OCR SDK開發(fā)者平臺

戶進行綁定銀行卡的操作，而這時能實現(xiàn)“拍照輸入銀行卡號”的云脈OCR銀行卡識別技術(shù)，就成了他們的香餑餑了。云脈銀行卡識別，它是利用OCR技術(shù)

發(fā)表于 09-16 17:35

首發(fā) | 告別手動錄入，開放平臺OCR上線印刷文字識別！

的就是印刷字體的轉(zhuǎn)化。二、印刷文字識別應(yīng)用廣泛正如文章開頭我們提到的，生活中有很多需要將印刷字體轉(zhuǎn)換為設(shè)備可編輯的文本場景。而作為OCR家族的重要成員，印刷文字識別在這時候就大有作為，

發(fā)表于 05-17 15:18

c#+halcon1.5 ocr字符識別

`一直以來halcon都是工業(yè)界高效穩(wěn)定準確的視覺算法庫的代表，其定位，檢測和識別算法都比較好，有很多學員不太了解其ocr字符

發(fā)表于 07-26 01:36

自編通用視覺框架實現(xiàn)基本算子以及OCR識別功能

進行算法添加，如下圖：利用左鍵以下拉列表的形式設(shè)置算法參數(shù)至表格中如下圖：然后將表格數(shù)據(jù)轉(zhuǎn)換視覺參數(shù)進行有序的步驟運行：OCR字符識別在上次的公眾文章中有進行講解，這里就不多說了，我們

發(fā)表于 08-16 17:56

Python OCR 識別庫-ddddocr

與易用，讓不會用 opencv, pytorch, tensorflow 的小伙伴也能快速的破解網(wǎng)站的登錄驗證碼。小伙伴們?nèi)绻衅渌玫?ocr 識別也可以在留言中分享出來。

發(fā)表于 03-30 17:26

【KV260視覺入門套件試用體驗】七、VITis AI字符和文本檢測（OCR&Textmountain）

_pt sample_ocr.jpg OCR 該網(wǎng)絡(luò)用于光學字符識別，包括文本檢測和文本識別

發(fā)表于 09-26 16:31

基于FPGA的OCR文字識別技術(shù)的深度解析

OCR在通用文字識別等場景下有廣泛應(yīng)用，基于FPGA異構(gòu)加速的OCR識別相比CPU/GPU實現(xiàn)具有延時小、成本低的優(yōu)勢。我們設(shè)計了多FPGA芯片協(xié)同的異構(gòu)加速架構(gòu)，

發(fā)表于 01-26 12:19 ?3950次閱讀