0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

引入Mask R-CNN思想通過語義分割進(jìn)行任意形狀文本檢測與識(shí)別

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-07 14:24 ? 次閱讀

引入Mask R-CNN思想通過語義分割進(jìn)行任意形狀文本檢測與識(shí)別。

華中科技大學(xué)白翔老師團(tuán)隊(duì)在自然場景文本檢測與識(shí)別領(lǐng)域成果頗豐,這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出,最近,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)主導(dǎo)了場景文本檢測和識(shí)別領(lǐng)域。在該文中,研究了場景“text spotting”的問題,其旨在自然圖像中同時(shí)進(jìn)行文本檢測和識(shí)別。

該文受到Mask R-CNN的啟發(fā)提出了一種用于場景text spotting的可端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型:Mask TextSpotter。與以前使用端到端可訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)完成text spotting的方法不同,Mask TextSpotter利用簡單且平滑的端到端學(xué)習(xí)過程,通過語義分割獲得精確的文本檢測和識(shí)別。此外,它在處理不規(guī)則形狀的文本實(shí)例(例如,彎曲文本)方面優(yōu)于之前的方法。

ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)庫上的實(shí)驗(yàn)表明,所提出的方法在場景文本檢測和端到端文本識(shí)別任務(wù)中都達(dá)到了state-of-the-art的水平。

彎曲形狀文本檢測與識(shí)別的例子:

左圖是水平text spotting方法的結(jié)果,它的檢測框是水平的;中間圖是具有方向的text spotting方法的結(jié)果,它的檢測框傾斜;右圖是該文提出的Mask TextSpotter算法的結(jié)果,它的檢測框不是外接矩形而是一個(gè)最小外接多邊形,對這種彎曲文本達(dá)到了更精確的文本檢測和識(shí)別。

網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN),文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN),文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN,文本實(shí)例分割與字符分割網(wǎng)絡(luò)mask branch。

▌?dòng)?xùn)練階段

RPN首先生成大量的文本候選區(qū)域,然后這些候選區(qū)域的RoI特征被送入Fast R-CNN branch和mask branch,由它們?nèi)シ謩e生成精確的文本候選包圍盒(text candidate boxes)、文本實(shí)例分割圖(text instance segmentation maps)、字符分割圖(character segmentation maps)。

尤其值得一提的是Mask Branch,如下圖:

它將輸入的RoI(固定大小16*64)經(jīng)過4層卷積層和1層反卷積層,生成38通道的圖(大小32*128),包括一個(gè)全局文本實(shí)例圖——它給出了文本區(qū)域的精確定位,無論文本排列的形狀如何它都能分割出來,還包括36個(gè)字符圖(對應(yīng)于字符0~9,A~Z),一個(gè)字符背景圖(排除字符后的的所有背景區(qū)域),在后處理階段字符背景圖會(huì)被用到。

這是一個(gè)多任務(wù)模型,其Loss組成:

▌推理階段

推理階段mask branch的輸入RoIs來自于Fast R-CNN的輸出。

推理的過程如下:首先輸入一幅測試圖像,通過Fast R-CNN獲取候選文本區(qū)域,然后通過NMS(非極大抑制)過濾掉冗余的候選區(qū)域,剩下的候選區(qū)域resize后送入mask branch,得到全局文本實(shí)例圖,和字符圖。通過計(jì)算全局文本實(shí)例圖的輪廓可以直接得到包圍文本的多邊形,通過在字符圖上使用提出的pixel voting方法生成字符序列。

如上圖所示,Pixel voting方法根據(jù)字符背景圖中每一個(gè)聯(lián)通區(qū)域,計(jì)算每一字符層相應(yīng)區(qū)域的平均字符概率,即得到了識(shí)別的結(jié)果。

為了在識(shí)別出來的字符序列中找到最佳匹配單詞,作者在編輯距離(Edit Distance)基礎(chǔ)上發(fā)明了加權(quán)編輯距離(Weighted Edit Distance)。

識(shí)別結(jié)果示例:

▌ICDAR2013的結(jié)果

該庫主要用來驗(yàn)證在水平文本上的識(shí)別效果。

▌ICDAR2015的結(jié)果

用來驗(yàn)證方向變化的文本的結(jié)果。

▌Total-Text結(jié)果

驗(yàn)證彎曲的文本檢測識(shí)別結(jié)果。

彎曲文本識(shí)別示例

▌速度

在Titan Xp顯卡上,720*1280的圖像,速度可以達(dá)到6.9FPS。

▌效果分析

作者通過進(jìn)一步的實(shí)驗(yàn)分析,發(fā)現(xiàn):如果去除字符圖子網(wǎng)絡(luò),只訓(xùn)練檢測模型,檢測的性能會(huì)下降,說明檢測可以受益于識(shí)別模塊。下圖中Ours(det only)為只有檢測的模型。

如果去除訓(xùn)練樣本中的真實(shí)世界字符標(biāo)注圖像,模型依然可以達(dá)到相當(dāng)競爭力的性能。下圖中Ours(a)即不使用真實(shí)世界字符標(biāo)注圖像的訓(xùn)練結(jié)果。

通過加權(quán)編輯距離(weighted edit distance)和原始編輯距離的比較,發(fā)現(xiàn),加權(quán)編輯距離可以明顯提高識(shí)別性能。下圖中Ours(b)為原始編輯距離的結(jié)果。

該文將Mask R-CNN語義分割的方法用于文本檢測與識(shí)別,取得了顯著的性能改進(jìn),并能成功應(yīng)對任意形狀的文本,其他語義分割方法是否也能拿來試一下呢?(該文目前還沒有開源代碼。)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100308
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    118

    瀏覽量

    17045

原文標(biāo)題:ECCV 2018 | 華科白翔老師團(tuán)隊(duì)ECCV2018 OCR論文:Mask TextSpotter

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    手把手教你使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割(含源碼)

    使用LabVIEW實(shí)現(xiàn)Mask R-CNN圖像實(shí)例分割
    的頭像 發(fā)表于 03-21 13:39 ?2118次閱讀
    手把手教你使用LabVIEW實(shí)現(xiàn)<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>圖像實(shí)例<b class='flag-5'>分割</b>(含源碼)

    介紹目標(biāo)檢測工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們在研究過程中所使用的先進(jìn)目標(biāo)檢測工具Faster R-CNN,包括它的構(gòu)造及實(shí)現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.8w次閱讀
    介紹目標(biāo)<b class='flag-5'>檢測</b>工具Faster <b class='flag-5'>R-CNN</b>,包括它的構(gòu)造及實(shí)現(xiàn)原理

    Mask R-CNN:自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖

    用深度學(xué)習(xí)模型——Mask R-CNN,自動(dòng)從視頻中制作目標(biāo)物體的GIF動(dòng)圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很簡單:對于每個(gè)目標(biāo)對象,F(xiàn)aster R-CNN都有兩個(gè)輸出,一是分類標(biāo)簽,二是候選窗口;為了分割目標(biāo)像素,我們可以在前兩個(gè)輸出的基礎(chǔ)上增加第三個(gè)輸出——指示對象在窗口中像素位置的二進(jìn)制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    手把手教你操作Faster R-CNNMask R-CNN

    R-CNN又承繼于R-CNN,因此,為了能讓大家更好的理解基于CNN的目標(biāo)檢測方法,我們從R-CNN開始切入,一直介紹到
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    FAIR何愷明、Ross等人最新提出實(shí)例分割的通用框架TensorMask

    然而,盡管目前性能最好的對象檢測器依賴于滑動(dòng)窗口預(yù)測來生成初始候選區(qū)域,但獲得更準(zhǔn)確的預(yù)測主要來自對這些候選區(qū)域進(jìn)行細(xì)化的階段,如 Faster R-CNNMask
    的頭像 發(fā)表于 04-08 12:00 ?1.2w次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時(shí)完成實(shí)例分割語義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個(gè)用于語義分割的分支。這一新架構(gòu)可以同時(shí)對圖像
    的頭像 發(fā)表于 04-22 11:46 ?2818次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時(shí)完成實(shí)例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    基于改進(jìn)Faster R-CNN的目標(biāo)檢測方法

    為提高小尺度行人檢測的準(zhǔn)確性,提出一種基于改進(jìn) Faster r-CNN的目標(biāo)檢測方法。通過引入基于雙線性插值的對齊池化層,避免感興趣區(qū)域池
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進(jìn)Faster <b class='flag-5'>R-CNN</b>的目標(biāo)<b class='flag-5'>檢測</b>方法

    一種基于Mask R-CNN的人臉檢測分割方法

    針對現(xiàn)有主流的人臉檢測算法不具備像素級分割,從而存在人臉特征具有噪聲及檢測精度不理想的問題提出了一種基于 Mask r-CNN的人臉
    發(fā)表于 04-01 10:42 ?5次下載
    一種基于<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>的人臉<b class='flag-5'>檢測</b>及<b class='flag-5'>分割</b>方法

    基于Mask R-CNN的遙感圖像處理技術(shù)綜述

    較為密集,且容易與港口混合。當(dāng)前對艦船檢測的輸岀結(jié)果主要是檢測框,缺少對艦船掩碼的輸岀,使得無法全面分析岀模型存在的不足;冋時(shí),由于遙感圖像中的艦船??棵芗?,容易產(chǎn)生漏檢問題。為解決上述問題,利用 Mask
    發(fā)表于 05-08 16:39 ?3次下載

    用于實(shí)例分割Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴(kuò)展了 Faster RCNN ,方法是在每個(gè)感興趣區(qū)域 (RoI) 上添加一個(gè)用于預(yù)測分割掩碼的分支,與用于分類和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2540次閱讀

    3D視覺技術(shù)內(nèi)容理解領(lǐng)域的研究進(jìn)展

    Mesh R-CNN 是一種新型的當(dāng)前最優(yōu)方法,可基于大量 2D 現(xiàn)實(shí)世界圖像預(yù)測出最準(zhǔn)確的 3D 形狀。該方法利用目標(biāo)實(shí)例分割任務(wù)的通用 Mask
    的頭像 發(fā)表于 04-27 14:34 ?1393次閱讀

    PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區(qū)域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8?;趨^(qū)域的 CNN (R-CNN)

    Studio 實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開筆記本 除了第 14.7 節(jié)中描述的單次多框檢測之外,基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN
    的頭像 發(fā)表于 06-05 15:44 ?584次閱讀
    PyTorch教程-14.8?;趨^(qū)域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?490次閱讀