CVer - CVPR 2022 | SwinTextSpotter：基於文本檢測與識別更好協同的場景文本識別－鑽石舞台

May 14 Sat 2022 00:30
CVer - CVPR 2022 | SwinTextSpotter：基於文本檢測與識別更好協同的場景文本識別

點擊下方卡片，關注「CVer」公眾號

AI/CV重磅乾貨，第一時間送達

轉載自：CSIG文檔圖像分析與識別專委會

本文簡要介紹CVPR 2022錄用的論文「SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition」的主要工作。該論文提出了一種基於Transformer的用於任意形狀端到端場景文字識別的方法，該方法提出了一種新的識別轉換機制，通過識別損失來明確地引導文本定位，讓檢測器和識別器更緊密的耦合在一起進行聯合優化。模型代碼已開源，下載地址見文末。

一、研究背景

場景文本端到端檢測識別定位旨在檢測和識別自然圖像中的整個單詞或句子，由於其在自動駕駛、智能導航和關鍵實體識別方面的廣泛應用，引起了人們的廣泛關注。近年來場景文本端到端檢測識別取得了很大的進展。但是這些方法仍然存在兩個主要的局限性。第一，同一張圖中不同的文本缺少交互，導致檢測器很容易被背景噪聲誤導，同一圖像中文本之間的交互作用是消除背景噪聲影響的關鍵因素，因為同一單詞的不同字符可能包含很強的相似性，如背景和文本風格等。第二，目前的方法中，通過共享主幹，檢測和識別之間的交互是不夠的，識別的信息不能回傳到檢測器，而識別器也沒有很有效地利用檢測特徵。

二、方法簡述

圖1 網絡整體框架。灰色箭頭表示從圖像中提取的特徵。綠色箭頭和橙色箭頭分別表示檢測階段和識別階段

圖1是文章提出的網絡的整體框架，包括4個部分：1. 主幹網絡；2. 檢測器；3. 識別轉換機制；4.識別器。

主幹網絡：以往的主幹網（例如ResNet）卷積核通常在固定大小下運行（例如3×3），這導致連接遠程功能的效率較低，並且圖片中文本之間和像素之間的相互建模欠缺。對於文本定位，建模不同文本之間的關係是至關重要的，因為來自同一圖像的場景文本具有很強的相似性，比如它們的背景和文本風格。而Transformer可以很好的學習到文本實例之間、像素之間豐富的交互。考慮到全局建模能力和計算效率，所以本文基於Swin-Transformer進一步提出了Dilated Swin-Transformer主幹網，如圖2所示。Dilated Swin-Transformer由兩個空洞卷積、一個普通卷積組成，它把卷積和Transofmer結合起來，將卷積的特性引入到Swin-Transformer中。

圖2本文提出的Dilated Swin-Transformer的詳細結構

檢測器：本文基於Sparse R-CNN[1]和ISTR[2]，使用了基於查詢的檢測方法來檢測文本。此方法將檢測視為一個集預測問題，並且通常都是多階段的，與以前的方法一樣該檢測器的設計為有六個查詢階段。使用了一組可學習的建議框，可以替代來自RPN的大量候選方案，一組可學習的建議特徵，表示對象的高級語義向量。使用具有動態磁頭的Transformer編碼器，後面的檢測階段可以訪問到存儲在可學習的建議特徵中的前階段檢測的信息。通過多個階段的細化，該檢測器可以應用於任何形狀大小的文本。

第k階段檢測器的體系結構如圖3所示。表示了k-1階段的建議特徵，在k階段，前一階段產生的建議特徵，被輸入一個多頭自注意模塊中來建模這些不同文本之間的關係，然後生成兩組卷積參數。前面各階段的檢測信息被嵌入到兩個卷積中。然後這兩個生成的卷積核，會用來作用於RoI特徵中，對RoI特徵進行編碼。RoI特徵是利用上一階段的檢測結果提取的。經過卷積作用後的輸出特徵被輸入到一個線性投影層，以產生下一階段的建議特徵。隨後被輸入預測頭以生成。當k=1時，是隨機初始化的參數，這是第一階段的輸入。在訓練過程中，通過反向傳播進行更新，這些參數會逐漸學習到文本高級語義特徵的歸納偏差。最後優化時使用匈牙利算法來對預測和GT來進行匹配，再進行優化。

圖3檢測器在第k個階段的說明

識別轉換機制：為了更好地協調檢測和識別，本文提出了一種識別轉換機制。結構如圖4所示。該識別轉換機制由Transformer編碼器和四種上採樣結構組成。它的輸入是檢測特徵和三個降採樣特徵{a1、a2、a3}。檢測特徵是由檢測器中最後一個階段的建議特徵和識別階段中最終的特徵圖a3在動態頭Transofmer編碼器中進行融合後得來的。該檢測特徵包含了前面所有檢測階段的信息。檢測特徵被發送到Transformer編碼器TrE()中使之前檢測階段的信息進一步與a3融合。然後通過一系列上採樣操作Eu()和Sigmoid函數φ()，生成文本區域的三個掩碼{M1、M2、M3}。具體如下公式所示：

利用掩碼{M1、M2、M3}和輸入特徵{a1、a2、a3}，我們進一步在下面的操作下有效地集成了這些特性。

r3是最後要送去識別器的特徵。通過這樣的設計，識別損失Lreg的梯度可以反向傳播到檢測特徵上，識別轉換機制能夠讓識別監督隱式地參與到檢測的任務中，並把識別的信息回傳到檢測器，使得檢測器的性能得到提升。由於標註的文本曲線是不夠緊密的，導致檢測器生成的掩膜也是不夠緊密的，使用識別的損失監督檢測的特徵進而生成的更適合於識別任務的掩膜，可以幫助識別器更容易集中於文本區域。

建議特徵通過檢測監督和識別監督的聯合優化，可以更好地對文本的高級語義信息進行編碼，從而提升整個網絡的性能。所提出的識別轉換機制極大的增加檢測和識別之間的協調和互動。

圖4識別轉換機制的模型結構

識別器：在經過了識別轉換機制以後，有效地抑制了背景噪聲，從而對文本區域進行更精確的邊界，這使得網絡可以僅僅使用一個簡單的識別網絡來獲得可靠的識別結果，而無需文本矯正模塊和額外的字符分割模塊。我們採用了兩級自注意機制[3]作為編碼器，而解碼器使用了MaskTextSpotter v2[4]中的SAM。

三、主要實驗結果及可視化效果

圖5 六個數據集上的可視化結果

圖6 與其他方法可視化對比

表1 在RoIC13上的端到端識別結果

表2 在IC15上的端到端識別結果

表3 在ReCTS上的端到端檢測識別結果

表4 在VinText上的端到端識別結果

表5 在TotalText上的端到端檢測識別結果

表6 在SCUT-CTW1500上的端到端檢測識別結果

表7 Total-Text上的消融實驗。使用預訓練的模型進行實驗

四、總結及討論

本文提出了一種基於Transformer的用於任意形狀端到端檢測識別的方法，該方法的核心思想是將識別信息回傳給檢測器，並且檢測器的信息也共享給識別器，因此它將檢測和識別緊密結合進行聯合優化，而不是只在主幹中共享信息。得益於這樣的設計，本文的方法可以在沒有矯正模塊和字符級分割模塊的情況下對彎曲文本也能保持很好的識別能力。實驗表明，該方法能夠在任意形狀文本和不同語言文本的場景文本端到端檢測識別上獲得優越的性能。

五、相關資源

論文地址：https://arxiv.org/abs/2203.10209

代碼地址: https://github.com/mxin262/SwinTextSpotter

參考文獻

[1]Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14454-14463..

[2]Hu J, Cao L, Lu Y, et al. Istr: End-to-end instance segmentation with transformers[J]. arXiv preprint arXiv:2105.00637, 2021.

[3]Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers[J]. arXiv preprint arXiv:2107.00641, 2021.

[4]Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 706-722.

原文作者:Mingxin Huang,Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,

Shenggao Zhu,Nicholas Yuan,Kai Ding,Lianwen Jin

撰稿：黃明鑫編排：高學

審校：連宙輝發布：金連文

ICCV和CVPR 2021論文和代碼下載

後台回覆：CVPR2021，即可下載CVPR 2021論文和代碼開源的論文合集

後台回覆：ICCV2021，即可下載ICCV2021論文和代碼開源的論文合集

後台回覆：Transformer綜述，即可下載最新的3篇Transformer綜述PDF

目標檢測和Transformer交流群成立

掃描下方二維碼，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申請加入CVer-目標檢測或者Transformer微信交流群。另外其他垂直方向已涵蓋：目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要備註：研究方向+地點+學校/公司+暱稱（如目標檢測或者Transformer+上海+上交+卡卡），根據格式備註，可更快被通過且邀請進群