點擊下方卡片,關注「CVer」公眾號
AI/CV重磅乾貨,第一時間送達
轉載自:CSIG文檔圖像分析與識別專委會
一、研究背景
二、方法簡述
圖1是文章提出的網絡的整體框架,包括4個部分:1. 主幹網絡;2. 檢測器;3. 識別轉換機制;4.識別器。
主幹網絡:以往的主幹網(例如ResNet)卷積核通常在固定大小下運行(例如3×3),這導致連接遠程功能的效率較低,並且圖片中文本之間和像素之間的相互建模欠缺。對於文本定位,建模不同文本之間的關係是至關重要的,因為來自同一圖像的場景文本具有很強的相似性,比如它們的背景和文本風格。而Transformer可以很好的學習到文本實例之間、像素之間豐富的交互。考慮到全局建模能力和計算效率,所以本文基於Swin-Transformer進一步提出了Dilated Swin-Transformer主幹網,如圖2所示。Dilated Swin-Transformer由兩個空洞卷積、一個普通卷積組成,它把卷積和Transofmer結合起來,將卷積的特性引入到Swin-Transformer中。
圖2本文提出的Dilated Swin-Transformer的詳細結構
檢測器:本文基於Sparse R-CNN[1]和ISTR[2],使用了基於查詢的檢測方法來檢測文本。此方法將檢測視為一個集預測問題,並且通常都是多階段的,與以前的方法一樣該檢測器的設計為有六個查詢階段。使用了一組可學習的建議框,可以替代來自RPN的大量候選方案,一組可學習的建議特徵,表示對象的高級語義向量。使用具有動態磁頭的Transformer編碼器,後面的檢測階段可以訪問到存儲在可學習的建議特徵中的前階段檢測的信息。通過多個階段的細化,該檢測器可以應用於任何形狀大小的文本。
第k階段檢測器的體系結構如圖3所示。表示了k-1階段的建議特徵,在k階段,前一階段產生的建議特徵
,被輸入一個多頭自注意模塊中來建模這些不同文本之間的關係,然後生成兩組卷積參數。前面各階段的檢測信息被嵌入到兩個卷積中。然後這兩個生成的卷積核,會用來作用於RoI特徵中 ,對RoI特徵進行編碼。RoI特徵是利用上一階段的檢測結果
提取的。經過卷積作用後的輸出特徵被輸入到一個線性投影層,以產生下一階段的建議特徵
。
隨後被輸入預測頭以生成
。當k=1時,
是隨機初始化的參數,這是第一階段的輸入。在訓練過程中,通過反向傳播進行更新,這些參數會逐漸學習到文本高級語義特徵的歸納偏差。最後優化時使用匈牙利算法來對預測和GT來進行匹配,再進行優化。

圖3檢測器在第k個階段的說明
識別轉換機制:為了更好地協調檢測和識別,本文提出了一種識別轉換機制。結構如圖4所示。該識別轉換機制由Transformer編碼器和四種上採樣結構組成。它的輸入是檢測特徵和三個降採樣特徵{a1、a2、a3}。檢測特徵
是由檢測器中最後一個階段的建議特徵
和識別階段中最終的特徵圖a3在動態頭Transofmer編碼器中進行融合後得來的。該檢測特徵
包含了前面所有檢測階段的信息。檢測特徵
被發送到Transformer編碼器TrE()中使之前檢測階段的信息進一步與a3融合。然後通過一系列上採樣操作Eu()和Sigmoid函數φ(),生成文本區域的三個掩碼{M1、M2、M3}。具體如下公式所示:

利用掩碼{M1、M2、M3}和輸入特徵{a1、a2、a3},我們進一步在下面的操作下有效地集成了這些特性。

r3是最後要送去識別器的特徵。通過這樣的設計,識別損失Lreg的梯度可以反向傳播到檢測特徵上,識別轉換機制能夠讓識別監督隱式地參與到檢測的任務中,並把識別的信息回傳到檢測器,使得檢測器的性能得到提升。由於標註的文本曲線是不夠緊密的,導致檢測器生成的掩膜也是不夠緊密的,使用識別的損失監督檢測的特徵進而生成的更適合於識別任務的掩膜,可以幫助識別器更容易集中於文本區域。
建議特徵通過檢測監督和識別監督的聯合優化,可以更好地對文本的高級語義信息進行編碼,從而提升整個網絡的性能。所提出的識別轉換機制極大的增加檢測和識別之間的協調和互動。

圖4識別轉換機制的模型結構
三、主要實驗結果及可視化效果
圖5 六個數據集上的可視化結果
圖6 與其他方法可視化對比







四、總結及討論
五、相關資源
論文地址:https://arxiv.org/abs/2203.10209
代碼地址: https://github.com/mxin262/SwinTextSpotter
參考文獻
[1]Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14454-14463..
[2]Hu J, Cao L, Lu Y, et al. Istr: End-to-end instance segmentation with transformers[J]. arXiv preprint arXiv:2105.00637, 2021.
[3]Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers[J]. arXiv preprint arXiv:2107.00641, 2021.
[4]Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//European Conference on Computer Vision. Springer, Cham, 2020: 706-722.
原文作者:Mingxin Huang,Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,
Shenggao Zhu,Nicholas Yuan,Kai Ding,Lianwen Jin
撰稿:黃明鑫編排:高學
ICCV和CVPR 2021論文和代碼下載
後台回覆:CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
後台回覆:ICCV2021,即可下載ICCV2021論文和代碼開源的論文合集
後台回覆:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立
掃描下方二維碼,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申請加入CVer-目標檢測或者Transformer微信交流群。另外其他垂直方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要備註:研究方向+地點+學校/公司+暱稱(如目標檢測或者Transformer+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲掃碼或加微信: CVer6666,進交流群
CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源項目、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已匯集數千人!
▲掃碼進群
▲點擊上方卡片,關注CVer公眾號
整理不易,請點讚和在看