
簡介
指代性表達(Reference Expression,RE)是描述真實場景中一個明確的對象,是人類社會中一種重要的認知行為。人們在日常生活中為一個對象構想一個 RE,並根據一個 RE 來識別一個所指對象,它們分別被命名為指代性表達生成和理解。由於其廣闊的研究前景和實際應用,這兩項任務引起了自然語言處理、計算機視覺和人機交互領域的廣泛興趣。
指代性表達的生成(REG)和理解(REC)就像同一枚硬幣的兩側一樣相互依賴。例如,在構思明確的描述之前,人們需要根據腦海中的描述來正確定位對象。但是,之前的研究很少關註解決指代性表達生成和理解的統一建模問題,目前也還沒有針對指代性表達生成和理解的統一建模的圖像文本預訓練研究。
北京郵電大學、字節跳動人工智能實驗室以及蘇州大學的研究者提出了一個統一的 REG 和 REC 模型(UniRef)。它將這兩個任務通過精心設計的圖像-區域-文本融合層(Image-Region-Text Fusion layer,IRTF)統一起來,圖像-區域-文本融合層通過圖像互注意力與區域互注意力來融合圖像、區域與文本信息。此外,它可以為 REC 任務生成偽區域輸入,以便以統一的方式在 REC 和 REG 之間共享相同的表示空間。
本工作的研究員在三個基準數據集 RefCOCO、RefCOCO+ 和 RefCOCOg 上進行了廣泛的實驗。實驗結果表明,所提出的模型在 REG 和 REC 上都優於以前最先進的方法。

論文地址:

算法介紹
模型由一個視覺編碼器、一個語言編碼器和一個融合編碼器以及兩個任務相關的預測頭組成。

2.1 融合編碼器
融合編碼器通過用圖像-區域-文本融合層替換最後的 個 vanilla Transformer解碼器層來擴展 Transformer 解碼器,這些層旨在彌合指代性表達生成和理解之間的差距。其中圖像-區域-文本融合層通過添加圖像互注意力和區域互注意力擴展了 vanilla Transformer 編碼器層,並將圖像信息和區域信息與查詢進行融合。給定輸入,首先應用自注意力來獲得查詢,然後依次執行圖像互注意力和區域互注意力,最後被饋送到前饋網絡以獲得輸出隱藏狀態。
執行指代性表達理解時沒有區域輸入,為了使指代性表達理解的輸入與指代性表達生成相同,區域預測器用於生成區域預測來作為圖像互注意力的輸入。
2.2 預訓練目標
為了學習語言建模和視覺定位的能力,該工作的預訓練階段有兩個目標,分別對應於指代性表達生成和理解的視覺條件掩蔽語言建模和文本條件區域預測。
1. 視覺條件掩蔽語言建模(Vision-conditioned Masked Language Modeling,VMLM)。給定一個圖像-區域-文本三元組,首先屏蔽文本序列中 25% 的標記。該任務旨在根據可見文本、區域和圖像來預測看不見的標記。值得注意的是,視覺條件掩蔽語言建模類似於指代性表達生成,但解碼順序和注意掩碼有所不同。
2. 文本條件區域預測(Text-Conditioned Region Prediction,TRP)。給定一個圖像-文本對,文本條件區域預測的目標是預測文本描述的區域或對象的邊界框。損失是廣義交並集和距離的總和。在文本條件區域預測中,每個圖像-區域-文本融合層都會產生一個區域預測作為區域互注意力的輸入,監督信號來自預測和真實標註之間的圖像塊級二進制交叉熵。這兩個損失一起用於訓練文本條件區域預測。

實驗結果
該研究工作在三個基準數據集 RefCOCO、RefCOCO+ 和 RefCOCOg 進行了廣泛的實驗。實驗結果表明所提出的模型在指代性表達生成和理解上都優於以前最先進的方法。


▲ 指代性表達生成和理解的結果

▲消融實驗結果
消融實驗結果如上表所示,可以發現,ITRF 可以提升 REG 和 REC 的性能;在第 6 層中使用 IRTF 優於其他同行;VMLM 和 TRP 使預訓練受益;域內數據的預訓練顯着提高了 REC 的性能,但略微損害了 REG 的性能。

上圖可視化了 UniRef 如何利用 REG 中的圖像和區域信息。在自回歸生成過程中對互注意力圖進行可視化,包括圖像互注意和區域互注意,通過觀察案例發現了兩個現象:
1)圖像互注意可以關注圖像中與目標對象無法區分的其他對象,從而幫助模型生成更具區分性的描述。例如,在第一個實例中,羊的耳朵由圖像互注意處理,而耳朵不可見的羊由區域互注意處理,導致描述為「耳朵不可見的羊」。
2)通過關注與目標對象相關的對象,模型可以生成具有關係的描述,例如空間關係。在第二個例子中,模型通過它與不在綠框中的鳥之間的空間關係,明確地描述了綠框中的椅子。
上圖可視化了 UniRef 在 REC 中學習的能力,並給出了邊界框預測的示例。UniRef 能夠處理具有各種屬性的描述,例如比較關係(a)、屬性識別(b、c)、空間關係(j、k)和計數(d-f)。
但是 REC 中仍然存在挑戰。通過分析不良案例,可以總結出所提出的模型面臨的一些困難:1)短路徑。該模型正確地定位了植物(m),但未能定位到花盆(n)。它首先定位牆上的花朵,然後將這面牆視為花盆。說明模型並沒有真正理解什麼是花盆,而是通過花來學習短路徑;2)小物件。可以發現該模型對於小物體識別不是很好(i、r)。

參考文獻

[1] Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A. L., & Murphy, K. 2016. Generation and comprehension of unambiguous object descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition.
[2] Yan Zeng, Xinsong Zhang, and Hang Li. 2021. Multi-grained vision language pre-training: Aligning texts with visual concepts. In Proceedings of the International Conference on Machine Learning.
[3] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L. Berg. 2018. Mattnet: Modular attention network for referring expression comprehension. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
[4] Aishwarya Kamath, Mannat Singh, Yann LeCun, Ishan Misra, Gabriel Synnaeve, and Nicolas Carion. 2021. Mdetr–modulated detection for end-to-end multi-modal understanding. In Proceedings of the IEEE conference on international conference on computer vision.
[5] Jaemin Cho, Jie Lei, Hao Tan, and Mohit Bansal. 2021. Unifying vision-and-language tasks via text generation. 2021. In Proceedings of the International Conference on Machine Learning.
更多閱讀



#投 稿通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」