微軟研究院AI頭條 - 文檔智能多模態預訓練模型LayoutLMv3：兼具通用性與優越性－鑽石舞台

（本文閱讀時間：14分鐘）

編者按：企業數字化轉型中，以文檔、圖像等多模態形式為載體的結構化分析和內容提取是其中的關鍵一環，快速、自動、精準地處理包括合同、票據、報告等信息，對提升現代企業生產效率至關重要。因此，文檔智能技術應運而生。過去幾年，微軟亞洲研究院推出了通用文檔理解預訓練 LayoutLM 系列研究成果，並不斷優化模型對文檔中文本、布局和視覺信息的預訓練性能。近期發表的最新的 LayoutLM 3.0 版本，在以文本和圖像為中心的任務上有了更加出色的表現，讓文檔理解模型向跨模態對齊邁出一大步！

隨着各行各業的數字化轉型，涵蓋表單、票據、郵件、合同、報告、論文等的電子文檔數量持續增長。電子文檔包含大量與行業相關的圖像和文本信息，人工處理這些大量的信息耗時長、成本大。電子文檔的自動識別、理解和分析技術對提高個人或企業的生產力十分重要，因此文檔智能技術應運而生。文檔智能利用計算機自動識別、理解及分析電子文檔，大大提升了個人和企業處理電子文檔的生產力，是自然語言處理和計算機視覺交叉領域的一個重要研究方向。

圖1：文檔智能任務示例：表單理解、文檔布局分析

雖然為特定任務設計的深度學習方法針對某一項文檔理解任務能取得較好的性能，但這些方法通常依賴於有限的標註數據，而對於文檔理解任務尤其是其中的信息抽取任務來說，獲取詳細的標註數據昂貴且耗時。為此，微軟亞洲研究院的研究人員將目光轉向了那些被忽視的無標註數據上，通過自監督預訓練技術來利用現實生活中大量的無標註數據。由於近年來預訓練在深度學習領域被廣泛應用，所以該技術在文檔智能領域也取得了顯著進展。經過預訓練的文檔智能模型可以解析並提取文檔的各類信息，這對文檔智能的學術研究和生產應用都有重要意義。

LayoutLMv3：距離文檔理解跨模態對齊又進一步

現實生活中的文檔不僅有大量的文本信息，同時也包含豐富的布局和視覺信息，並且這三種模態在文檔中有天然的對齊特性。如何對這些文檔進行建模並且通過訓練達到跨模態對齊是一個重要的研究課題。對此，微軟亞洲研究院在文檔智能領域進行了諸多探索，推出了通用文檔理解預訓練LayoutLM 系列研究成果。這些成果不僅在學術界受到了廣泛關注和認可，在工業界也得到了廣泛應用，如微軟 Azure 認知服務中的表單識別器（Form Recognizer）等。

LayoutLM——通過將文本和布局進行聯合預訓練，在多種文檔理解任務上取得了顯著提升。

LayoutLMv2——通過將視覺特徵信息融入到預訓練過程中，大大提高了模型的圖像理解能力。

LayoutXLM——基於 LayoutLMv2 的模型結構，通過使用53種語言進行預訓練，拓展了 LayoutLM 的多語言支持。

如今，微軟亞洲研究院又提出了新一代的文檔理解預訓練模型 LayoutLMv3，通過簡單的模型架構和統一的預訓練目標，大大簡化了模型設計，增強了下游任務的易用性。研究員們分別在5000萬張中文和1100萬張英文文檔圖像上預訓練了 LayoutLMv3 模型，以滿足廣大中英文用戶的需求。LayoutLMv3 在以文本為中心的任務中（如表單理解、小票理解和文檔視覺問答）和在以圖像為中心的任務中（如文檔圖像分類和文檔布局分析）均有出色表現。

相關論文被計算機多媒體領域頂會 ACM Multimedia 2022 接收為 Oral Presentation（口頭報告論文），代碼及模型均已開源。（論文及代碼鏈接，請見文末）

LayoutLMv3 以統一的文本和圖像掩碼建模目標來預訓練多模態模型

自監督學習利用大量無標註數據，在表徵學習中取得了快速進展。在自然語言處理研究中，BERT 首先提出了「掩碼語言建模」（Masked Language Modeling, MLM）的自監督預訓練方法，通過隨機遮蓋文本中一定比例的單詞，並根據上下文重建被遮蓋的單詞來學習具有上下文語義的表徵。雖然大多數用於文檔智能的多模態預訓練模型在語言模態上使用了 MLM，但它們在圖像模態的預訓練目標有所不同。例如，有的模型目標是重建密集的圖像像素或是重建連續的局部區域特徵，這些方法傾向於學習嘈雜的細節，而不是高層結構（如文檔布局）。並且，圖像和文本目標的粒度不同進一步增加了跨模態對齊學習的難度，而跨模態對齊學習對多模態表示學習非常關鍵。

為了克服文本和圖像在預訓練目標上的差異，促進多模態表徵學習，微軟亞洲研究院的研究員們提出了 LayoutLMv3，以統一的文本和圖像掩碼建模目標來預訓練多模態模型，即 LayoutLMv3 學習重建語言模態的遮蓋詞 ID，並對稱地重建圖像模態的遮蓋圖像塊ID。

圖2：關於圖像表示方式和預訓練目標的比較

此外，對於文檔來說，每個文本詞都對應着一個圖像塊。為了學習這種跨模態的對齊關係，研究員們還提出了一個詞塊對齊預訓練目標，通過預測一個文本詞的對應圖像塊是否被遮蓋，來學習這種語言——圖像細粒度對齊關係。

LayoutLMv3 模型架構：直接利用文檔圖像的圖像塊，節省參數並避免區域標註

在模型架構設計上，LayoutLMv3 不依賴複雜的 CNN 或 Faster R-CNN 網絡來表徵圖像，而是直接利用文檔圖像的圖像塊，從而大大節省了參數並避免了複雜的文檔預處理（如人工標註目標區域框和文檔目標檢測）。簡單的統一架構和訓練目標使LayoutLMv3成為通用的預訓練模型，可適用於以文本為中心和以圖像為中心的文檔AI任務。

圖3：LayoutLMv3 的架構和預訓練目標

微軟亞洲研究院在五個數據集中評估了預訓練的 LayoutLMv3 模型，包括以文本為中心的數據集：表單理解 FUNSD 數據集，票據理解 CORD 數據集，文檔視覺問答 DocVQA 數據集；以及以圖像為中心的數據集：文檔圖像分類 RVL-CDIP 數據集，文檔布局分析 PubLayNet 數據集。實驗結果表明，LayoutLMv3 在這些數據集上以更少的參數達到了更優的性能。

LayoutLMv3 還應用了文本——圖像多模態 Transformer 架構來學習跨模態表徵。文本向量由詞向量、詞的一維位置向量和二維位置向量相加得到。文檔圖像的文本和其相應的二維位置信息（布局信息）則利用光學字符識別（OCR）工具抽取。因為文本的鄰接詞通常表達了相似的語義，LayoutLMv3 共享了鄰接詞的二維位置向量，而 LayoutLM 和 LayoutLMv2 的每個詞則用了不同的二維位置向量。

圖像向量的表示通常依賴於 CNN 抽取特徵圖網格特徵或 Faster R-CNN 提取區域特徵，這些方式增加了計算開銷或依賴於區域標註。因此，研究員們將圖像塊經過線性映射獲得圖像特徵，這種圖像表示方式最早在 ViT 中被提出，計算開銷極小且不依賴於區域標註，有效解決了以上問題。具體來說，首先將圖像縮放為統一的大小（例如224x224），然後將圖像切分成固定大小的塊（例如16x16），並通過線性映射獲得圖像特徵序列，再加上可學習的一維位置向量後得到圖像向量。

LayoutLMv3 通過三個預訓練目標以自監督的方式學習多模態表示

掩碼語言建模（Masked Language Modeling, MLM）。為了利於模型學習布局信息與文本和圖像之間的對應關係，該任務隨機遮蓋30%的文本詞向量，但保留對應的二維位置（布局）信息。類似 BERT 和 LayoutLM，模型目標是根據未被遮蓋的圖文和布局信息還原文本中被遮蓋的詞。

掩碼圖像建模（Masked Image Modeling, MIM）。為了鼓勵模型從文本和圖像的上下文信息推測圖像信息，該任務隨機遮蓋了約40%的圖像塊。類似 BEiT，模型目標是根據未被遮蓋的文本和圖像的信息還原被遮蓋的圖像塊經過離散化的 ID。

詞塊對齊（Word-Patch Alignment, WPA）。對於文檔來說，每個文本詞都對應着一個圖像塊。由於前兩個任務隨機遮蓋了部分文本詞和圖像塊，模型無法顯式地學習這種文本詞和圖像塊之間的細粒度對齊關係。該目標通過顯式地預測一個文本詞的對應圖像塊是否被掩蓋來學習語言和視覺模態之間的細粒度對齊關係。

實驗及結果

為了學習各種文檔任務的通用表示，LayoutLMv3 的預訓練數據集是 IIT-CDIP，包含大約1100萬張掃描文檔圖像。微軟亞洲研究院訓練了 BASE、LARGE 兩種規模的模型，參數量分別是133M、368M。

1.微調多模態任務：遠超 SOTA

研究員們在四個多模態任務上對 LayoutLMv3 進行了微調：

（1）表單理解任務對表單的文本內容進行序列標註。FUNSD 是一個文檔掃描表單理解數據集，包含199個文檔，有9,707個語義實體的標註。FUNSD 數據集的語義實體標籤任務旨在為每個語義實體分類為「問題」、「答案」、「標題」或「其他」中的一個。

（2）票據理解任務需要提取票據信息，對每個詞進行語義標籤分類。該任務的數據集是 CORD，它包含1,000張收據，在4個類別下定義了30個語義標籤。

（3）文檔圖像分類任務的目的是預測文檔圖像的類別。該任務在 RVL-CDIP 數據集上進行。RVL-CDIP 數據集包含400,000張文檔圖像，標有16個類別。

（4）文檔視覺問答任務需要模型將文檔圖像和問題作為輸入，並輸出一個答案。該任務在DocVQA數據集上進行。DocVQA 的訓練集包含約一萬張圖片和四萬個問題。

在這些任務上，LayoutLMv3 取得了比以前的工作更好或相當的結果。例如，對於LARGE模型規模，LayoutLMv3 在 FUNSD 數據集上取得了92.08的 F1 分數，大大超過了此前 LARGE 規模的 SOTA 結果（85.14）。

表1：LayoutLMv3 和已有工作在 CORD、FUNSD、RVL-CDIP、DocVQA 數據集上的實驗結果對比

2.微調視覺任務：所有指標優於其他模型

為了證明多模態預訓練模型 LayoutLMv3 在視覺領域應用的通用性，研究員們將 LayoutLMv3 應用於了文檔布局分析任務。文檔布局分析任務旨在為文檔的不同布局元素檢測二維位置和類別。這項任務有助於將文檔解析成機器可讀的格式，供下游應用程序使用。研究員們將這項任務建模為目標檢測問題，以 LayoutLMv3 為特徵提取網絡，將不同層提取的特徵整合到目標檢測器中。研究員們在 PubLayNet 數據集上進行了實驗。該數據集包含三十多萬張研究論文圖像，每張圖像都有布局邊界框的位置和類別標註，類別涵蓋文本、標題、列表、圖和表。與卷積神經網絡模型和同期的視覺 Transformer 預訓練模型相比，LayoutLMv3 在所有指標上都優於其他模型。

表2：LayoutLMv3 和已有工作在 PubLayNet 數據集關於文檔布局分析任務的實驗結果對比

3.消融實驗：有力證明了 LayoutLMv3 適合以圖像為中心的文檔分析任務

為了研究 LayoutLMv3 的圖像表示方法和預訓練目標的效果，研究員們在四個典型的數據集上進行了消融實驗。基礎模型只使用文本和布局信息，用 MLM 目標進行預訓練。接着，研究員們依次為基礎模型增加圖像表示，MIM 和 WPA 預訓練目標。

通過表格中的結果，可觀察到，基礎模型沒有圖像表示，不能進行以圖像為中心的文檔分析任務。LayoutLMv3 採用圖像塊的線性映射作為圖像表示，設計簡單，只引入了0.6M的參數。這種圖像表示通過與 MIM 預訓練目標結合，不僅能支持以圖像為中心的任務，還能提升以文本為中心的任務的表現。結合 WPA 預訓練目標又進一步提升了所有下游任務的性能，證實了 WPA 在跨模態表示學習和圖像表示學習中的有效性，強調了視覺和語言跨模態對齊學習的重要性。此外，研究員們還發現 MIM 可以幫助規範化訓練，對於 PubLayNet 上的文檔布局分析等視覺任務的模型收斂至關重要。

表3：關於圖像表徵和預訓練目標的消融實驗結果對比

LayoutLMv3用於中文文檔理解也有出色表現

以上描述的 LayoutLMv3 模型的預訓練數據均為英語，可在英語的下游任務數據集上微調。為了滿足廣大中文用戶的需求，研究員們還訓練了中文的 LayoutLMv3 模型，可用於中文任務。

研究員們通過大規模數據抓取獲得了海量的數字文檔，並用自動化語言檢測工具篩選出了5000萬張中文文檔圖像用於預訓練。研究員們在一個中文視覺信息抽取任務上驗證了模型的效果。由表4可見，LayoutLMv3 在所有類別平均分數上取得了99.21的高分，顯著超過了其他模型，驗證了 LayoutLMv3 中文模型的有效性。

表4：LayoutLMv3 和已有工作在 EPHOIE 中文數據集關於視覺信息抽取任務的實驗結果對比

大量的實驗結果都證明了 LayoutLMv3 的通用性和優越性，它不僅適用於以文本為中心和以圖像為中心的文檔智能任務，還可以以更少的參數獲得更好或相當的性能。未來，微軟亞洲研究院將探索擴大預訓練模型的規模，使模型能夠利用更多的訓練數據來進一步推動結果；同時擴展模型的少樣本學習能力，從而促進模型在文檔智能行業中更多業務場景下的應用。

LayoutLMv3 論文鏈接：

https://arxiv.org/pdf/2204.08387.pdf

LayoutLMv3 代碼鏈接：

https://aka.ms/layoutlmv3

你也許還想看：