PaperWeekly - ACL 2022 | 給注意力升升溫，模型摘要的有效蒸餾－鑽石舞台

©PaperWeekly 原創 · 作者 |werge

研究方向 |自然語言處理

OverView

生成式文本摘要主要依賴於大規模預訓練的 sequence-to-sequence Transformer 模型，為了減少其計算開銷，一般使用蒸餾中的偽標記方法。本文中，作者討論了偽標記方法在獲取生成式摘要上存在的問題，並展示了僅僅通過調整注意力溫度（Attention temperature）即可提升學生模型生成摘要的能力。

論文標題：

Attention Temperature Matters in Abstractive Summarization Distillation

收錄會議：

ACL 2022

論文鏈接：

https://arxiv.org/abs/2106.03441

Method

自動文本摘要是將長文檔改寫為較短的形式，同時仍然保留其最重要的內容，一般分為抽取式摘要和生成式摘要，前者直接從文本中抽取主題句形成摘要，而後者生成新的句子來概括文本。由於生成式摘要一般比抽取式摘要效果更好，所以本文主要研究生成式摘要的問題。

生成式摘要問題可以視為一個序列到序列（Seq2Seq）問題，一般依賴於大規模預訓練模型。但是由於其推理速度較慢，很難實際部署，所以一般採用知識蒸餾方法將大模型的知識傳遞給小模型，從而在保持表現相當的情況下提升速度。在 Seq2Seq 模型的蒸餾中，一般採取 pseudo-labling（偽標記[1]）方法：也即先向教師模型輸入所有訓練集樣本，並讓教師模型生成 pseudo-summary（偽摘要），並將其與訓練集中原有的 summary 一起用於訓練學生模型。

在原有訓練模型生成文本摘要時，其目標函數為最大化 log-likelihood：

其中，

分別表示原文檔和生成的摘要。而偽摘要法只需加上如下的目標函數即可：

在本文中，作者提出，Seq2Seq 教師模型的注意力分布過於 sharp，導致其生成的偽摘要並不是最優的，從而進一步導致了學生模型表現不好。作者觀察到，教師模型生成的偽摘要從原文檔中複製的連續文本跨度比 reference summary（參考摘要）更多，並且更加傾向於總結文檔的開頭部分。

如下圖所示，作者對模型中的 cross-attention 進行了可視化。容易看出，attention weights 形成了三條比較明顯的線，這說明每當 decoder 預測下一個詞的時候，模型的 attention 剛好指向文檔中的下一個詞，這可能就是導致偽摘要中有很多複製的連續文本的原因；同時，作者發現所有的值較大的 attention weights 都集中在輸入文檔的前 200 個詞，這便是導致摘要傾向於文檔開頭部分的原因。

注意力機制是 Transformer 模型的核心部分：

其中，均為每層 hidden states 的線性投影，則是該注意力模塊的溫度，一般為，其中為一個注意力頭的隱藏層維度。作者認為，導致注意力分布過於 sharp 的原因就是該溫度較低。如果將該溫度變高，可以將分布變得更加 smooth，從而緩解這一問題。所以，作者提出了 PLATE 方法（Pseudo-labeling with Larger Attention TEmperature），在教師模型生成偽摘要時，設，然後再訓練學生模型，但不改變學生模型的 attention temperature。

Experiments

作者選取了 CNN/DailyMail[2]，XSum[3]，New York Times[4]三個數據集進行實驗，實驗結果如下圖所示：

上圖的第一大塊中，作者對比了不同的大規模預訓練模型，最終採用了自己 finetune 的 BART 模型做為教師模型生成偽摘要；第二大塊中，作者選取了 [5] 中採用不同方法得到的學生模型表現進行了對比，其中在 CNNDM 上為 BART 結構，在 XSum 上為 BART 結構（結構表示沿用了 BART 的結構，只是把 decoder 的層數從層降到了層）。

第三、四兩塊中，作者對比了自己蒸餾得到的兩種結構學生模型的表現，每個模型的表示直接根據訓練集中的 reference 採用 finetune 得到的模型，表示採用了一般的 pseudo-labeling 方法得到的模型，也即沒有改變注意力溫度；分別為採取不同係數增大注意力溫度得到的模型，則是採用了針對每一個文檔都隨機選取一個值訓練得到的模型。

從圖中可以觀察到，提高了 attention temperature 後，得到的模型在三個數據集上的表現均超過了改變前的模型，甚至部分表現都超過了教師模型。

第五塊中，作者採用了 self-distillation，也即教師模型和學生模型採用了相同的結構。作者發現，本文的方法在多個方面提升了模型性能。第六塊中，作者還在 Transformer 上應用了提出的方法，同樣觀察到了性能提升。

在 Transformer 結構中，注意力機制主要包括 encoder 自注意力、decoder 自注意力以及 decoder 交叉注意力三種，作者在此基礎上進行了消融實驗：分別將這三部分注意力的溫度改為原來的大小（也即），並觀察學生模型在 CNNDM 驗證集上的結果，如下圖所示。發現 decoder cross attention 對模型影響最大，這與預期相同，因為其直接影響到選擇摘要的過程。

如下圖所示，作者還從模型摘要的長度和 novel n-grams 進行了探究。novel n-grmas 是指在摘要中出現，但未在原文檔中出現的 n-gram。摘要長度越短，novel n-grams 越多，說明模型生成的摘要越 concise 且 abstractive，再結合之前的 Rouge 分數，說明模型生成摘要的質量越高。如下圖所示可以發現，通過提高的值，可以有效提升教師模型生成摘要的能力，從而進一步提升學生模型的能力。

除此之外，根據[6]的結論，當模型具有高預測熵時，摘要模型更加傾向於生成而不是複製；且模型的高預測熵與高注意力熵是緊密關聯的。本文中，作者通過提高平滑了注意力分布，從而提高了注意力熵，所以生成能力有所提高，這與[6]的結論是不謀而合的。

Conclusion

在本文中，作者提出了一種簡單但有效的 pseudo-labeling distillation 方法的 PLATE 擴展，用於摘要蒸餾。在三個數據集上的實驗表明，該方法可以有效提高教師模型生成摘要的能力，進一步也使學生模型產生的摘要更加簡潔和抽象。

參考文獻

[1] Yoon Kim and Alexander M. Rush. 2016. Sequencelevel knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327, Austin, Texas. Association for Computational Linguistics.

[2] Karl Moritz Hermann, Tomás Kocisky, Edward Grefen- ` stette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In NIPS.

[3] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. 2018. Don’t give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium. Association for Computational Linguistics.

[4] Evan Sandhaus. 2008. The new york times annotated corpus. Linguistic Data Consortium, Philadelphia, 6(12):e26752.

[5] Sam Shleifer and Alexander M Rush. 2020. Pretrained summarization distillation. arXiv preprint arXiv:2010.13002.

[6] Jiacheng Xu, Shrey Desai, and Greg Durrett. 2020b. Understanding neural abstractive summarization models via uncertainty. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6275–6281, Online. Association for Computational Linguistics.

更多閱讀