

多任務學習:使用 adapter 也可以用比較少量的參數學習多個任務,和傳統的多任務學習相比,好處是不同任務之間影響較少,壞處是不同任務帶來的相互的監督可能會變少。
https://adapterhub.ml/
Bottleneck Adapter
權重初始化的分布標準差小於 0.01 的時候效果比較好,標準差過大會讓效果變差。
對Adapter結構或訓練/推理流程的改進
Compacter [5]:能否將 adapter 層做得更加輕量化,同時不降低性能?
3.1 AdapterFusion
第二步:把第一步的所有 adapter 組裝到一起(只針對 ST-A,MT-A 已經組裝好),然後加入 AdapterFusion 層,再在目標任務上訓練。數據集用第一步中使用過的相同的版本。作者也實驗了在第二步使用 MT-A,作為對照。
AdapterFusion 提升比較明顯的任務,每一層的 AdapterFusion 層會更傾向於 attend 到其他任務的 adapter。
3.2 AdapterDrop
剪掉每層中對輸出貢獻較小的 adapter。作者用訓練集測量了每個 adapter 的平均激活水平(應該是加權之後的輸出),每層只保留兩個貢獻最高的 adapter,模型的性能和原來基本持平,推理速度可以提高 68%。
3.3 Compacter
假設模型 hidden state 大小是 k,bottleneck 大小是 b,[1]中的 adapter 層就包含兩個 kxb 的矩陣。Compacter首先借用了 parameterized hypercomplex multiplication layers 的理念,把每個 adapter 的參數表達成一個 nxn 的矩陣 A 和一個 (k/n)x(d/n) 的矩陣 B 的 Kronecker 積,這樣參數量就被大大縮減了。
在此之上,要求所有 adapter 共享矩陣 A。
另外,把矩陣 B 再次分解成 n 組兩個低秩矩陣的積,兩個矩陣的大小分別是 (k/n)xr 和 rx(d/n)。為了減少參數量,作者把 r 固定為 1。
和全模型微調相比,Compacter 在訓練集較小(0.1k-4k)的時候表現要更好。
Adapter的應用和針對應用的改進
4.1 Bapna & Firat(2019)
多語種 NMT:作者首先訓練了一個英語 <=>102 種其他語言的模型,然後凍結參數,再針對每組(源語言,目標語言)的組合分別插入一個 adapter 進行微調。主要比較的基線方法是只用(源語言,目標語言)的數據訓練的模型。結果顯示英語是源語言時,大部分目標語言的表現相比基線都持平或有所提升;但是英語是目標語言時,主要在訓練數據較少的語言上有較大提升,在訓練數據比較多的語言上效果有所下降。
4.2 K-Adapter
模型結構:K-Adapter 不再改動原有的 transformer 層,而是變成在兩個 transformer 層之間插入 adapter 層。每個 adapter 層內,在向下和向上 project 的全連接層之間加入了兩層 transformer 層(下圖左),增加了模塊的表達能力。每個 adapter 層的輸入可以看到上一個 adapter 和鄰近的上一個 transformer 層的輸出(下圖右)。
▲K-Adapter的結構(左)和訓練方式(右)
語言學類知識:在依存關係分類任務上訓練,作者用斯坦福的 parser 準備了共約 1M 個訓練樣本。通過學習預測每個 token 對應的 head 的位置,模型可以學到一些和句法/語義相關的知識。
基線模型除了之前效果比較好的語言模型 + 知識的模型外,還有原 RoBERTa 模型、原 RoBERTa 模型 + 隨機初始化的 adapter 參數、原 RoBERTa 模型進一步在兩個任務上多任務學習得到的模型。實驗結果發現同時使用兩個 adapter 時可以獲得最好的效果。對後兩個下游任務來說事實性知識幫助更大,對第一個任務語言學類的知識幫助更大。
4.3 MAD-X
▲MAD-X中三類adapter的放置方式(左)和invertible adapter的結構(右)
4.4 其他應用
Lauscher et al.(2020)[12]:和 [8]類似,使用 adapter 模塊化地引入知識。
類似Adapter的結構
BERT and PAL [13]
Prefix Tuning [14]
LoRA [15]
▲三種 adapter 類的結構(adapter,prefix tuning,LoRA),圖片來自 [16]。

參考文獻

[1] Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., Laroussilhe, Q. D., Gesmundo, A., Attariyan, M., & Gelly, S. (2019). Parameter-Efficient Transfer Learning for NLP.Proceedings of the 36th International Conference on Machine Learning, 2790–2799.https://proceedings.mlr.press/v97/houlsby19a.html
[2] Rebuffi, S. A., Bilen, H., & Vedaldi, A. (2017). Learning multiple visual domains with residual adapters.Advances in neural information processing systems,30.https://proceedings.neurips.cc/paper/2017/file/e7b24b112a44fdd9ee93bdf998c6ca0e-Paper.pdf
[3] Pfeiffer, J., Kamath, A., Rücklé, A., Cho, K., & Gurevych, I. (2021). AdapterFusion: Non-Destructive Task Composition for Transfer Learning.Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 487–503.https://doi.org/10.18653/v1/2021.eacl-main.39
[4] Rücklé, A., Geigle, G., Glockner, M., Beck, T., Pfeiffer, J., Reimers, N., & Gurevych, I. (2021). AdapterDrop: On the Efficiency of Adapters in Transformers.Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 7930–7946.https://doi.org/10.18653/v1/2021.emnlp-main.626
[5] Karimi Mahabadi, R., Henderson, J., & Ruder, S. (2021). Compacter: Efficient Low-Rank Hypercomplex Adapter Layers.Advances in Neural Information Processing Systems,34, 1022–1035.https://proceedings.neurips.cc/paper/2021/hash/081be9fdff07f3bc808f935906ef70c0-Abstract.html
[6] Bapna, A., & Firat, O. (2019). Simple, Scalable Adaptation for Neural Machine Translation.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1538–1548.https://doi.org/10.18653/v1/D19-1165[7] Vilar, D. (2018). Learning Hidden Unit Contribution for Adapting Neural Machine Translation Models.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 500–505.https://doi.org/10.18653/v1/N18-2080
[8] Wang, R., Tang, D., Duan, N., Wei, Z., Huang, X., Ji, J., Cao, G., Jiang, D., & Zhou, M. (2021). K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters.Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 1405–1418.https://doi.org/10.18653/v1/2021.findings-acl.121
[9] Pfeiffer, J., Vulić, I., Gurevych, I., & Ruder, S. (2020).MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer(arXiv:2005.00052). arXiv.http://arxiv.org/abs/2005.00052
[10] Üstün, A., Bisazza, A., Bouma, G., & van Noord, G. (2020). UDapter: Language Adaptation for Truly Universal Dependency Parsing.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2302–2315.https://doi.org/10.18653/v1/2020.emnlp-main.180
[11] Philip, J., Berard, A., Gallé, M., & Besacier, L. (2020). Monolingual Adapters for Zero-Shot Neural Machine Translation.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4465–4470.https://doi.org/10.18653/v1/2020.emnlp-main.361
[12] Lauscher, A., Majewska, O., Ribeiro, L. F. R., Gurevych, I., Rozanov, N., & Glavaš, G. (2020). Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers.Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, 43–49.https://doi.org/10.18653/v1/2020.deelio-1.5
[13] Stickland, A. C., & Murray, I. (2019). BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning.Proceedings of the 36th International Conference on Machine Learning, 5986–5995.https://proceedings.mlr.press/v97/stickland19a.html
[14] Li, X. L., & Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation.Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 4582–4597.https://doi.org/10.18653/v1/2021.acl-long.353
[15] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021).LoRA: Low-Rank Adaptation of Large Language Models(arXiv:2106.09685). arXiv.http://arxiv.org/abs/2106.09685
[16] He, J., Zhou, C., Ma, X., Berg-Kirkpatrick, T., & Neubig, G. (2022).Towards a Unified View of Parameter-Efficient Transfer Learning(arXiv:2110.04366). arXiv.http://arxiv.org/abs/2110.04366
更多閱讀


#投 稿通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧