PaperWeekly - 由淺入深詳解NLP中的Adapter技術－鑽石舞台

©作者 | 吳迪

單位 | UCLA

研究方向 | NLP

前言

在現代自然語言處理（NLP）的應用中，使用預訓練的表徵進行遷移學習是很重要的一個方法。在深度學習開始被應用之後，遷移學習最早出現在使用預訓練的特徵向量，以及對預訓練語言模型（pre-trained language model，PLM）進行微調（fine-tuning）[1]。基於預訓練模型，adapter 給出了一個新的思路，即能否在模型中插入一些少量的參數，在下游某個任務微調時只對這些參數進行訓練，而保持預訓練模型原有的參數不變。如果使用 adapter 可以讓我們達到和微調整個模型一樣的效果（或者更好），那就可以帶來很多好處：

參數效率更高：一個任務只需要少量參數，訓練更快，占用的內存更少，對數據集較小的任務更難過擬合，也更有利於模型的存儲和分發。

連續學習的遺忘問題：adapter 凍結了原有模型的參數，保證了原來的知識不被遺忘。

多任務學習：使用 adapter 也可以用比較少量的參數學習多個任務，和傳統的多任務學習相比，好處是不同任務之間影響較少，壞處是不同任務帶來的相互的監督可能會變少。

Adapter 最早由 [2]提出，應用在了計算機視覺的模型中，後來由 [1] 引入 NLP，近些年相關的工作越來越多。最近對 adapter 在 NLP 上的應用很感興趣，在此文中整理一些學習 adapter 時相關論文的筆記，其中的很多算法都在開源庫 AdapterHub 中有實現：

https://adapterhub.ml/

Bottleneck Adapter

首先總結一下把 adapter 引入 NLP 的論文[1]。本文的主要貢獻就是提出了應用於 transformer 的 adapter 結構，並且展示了在經典的 NLP 任務上使用 adapter 進行參數高效的遷移學習的可行性。

網絡結構：如下圖所示，[1] 提出在 transformer層中插入 adapter 層。adapter 層的結構很簡單，向下投射到一個較小維度，經過一層非線性激活函數，然後向上投射到原有的維度。另外，整個 adapter 層的輸入和輸出之間還有一個殘差連接。這一類的 adapter 也被形象地稱作 bottleneck adapter。以 BERT 為例，根據 bottleneck 層的大小不同，新增的參數量大致占原有模型的 0.5%-8%。

▲Bottleneck adapter的結構

初始化：所有的 adapter 參數都從均值為 0 標準差為 0.01 的正態分布中採樣。這樣可以保證剛開始訓練時，adapter 主幹的全連接網絡的輸出很小，主要由殘差連接傳遞信息。

訓練：凍結原有模型的全部參數，只訓練 adapter 層的參數和 layer normalization 的參數。

實驗：主要在分類任務（GLUE）和抽取式問答任務（SQuAD v1.1）上進行，比較微調整個 BERT-Large 和 BERT-Large 加 adapter 只微調 adapter 的性能。

實驗發現：

只微調 adapter 可以做到比較接近整個模型微調的性能，如果根據每個 task 調 adapter 的大小，可以做到掉點比較少。

使用 adapter 的參數效率要高於只微調 BERT 的靠近輸出的若干層，性能要高於只訓練 layer normalization 的參數。

推理階段，對某層的 adapter 進行剪枝（pruning）是可行的，不會對性能產生太大影響。但是對多層進行剪枝性能會大幅下降。相比靠近輸出的層（頂層）來說，靠近輸入的層（底層）對剪枝更不敏感。

權重初始化的分布標準差小於 0.01 的時候效果比較好，標準差過大會讓效果變差。

對Adapter結構或訓練/推理流程的改進

論文 [3-5]對 [1] 進行了改進和拓展，這些文章解決的主要問題如下：

AdapterFusion [3]：如何把多任務學習和 adapter 更好地結合起來，利用多任務學習的優勢，避免其劣勢？

AdapterDrop [4]：adapter 在推理階段速度會慢多少？如何對 adapter 進行剪枝？

Compacter [5]：能否將 adapter 層做得更加輕量化，同時不降低性能？

3.1 AdapterFusion

想要結合來自多個任務的知識，傳統的兩個方法是按一定順序微調（sequential fine-tuning）或者多任務學習（multi-task learning）。前者的一大問題是需要先驗知識來確定順序，且模型容易遺忘之前任務學到的知識，後者的問題是不同的任務互相影響，也難以平衡數據集大小差距很大的任務。Adapter 的一個優勢是不用更新預訓練模型的參數，而是插入比較少的新的參數就可以很好地學會一個任務。此時，adapter 的參數某種程度上就表達了解決這個任務需要的知識。受此啟發，[3] 提出如果想要把來自多個任務的知識結合起來，就可以考慮把多個任務的adapter的參數結合起來。

[3] 提出的 AdapterFusion 的多任務學習框架分成兩個階段。首先，針對於每個任務，學習一組新的 adapter 參數。然後，針對於某個特定目標任務，學習一個融合模塊把第一步的所有 adapter 結合起來。[3] 假設第二階段的每個任務都被包括在第一階段里了，不考慮第二階段引入新的任務的情況。

網絡結構：

▲AdapterFusion的結構

圖中展示了 AdapterFusion 的結構（右）和在 transformer 層的放置位置（左）。單個 adapter 層（粉色）和 [1] 中沒有區別，但是每個 transformer 層中只保留最頂端的一個 adapter 層，去掉了多頭注意力層之後的 adapter 層。

AdapterFusion 層（藍綠色）的結構就是一個注意力模塊。Q 是原來 transformer 層中全連接層的輸出，K 和 V 都是各個任務對應的 adapter 的輸出。和 transformer 中的 cross attention 相似，先對 QKV 進行一層線性projection，然後 QK 點乘並計算 softmax，再用輸出把 V（來自不同任務的 adapter 的輸出）加權組合起來，具體公式如下。l 代表層數，t 代表序列位置，n 代表任務（一共 N 個）。抽象地說，任務 X 對應模型的每一層的 AdapterFusion就是根據上一層的輸出，從眾多任務的知識中選擇並應用最適合任務 X 的知識。

初始化：QK 隨機初始化，V 初始化成 identity matrix 加上一些小的隨機噪聲。

訓練：

第一步：訓練每個任務的adapter。作者實驗了兩種方式：（1）每個任務獨立初始化一套 adapter 參數，只學習當前任務，不更新預訓練模型的參數（ST-A）；（2）把所有的 adapter 組裝在一起，用多任務學習的損失函數同時訓練所有 adapter，也一起微調所有預訓練的參數（MT-A）。

第二步：把第一步的所有 adapter 組裝到一起（只針對 ST-A，MT-A 已經組裝好），然後加入 AdapterFusion 層，再在目標任務上訓練。數據集用第一步中使用過的相同的版本。作者也實驗了在第二步使用 MT-A，作為對照。

實驗：作者挑選了 16 個不同種類、不同大小的任務進行多任務學習。類別包括常識、情感分析、自然語言推理、句子相關性；數據集大小包括 40k 以上、10k 以上、5k 以上、5k 以下。預訓練模型使用 BERT-base 和 RoBERTa-base。

實驗發現：

第一階段訓練，使用 ST-A 可以做到和整個模型微調相近或更好的表現，但是使用 MT-A 會一定程度影響性能。作者的解釋是只訓練 adapter 是一種正則化，可以幫助泛化。

第二階段，加入 AdapterFusion 對訓練集比較小的任務提升比較明顯。

第一階段使用 ST-A 並且第二階段使用 AdapterFusion 效果最好，也有利用 adapter 的復用。第一階段使用 MT-A，在第二階段也要使用 MT-A 才可以有一定提升。

AdapterFusion 提升比較明顯的任務，每一層的 AdapterFusion 層會更傾向於 attend 到其他任務的 adapter。

3.2 AdapterDrop

論文 [4] 主要的貢獻是：1）建立了一系列 adapter 的訓練/推理速度相關的測量結果；2）提出了剪枝整個 adapter 層的方法 AdapterDrop，加快了多任務同時推理的速度；3）建立了對 AdapterFusion 進行剪枝的結果。

Adapter 的訓練和推理速度。作者們在兩種不同的 GPU 上測量了 [1] 和 [3] 兩種 adapter 結構和整個模型微調相比的訓練和推理速度，結果如下圖。Adapter 的訓練會比整個模型微調快 60% 左右，推理會比使用原模型慢 4%-6%。

3.2.1 AdapterDrop

為了加快推理速度，在推理時可以對某幾層的 adapter 進行剪枝。根據 [1] 的結論，靠近輸入的 adapter 被剪掉後對性能影響更小。因此，AdapterDrop 的作者提出，推理時可以剪掉最下方 n 層的 adapter，也就是最靠近輸入的前 n 層。為了儘可能地減小掉點，作者設計了兩種訓練方案：（1）specialized AdapterDrop：訓練時固定 n，訓練後的模型推理時也固定剪掉前 n 層；（2）robust AdapterDrop：訓練時每個 batch 都隨機選取 n 的大小，訓練後的模型可以適應多個 n。由於原有模型其他參數是不訓練的，在訓練時梯度就可以只回傳到保留 adapter 的最早一層即可（見下圖）。

▲標準的adapter訓練（中）和AdapterDrop的訓練（右）

實驗結果：在 GLUE 的多個任務上，兩種 AdapterDrop 可以做到推理時 n=5 以下掉點都不太嚴重，而傳統的 adapter 在 n>1 時性能下降就很快了。當去除掉五層的 adapter 時，訓練速度可以加快 26%，多任務同時推理的速度可以加快 21%-42%，超過了原模型的推理速度。要注意為了更凸顯 AdapterDrop 的優勢，作者測量速度的場景是多任務同時推理，也就是說輸入文本，模型生成多個任務的輸出。

3.2.2 對 AdapterFusion 進行剪枝

作者首先測量了 AdapterFusion （AF，[3]）的訓練和推理時間，發現和原模型整體微調和推理相比，每層 8 個adapter 的 AF 的訓練速度大約慢 47%，推理速度大約慢 62%，主要是因為 adapter 需要逐個推理。作者用 8 個 GLUE 的任務（去除 WNLI）訓練了一個 AF 模型，在上面實驗了兩種加速 AdapterFusion 的思路：

去除掉前幾個 AF 層，對性能的影響不同的任務有所不同。例如對 RTE 的影響不大，但是 CoLA 十分敏感。這說明直接去除 AF 層並不是一個通用的好方法。

剪掉每層中對輸出貢獻較小的 adapter。作者用訓練集測量了每個 adapter 的平均激活水平（應該是加權之後的輸出），每層只保留兩個貢獻最高的 adapter，模型的性能和原來基本持平，推理速度可以提高 68%。

3.3 Compacter

Compacter 這一結構來自論文 [5]。作者沿用了 [1] 的 adapter 放置位置和訓練方式，只是重新設計了更加輕量化的 adapter 結構，使得只需要新增原模型大約 0.05%-0.2% 的參數量便可在 GLUE 和 SuperGLUE 這些 benchmark 上達到比較好的表現。

網絡結構：

Compact 應用了 Kronecker 積。一個 mxf 的 A 矩陣和一個 pxq 的 B 矩陣的 Kronecker 積是

假設模型 hidden state 大小是 k，bottleneck 大小是 b，[1]中的 adapter 層就包含兩個 kxb 的矩陣。Compacter首先借用了 parameterized hypercomplex multiplication layers 的理念，把每個 adapter 的參數表達成一個 nxn 的矩陣 A 和一個 (k/n)x(d/n) 的矩陣 B 的 Kronecker 積，這樣參數量就被大大縮減了。

在此之上，要求所有 adapter 共享矩陣 A。

另外，把矩陣 B 再次分解成 n 組兩個低秩矩陣的積，兩個矩陣的大小分別是 (k/n)xr 和 rx(d/n)。為了減少參數量，作者把 r 固定為 1。

Compacter 層結構如下圖所示。圖中展示了兩個 compacter 層，彩色的是需要訓練的參數。把 [1] 中的 adapter 層中的參數用這種形式表達就得到了 compacter 的結構。

▲Compacter的結構

實驗：作者主要使用了 T5-base 在 GLUE 和 SuperGLUE 的任務上進行了實驗。對比了 Compacter，整個模型微調，以及一系列參數高效的方法。對 compacter，作者實驗了無低秩分解的版本進行對照，也實驗了類似 [3] 每個transformer層只保留靠近輸出的一個 adapter 的結構（稱作 compacter++）。

實驗結果：

在 T5-base 上，[3] 的adapter層的效果比 [1] 要好。AdapterDrop 或者僅僅對 adapter 層進行低秩分解的性能都比整個模型微調要差。

Compacter 的三個創新使得只訓練 0.1% 上下的新參數就可以和全模型微調的表現相近。

和全模型微調相比，Compacter 在訓練集較小（0.1k-4k）的時候表現要更好。

Adapter的應用和針對應用的改進

這裡的幾篇論文 [6-12] 都利用了 adapter 設計了一些特定問題的解決方案，有的方法重在參數高效，有的方法重在對原模型的效果進行進一步提升。篇幅限制，這部分對每篇論文只做簡略介紹。

4.1 Bapna & Firat（2019）

本篇論文 [6] 主要應用了 adapter 來解決兩個機器翻譯（NMT）的問題：（1）域適應（domain adaptation）和（2）大規模多語種 NMT。作者主要採用的框架是先預訓練一個基礎模型，再根據每個目標任務插入一個新的 adapter 進行微調。文章主要的貢獻是展現了在 NMT 任務上 adapter 類的方法可以做到和整個模型微調達到相似性能，同時更加參數高效。另外，多語種 NMT 任務上可以做到單個模型同時在資源少和多的語言上表現良好。

Adapter 結構：本文和 [3]使用了類似結構（但是本文的工作在 [3] 之前），每個 transformer 層只在最後插入一個 adapter 層。另外，作者重新初始化了 layer norm 的參數（和 [1] 不同，[1] 是直接用預訓練的 layer norm 參數繼續訓練）。

域適應：作者在 WMT En-Fr 上訓練，然後凍結參數，插入 adapter，分別遷移到 IWSLT'15 和 JRC。模型性能好於 LHUC [7]，和全模型微調比較接近。

多語種 NMT：作者首先訓練了一個英語 <=>102 種其他語言的模型，然後凍結參數，再針對每組（源語言，目標語言）的組合分別插入一個 adapter 進行微調。主要比較的基線方法是只用（源語言，目標語言）的數據訓練的模型。結果顯示英語是源語言時，大部分目標語言的表現相比基線都持平或有所提升；但是英語是目標語言時，主要在訓練數據較少的語言上有較大提升，在訓練數據比較多的語言上效果有所下降。

4.2 K-Adapter

本篇論文 [8] 主要的貢獻是用 adapter 以一種模塊化的方式向預訓練語言模型中插入知識，來解決一些知識密集型的 NLP 任務（關係分類、實體類型識別、問答等等）。作者通過訓練兩個 adapter 來把兩種類型的知識引入 RoBERTa：（1）事實性知識，（2）語言學類的知識。兩個 adapter 分別訓練，互不影響。

模型結構：K-Adapter 不再改動原有的 transformer 層，而是變成在兩個 transformer 層之間插入 adapter 層。每個 adapter 層內，在向下和向上 project 的全連接層之間加入了兩層 transformer 層（下圖左），增加了模塊的表達能力。每個 adapter 層的輸入可以看到上一個 adapter 和鄰近的上一個 transformer 層的輸出（下圖右）。

▲K-Adapter的結構（左）和訓練方式（右）

預訓練：插入 adapter 層，把原模型參數固定，把原模型最後一層的輸出和最後一個 adapter 的輸出 concat 起來作為 feature，然後在特定的預訓練任務上學習。

事實性知識：在關係分類任務上訓練，共 430 個類，5.5M 個句子。通過學習預測實體和實體之間的關係，模型可以學到一些基本事實和常識。

語言學類知識：在依存關係分類任務上訓練，作者用斯坦福的 parser 準備了共約 1M 個訓練樣本。通過學習預測每個 token 對應的 head 的位置，模型可以學到一些和句法/語義相關的知識。

下游微調：把每個任務新增的參數接在最後一個 adapter 層的輸出上進行訓練。如果同時使用多個 adapter，就把他們的輸出 concat 起來作為特徵。另外，原來預訓練模型的參數也跟着一起微調。

下游任務主要涵蓋關係分類、實體類型識別、問答。

基線模型除了之前效果比較好的語言模型 + 知識的模型外，還有原 RoBERTa 模型、原 RoBERTa 模型 + 隨機初始化的 adapter 參數、原 RoBERTa 模型進一步在兩個任務上多任務學習得到的模型。實驗結果發現同時使用兩個 adapter 時可以獲得最好的效果。對後兩個下游任務來說事實性知識幫助更大，對第一個任務語言學類的知識幫助更大。

4.3 MAD-X

和前文總結過的 AdapterFusion 以及 K-Adapter 類似，MAD-X [9]這篇論文的目標也是用 adapter 來學習和存儲模塊化的知識，做到「即插即用」。AdapterFusion 的目標是讓小訓練集的任務使用大訓練集的任務的知識，而 MAD-X 的目標是在同一個任務下讓低資源的語言使用高資源的語言的知識。

為了解耦語言和任務，作者提出分別訓練相對應的 adapter，這樣想要解決一個低資源語言 L 的任務 T 時，可以使用對應語言 L 的 adapter，搭配上在其他語言 L' 上訓練的任務 T 的 adapter。在這個框架的基礎上，作者還設計了 invertible adapter 作為學習語言知識的 adapter 的一部分。

網絡結構：仍然是在每個 transformer 層中插入 adapter（下圖），其中 language adapter 和 task adapter 沿用 AdapterFusion 的網絡結構，invertible adapter 是一個 token 層面的映射函數，和 language adapter 一起訓練，可以理解成在 multilingual embedding 上再為每種語言學習一個專用的 embedding 函數，但是比每種目標語言重新訓練 embedding 更加參數高效。

▲MAD-X中三類adapter的放置方式（左）和invertible adapter的結構（右）

訓練和推理：首先為每種語言訓練 language adapter 和 invertible adapter，用的任務是 MLM。然後再插入某任務專用的 adapter，配合源語言的 language adapter 和 invertible adapter 在源語言的訓練集上訓練。推理時，使用目標語言的 language adapter 和 invertible adapter，再配合源語言的 task adapter。

實驗和發現：

1. 作者主要在命名實體識別、問答、因果常識推理上進行跨語言遷移的實驗，選取了 16 種來自各種語系並且訓練集資源大小不一的語言兩兩配對進行實驗。作者在 XLM-R 上加入 adapter，對比的基線模型包括 mBERT 和 XLM-R，還有在目標語言上進行預訓練過的 XLM-R。

2. 對於預訓練階段沒有出現過的語言，XLM-R 和只使用 task adapter 的 MAD-X 表現都很差，在目標語言進行預訓練之後，XLM-R 效果有很大提升。

3. NER 任務上，language adapter 和 invertible adapter 都對性能影響很大。MAD-X 對高資源向低資源語言的遷移幫助最大。

4. 因果常識推理任務上，MAD-X 和目標語言上預訓練的 XLM-R 表現類似；問答任務上，後者似乎在比 MAD-X 表現更好。但是 MAD-X 訓練的參數更少。

4.4 其他應用

UDapter [10]：用 adapter 訓練參數高效的多語言的依存分析模型。

Philip et al.（2020）[11]：和 [6] 類似，關注多語言機器翻譯任務，但是給每個語言引入 adapter 參數，而不是像 [6] 一樣給每對語言引入一個 adapter。

Lauscher et al.（2020）[12]：和 [8]類似，使用 adapter 模塊化地引入知識。

類似Adapter的結構

下面列舉了思路和 adapter 相近，但是網絡結構設計不同的文章，這裡就不詳細介紹了，也推薦 ICLR 2022 的文章 [16]（或者何俊賢大大親自講解的視頻）。

BERT and PAL [13]

Prefix Tuning [14]

LoRA [15]

▲三種 adapter 類的結構（adapter，prefix tuning，LoRA），圖片來自 [16]。

參考文獻

[1] Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., Laroussilhe, Q. D., Gesmundo, A., Attariyan, M., & Gelly, S. (2019). Parameter-Efficient Transfer Learning for NLP.Proceedings of the 36th International Conference on Machine Learning, 2790–2799.https://proceedings.mlr.press/v97/houlsby19a.html

[2] Rebuffi, S. A., Bilen, H., & Vedaldi, A. (2017). Learning multiple visual domains with residual adapters.Advances in neural information processing systems,30.https://proceedings.neurips.cc/paper/2017/file/e7b24b112a44fdd9ee93bdf998c6ca0e-Paper.pdf

[3] Pfeiffer, J., Kamath, A., Rücklé, A., Cho, K., & Gurevych, I. (2021). AdapterFusion: Non-Destructive Task Composition for Transfer Learning.Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 487–503.https://doi.org/10.18653/v1/2021.eacl-main.39

[4] Rücklé, A., Geigle, G., Glockner, M., Beck, T., Pfeiffer, J., Reimers, N., & Gurevych, I. (2021). AdapterDrop: On the Efficiency of Adapters in Transformers.Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 7930–7946.https://doi.org/10.18653/v1/2021.emnlp-main.626

[5] Karimi Mahabadi, R., Henderson, J., & Ruder, S. (2021). Compacter: Efficient Low-Rank Hypercomplex Adapter Layers.Advances in Neural Information Processing Systems,34, 1022–1035.https://proceedings.neurips.cc/paper/2021/hash/081be9fdff07f3bc808f935906ef70c0-Abstract.html

[6] Bapna, A., & Firat, O. (2019). Simple, Scalable Adaptation for Neural Machine Translation.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1538–1548.https://doi.org/10.18653/v1/D19-1165[7] Vilar, D. (2018). Learning Hidden Unit Contribution for Adapting Neural Machine Translation Models.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 500–505.https://doi.org/10.18653/v1/N18-2080

[8] Wang, R., Tang, D., Duan, N., Wei, Z., Huang, X., Ji, J., Cao, G., Jiang, D., & Zhou, M. (2021). K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters.Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 1405–1418.https://doi.org/10.18653/v1/2021.findings-acl.121

[9] Pfeiffer, J., Vulić, I., Gurevych, I., & Ruder, S. (2020).MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer(arXiv:2005.00052). arXiv.http://arxiv.org/abs/2005.00052

[10] Üstün, A., Bisazza, A., Bouma, G., & van Noord, G. (2020). UDapter: Language Adaptation for Truly Universal Dependency Parsing.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2302–2315.https://doi.org/10.18653/v1/2020.emnlp-main.180

[11] Philip, J., Berard, A., Gallé, M., & Besacier, L. (2020). Monolingual Adapters for Zero-Shot Neural Machine Translation.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4465–4470.https://doi.org/10.18653/v1/2020.emnlp-main.361

[12] Lauscher, A., Majewska, O., Ribeiro, L. F. R., Gurevych, I., Rozanov, N., & Glavaš, G. (2020). Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers.Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, 43–49.https://doi.org/10.18653/v1/2020.deelio-1.5

[13] Stickland, A. C., & Murray, I. (2019). BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning.Proceedings of the 36th International Conference on Machine Learning, 5986–5995.https://proceedings.mlr.press/v97/stickland19a.html

[14] Li, X. L., & Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation.Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 4582–4597.https://doi.org/10.18653/v1/2021.acl-long.353

[15] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021).LoRA: Low-Rank Adaptation of Large Language Models(arXiv:2106.09685). arXiv.http://arxiv.org/abs/2106.09685

[16] He, J., Zhou, C., Ma, X., Berg-Kirkpatrick, T., & Neubig, G. (2022).Towards a Unified View of Parameter-Efficient Transfer Learning(arXiv:2110.04366). arXiv.http://arxiv.org/abs/2110.04366

更多閱讀