close

©作者 | 吳迪
單位 | UCLA
研究方向 | NLP


前言

在現代自然語言處理(NLP)的應用中,使用預訓練的表徵進行遷移學習是很重要的一個方法。在深度學習開始被應用之後,遷移學習最早出現在使用預訓練的特徵向量,以及對預訓練語言模型(pre-trained language model,PLM)進行微調(fine-tuning)[1]。基於預訓練模型,adapter 給出了一個新的思路,即能否在模型中插入一些少量的參數,在下游某個任務微調時只對這些參數進行訓練,而保持預訓練模型原有的參數不變。如果使用 adapter 可以讓我們達到和微調整個模型一樣的效果(或者更好),那就可以帶來很多好處:

參數效率更高:一個任務只需要少量參數,訓練更快,占用的內存更少,對數據集較小的任務更難過擬合,也更有利於模型的存儲和分發。
連續學習的遺忘問題:adapter 凍結了原有模型的參數,保證了原來的知識不被遺忘。

多任務學習:使用 adapter 也可以用比較少量的參數學習多個任務,和傳統的多任務學習相比,好處是不同任務之間影響較少,壞處是不同任務帶來的相互的監督可能會變少。


Adapter 最早由 [2]提出,應用在了計算機視覺的模型中,後來由 [1] 引入 NLP,近些年相關的工作越來越多。最近對 adapter 在 NLP 上的應用很感興趣,在此文中整理一些學習 adapter 時相關論文的筆記,其中的很多算法都在開源庫 AdapterHub 中有實現:

https://adapterhub.ml/

Bottleneck Adapter

首先總結一下把 adapter 引入 NLP 的論文[1]。本文的主要貢獻就是提出了應用於 transformer 的 adapter 結構,並且展示了在經典的 NLP 任務上使用 adapter 進行參數高效的遷移學習的可行性。

網絡結構:如下圖所示,[1] 提出在 transformer層中插入 adapter 層。adapter 層的結構很簡單,向下投射到一個較小維度,經過一層非線性激活函數,然後向上投射到原有的維度。另外,整個 adapter 層的輸入和輸出之間還有一個殘差連接。這一類的 adapter 也被形象地稱作 bottleneck adapter。以 BERT 為例,根據 bottleneck 層的大小不同,新增的參數量大致占原有模型的 0.5%-8%。

▲Bottleneck adapter的結構

初始化:所有的 adapter 參數都從均值為 0 標準差為 0.01 的正態分布中採樣。這樣可以保證剛開始訓練時,adapter 主幹的全連接網絡的輸出很小,主要由殘差連接傳遞信息。

訓練:凍結原有模型的全部參數,只訓練 adapter 層的參數和 layer normalization 的參數。

實驗:主要在分類任務(GLUE)和抽取式問答任務(SQuAD v1.1)上進行,比較微調整個 BERT-Large 和 BERT-Large 加 adapter 只微調 adapter 的性能。

實驗發現:

只微調 adapter 可以做到比較接近整個模型微調的性能,如果根據每個 task 調 adapter 的大小,可以做到掉點比較少。
使用 adapter 的參數效率要高於只微調 BERT 的靠近輸出的若干層,性能要高於只訓練 layer normalization 的參數。
推理階段,對某層的 adapter 進行剪枝(pruning)是可行的,不會對性能產生太大影響。但是對多層進行剪枝性能會大幅下降。相比靠近輸出的層(頂層)來說,靠近輸入的層(底層)對剪枝更不敏感。

權重初始化的分布標準差小於 0.01 的時候效果比較好,標準差過大會讓效果變差。

對Adapter結構或訓練/推理流程的改進

論文 [3-5]對 [1] 進行了改進和拓展,這些文章解決的主要問題如下:

AdapterFusion [3]:如何把多任務學習和 adapter 更好地結合起來,利用多任務學習的優勢,避免其劣勢?
AdapterDrop [4]:adapter 在推理階段速度會慢多少?如何對 adapter 進行剪枝?

Compacter [5]:能否將 adapter 層做得更加輕量化,同時不降低性能?

3.1 AdapterFusion

想要結合來自多個任務的知識,傳統的兩個方法是按一定順序微調(sequential fine-tuning)或者多任務學習(multi-task learning)。前者的一大問題是需要先驗知識來確定順序,且模型容易遺忘之前任務學到的知識,後者的問題是不同的任務互相影響,也難以平衡數據集大小差距很大的任務。Adapter 的一個優勢是不用更新預訓練模型的參數,而是插入比較少的新的參數就可以很好地學會一個任務。此時,adapter 的參數某種程度上就表達了解決這個任務需要的知識。受此啟發,[3] 提出如果想要把來自多個任務的知識結合起來,就可以考慮把多個任務的adapter的參數結合起來。

[3] 提出的 AdapterFusion 的多任務學習框架分成兩個階段。首先,針對於每個任務,學習一組新的 adapter 參數。然後,針對於某個特定目標任務,學習一個融合模塊把第一步的所有 adapter 結合起來。[3] 假設第二階段的每個任務都被包括在第一階段里了,不考慮第二階段引入新的任務的情況。

網絡結構:

▲AdapterFusion的結構

圖中展示了 AdapterFusion 的結構(右)和在 transformer 層的放置位置(左)。單個 adapter 層(粉色)和 [1] 中沒有區別,但是每個 transformer 層中只保留最頂端的一個 adapter 層,去掉了多頭注意力層之後的 adapter 層。

AdapterFusion 層(藍綠色)的結構就是一個注意力模塊。Q 是原來 transformer 層中全連接層的輸出,K 和 V 都是各個任務對應的 adapter 的輸出。和 transformer 中的 cross attention 相似,先對 QKV 進行一層線性projection,然後 QK 點乘並計算 softmax,再用輸出把 V(來自不同任務的 adapter 的輸出)加權組合起來,具體公式如下。l 代表層數,t 代表序列位置,n 代表任務(一共 N 個)。抽象地說,任務 X 對應模型的每一層的 AdapterFusion就是根據上一層的輸出,從眾多任務的知識中選擇並應用最適合任務 X 的知識。


初始化:QK 隨機初始化,V 初始化成 identity matrix 加上一些小的隨機噪聲。

訓練:

第一步:訓練每個任務的adapter。作者實驗了兩種方式:(1)每個任務獨立初始化一套 adapter 參數,只學習當前任務,不更新預訓練模型的參數(ST-A);(2)把所有的 adapter 組裝在一起,用多任務學習的損失函數同時訓練所有 adapter,也一起微調所有預訓練的參數(MT-A)。

第二步:把第一步的所有 adapter 組裝到一起(只針對 ST-A,MT-A 已經組裝好),然後加入 AdapterFusion 層,再在目標任務上訓練。數據集用第一步中使用過的相同的版本。作者也實驗了在第二步使用 MT-A,作為對照。


實驗:作者挑選了 16 個不同種類、不同大小的任務進行多任務學習。類別包括常識、情感分析、自然語言推理、句子相關性;數據集大小包括 40k 以上、10k 以上、5k 以上、5k 以下。預訓練模型使用 BERT-base 和 RoBERTa-base。

實驗發現:

第一階段訓練,使用 ST-A 可以做到和整個模型微調相近或更好的表現,但是使用 MT-A 會一定程度影響性能。作者的解釋是只訓練 adapter 是一種正則化,可以幫助泛化。
第二階段,加入 AdapterFusion 對訓練集比較小的任務提升比較明顯。
第一階段使用 ST-A 並且第二階段使用 AdapterFusion 效果最好,也有利用 adapter 的復用。第一階段使用 MT-A,在第二階段也要使用 MT-A 才可以有一定提升。

AdapterFusion 提升比較明顯的任務,每一層的 AdapterFusion 層會更傾向於 attend 到其他任務的 adapter。

3.2 AdapterDrop

論文 [4] 主要的貢獻是:1)建立了一系列 adapter 的訓練/推理速度相關的測量結果;2)提出了剪枝整個 adapter 層的方法 AdapterDrop,加快了多任務同時推理的速度;3)建立了對 AdapterFusion 進行剪枝的結果。

Adapter 的訓練和推理速度。作者們在兩種不同的 GPU 上測量了 [1] 和 [3] 兩種 adapter 結構和整個模型微調相比的訓練和推理速度,結果如下圖。Adapter 的訓練會比整個模型微調快 60% 左右,推理會比使用原模型慢 4%-6%。


3.2.1 AdapterDrop

為了加快推理速度,在推理時可以對某幾層的 adapter 進行剪枝。根據 [1] 的結論,靠近輸入的 adapter 被剪掉後對性能影響更小。因此,AdapterDrop 的作者提出,推理時可以剪掉最下方 n 層的 adapter,也就是最靠近輸入的前 n 層。為了儘可能地減小掉點,作者設計了兩種訓練方案:(1)specialized AdapterDrop:訓練時固定 n,訓練後的模型推理時也固定剪掉前 n 層;(2)robust AdapterDrop:訓練時每個 batch 都隨機選取 n 的大小,訓練後的模型可以適應多個 n。由於原有模型其他參數是不訓練的,在訓練時梯度就可以只回傳到保留 adapter 的最早一層即可(見下圖)。

▲標準的adapter訓練(中)和AdapterDrop的訓練(右)

實驗結果:在 GLUE 的多個任務上,兩種 AdapterDrop 可以做到推理時 n=5 以下掉點都不太嚴重,而傳統的 adapter 在 n>1 時性能下降就很快了。當去除掉五層的 adapter 時,訓練速度可以加快 26%,多任務同時推理的速度可以加快 21%-42%,超過了原模型的推理速度。要注意為了更凸顯 AdapterDrop 的優勢,作者測量速度的場景是多任務同時推理,也就是說輸入文本,模型生成多個任務的輸出。

3.2.2 對 AdapterFusion 進行剪枝

作者首先測量了 AdapterFusion (AF,[3])的訓練和推理時間,發現和原模型整體微調和推理相比,每層 8 個adapter 的 AF 的訓練速度大約慢 47%,推理速度大約慢 62%,主要是因為 adapter 需要逐個推理。作者用 8 個 GLUE 的任務(去除 WNLI)訓練了一個 AF 模型,在上面實驗了兩種加速 AdapterFusion 的思路:

去除掉前幾個 AF 層,對性能的影響不同的任務有所不同。例如對 RTE 的影響不大,但是 CoLA 十分敏感。這說明直接去除 AF 層並不是一個通用的好方法。

剪掉每層中對輸出貢獻較小的 adapter。作者用訓練集測量了每個 adapter 的平均激活水平(應該是加權之後的輸出),每層只保留兩個貢獻最高的 adapter,模型的性能和原來基本持平,推理速度可以提高 68%。

3.3 Compacter

Compacter 這一結構來自論文 [5]。作者沿用了 [1] 的 adapter 放置位置和訓練方式,只是重新設計了更加輕量化的 adapter 結構,使得只需要新增原模型大約 0.05%-0.2% 的參數量便可在 GLUE 和 SuperGLUE 這些 benchmark 上達到比較好的表現。

網絡結構:

Compact 應用了 Kronecker 積。一個 mxf 的 A 矩陣和一個 pxq 的 B 矩陣的 Kronecker 積是

假設模型 hidden state 大小是 k,bottleneck 大小是 b,[1]中的 adapter 層就包含兩個 kxb 的矩陣。Compacter首先借用了 parameterized hypercomplex multiplication layers 的理念,把每個 adapter 的參數表達成一個 nxn 的矩陣 A 和一個 (k/n)x(d/n) 的矩陣 B 的 Kronecker 積,這樣參數量就被大大縮減了。

在此之上,要求所有 adapter 共享矩陣 A。

另外,把矩陣 B 再次分解成 n 組兩個低秩矩陣的積,兩個矩陣的大小分別是 (k/n)xr 和 rx(d/n)。為了減少參數量,作者把 r 固定為 1。

Compacter 層結構如下圖所示。圖中展示了兩個 compacter 層,彩色的是需要訓練的參數。把 [1] 中的 adapter 層中的參數用這種形式表達就得到了 compacter 的結構。

▲Compacter的結構

實驗:作者主要使用了 T5-base 在 GLUE 和 SuperGLUE 的任務上進行了實驗。對比了 Compacter,整個模型微調,以及一系列參數高效的方法。對 compacter,作者實驗了無低秩分解的版本進行對照,也實驗了類似 [3] 每個transformer層只保留靠近輸出的一個 adapter 的結構(稱作 compacter++)。

實驗結果:

在 T5-base 上,[3] 的adapter層的效果比 [1] 要好。AdapterDrop 或者僅僅對 adapter 層進行低秩分解的性能都比整個模型微調要差。
Compacter 的三個創新使得只訓練 0.1% 上下的新參數就可以和全模型微調的表現相近。

和全模型微調相比,Compacter 在訓練集較小(0.1k-4k)的時候表現要更好。

Adapter的應用和針對應用的改進

這裡的幾篇論文 [6-12] 都利用了 adapter 設計了一些特定問題的解決方案,有的方法重在參數高效,有的方法重在對原模型的效果進行進一步提升。篇幅限制,這部分對每篇論文只做簡略介紹。

4.1 Bapna & Firat(2019)
本篇論文 [6] 主要應用了 adapter 來解決兩個機器翻譯(NMT)的問題:(1)域適應(domain adaptation)和(2)大規模多語種 NMT。作者主要採用的框架是先預訓練一個基礎模型,再根據每個目標任務插入一個新的 adapter 進行微調。文章主要的貢獻是展現了在 NMT 任務上 adapter 類的方法可以做到和整個模型微調達到相似性能,同時更加參數高效。另外,多語種 NMT 任務上可以做到單個模型同時在資源少和多的語言上表現良好。

Adapter 結構:本文和 [3]使用了類似結構(但是本文的工作在 [3] 之前),每個 transformer 層只在最後插入一個 adapter 層。另外,作者重新初始化了 layer norm 的參數(和 [1] 不同,[1] 是直接用預訓練的 layer norm 參數繼續訓練)。
域適應:作者在 WMT En-Fr 上訓練,然後凍結參數,插入 adapter,分別遷移到 IWSLT'15 和 JRC。模型性能好於 LHUC [7],和全模型微調比較接近。

多語種 NMT:作者首先訓練了一個英語 <=>102 種其他語言的模型,然後凍結參數,再針對每組(源語言,目標語言)的組合分別插入一個 adapter 進行微調。主要比較的基線方法是只用(源語言,目標語言)的數據訓練的模型。結果顯示英語是源語言時,大部分目標語言的表現相比基線都持平或有所提升;但是英語是目標語言時,主要在訓練數據較少的語言上有較大提升,在訓練數據比較多的語言上效果有所下降。

4.2 K-Adapter

本篇論文 [8] 主要的貢獻是用 adapter 以一種模塊化的方式向預訓練語言模型中插入知識,來解決一些知識密集型的 NLP 任務(關係分類、實體類型識別、問答等等)。作者通過訓練兩個 adapter 來把兩種類型的知識引入 RoBERTa:(1)事實性知識,(2)語言學類的知識。兩個 adapter 分別訓練,互不影響。

模型結構:K-Adapter 不再改動原有的 transformer 層,而是變成在兩個 transformer 層之間插入 adapter 層。每個 adapter 層內,在向下和向上 project 的全連接層之間加入了兩層 transformer 層(下圖左),增加了模塊的表達能力。每個 adapter 層的輸入可以看到上一個 adapter 和鄰近的上一個 transformer 層的輸出(下圖右)。


▲K-Adapter的結構(左)和訓練方式(右)


預訓練:插入 adapter 層,把原模型參數固定,把原模型最後一層的輸出和最後一個 adapter 的輸出 concat 起來作為 feature,然後在特定的預訓練任務上學習。
事實性知識:在關係分類任務上訓練,共 430 個類,5.5M 個句子。通過學習預測實體和實體之間的關係,模型可以學到一些基本事實和常識。

語言學類知識:在依存關係分類任務上訓練,作者用斯坦福的 parser 準備了共約 1M 個訓練樣本。通過學習預測每個 token 對應的 head 的位置,模型可以學到一些和句法/語義相關的知識。

下游微調:把每個任務新增的參數接在最後一個 adapter 層的輸出上進行訓練。如果同時使用多個 adapter,就把他們的輸出 concat 起來作為特徵。另外,原來預訓練模型的參數也跟着一起微調。
下游任務主要涵蓋關係分類、實體類型識別、問答。

基線模型除了之前效果比較好的語言模型 + 知識的模型外,還有原 RoBERTa 模型、原 RoBERTa 模型 + 隨機初始化的 adapter 參數、原 RoBERTa 模型進一步在兩個任務上多任務學習得到的模型。實驗結果發現同時使用兩個 adapter 時可以獲得最好的效果。對後兩個下游任務來說事實性知識幫助更大,對第一個任務語言學類的知識幫助更大。

4.3 MAD-X

和前文總結過的 AdapterFusion 以及 K-Adapter 類似,MAD-X [9]這篇論文的目標也是用 adapter 來學習和存儲模塊化的知識,做到「即插即用」。AdapterFusion 的目標是讓小訓練集的任務使用大訓練集的任務的知識,而 MAD-X 的目標是在同一個任務下讓低資源的語言使用高資源的語言的知識。

為了解耦語言和任務,作者提出分別訓練相對應的 adapter,這樣想要解決一個低資源語言 L 的任務 T 時,可以使用對應語言 L 的 adapter,搭配上在其他語言 L' 上訓練的任務 T 的 adapter。在這個框架的基礎上,作者還設計了 invertible adapter 作為學習語言知識的 adapter 的一部分。

網絡結構:仍然是在每個 transformer 層中插入 adapter(下圖),其中 language adapter 和 task adapter 沿用 AdapterFusion 的網絡結構,invertible adapter 是一個 token 層面的映射函數,和 language adapter 一起訓練,可以理解成在 multilingual embedding 上再為每種語言學習一個專用的 embedding 函數,但是比每種目標語言重新訓練 embedding 更加參數高效。

▲MAD-X中三類adapter的放置方式(左)和invertible adapter的結構(右)

訓練和推理:首先為每種語言訓練 language adapter 和 invertible adapter,用的任務是 MLM。然後再插入某任務專用的 adapter,配合源語言的 language adapter 和 invertible adapter 在源語言的訓練集上訓練。推理時,使用目標語言的 language adapter 和 invertible adapter,再配合源語言的 task adapter。

實驗和發現:

1. 作者主要在命名實體識別、問答、因果常識推理上進行跨語言遷移的實驗,選取了 16 種來自各種語系並且訓練集資源大小不一的語言兩兩配對進行實驗。作者在 XLM-R 上加入 adapter,對比的基線模型包括 mBERT 和 XLM-R,還有在目標語言上進行預訓練過的 XLM-R。

2. 對於預訓練階段沒有出現過的語言,XLM-R 和只使用 task adapter 的 MAD-X 表現都很差,在目標語言進行預訓練之後,XLM-R 效果有很大提升。

3. NER 任務上,language adapter 和 invertible adapter 都對性能影響很大。MAD-X 對高資源向低資源語言的遷移幫助最大。

4. 因果常識推理任務上,MAD-X 和目標語言上預訓練的 XLM-R 表現類似;問答任務上,後者似乎在比 MAD-X 表現更好。但是 MAD-X 訓練的參數更少。

4.4 其他應用

UDapter [10]:用 adapter 訓練參數高效的多語言的依存分析模型。
Philip et al.(2020)[11]:和 [6] 類似,關注多語言機器翻譯任務,但是給每個語言引入 adapter 參數,而不是像 [6] 一樣給每對語言引入一個 adapter。

Lauscher et al.(2020)[12]:和 [8]類似,使用 adapter 模塊化地引入知識。

類似Adapter的結構

下面列舉了思路和 adapter 相近,但是網絡結構設計不同的文章,這裡就不詳細介紹了,也推薦 ICLR 2022 的文章 [16](或者何俊賢大大親自講解的視頻)。

BERT and PAL [13]

Prefix Tuning [14]

LoRA [15]

▲三種 adapter 類的結構(adapter,prefix tuning,LoRA),圖片來自 [16]。



參考文獻


[1] Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., Laroussilhe, Q. D., Gesmundo, A., Attariyan, M., & Gelly, S. (2019). Parameter-Efficient Transfer Learning for NLP.Proceedings of the 36th International Conference on Machine Learning, 2790–2799.https://proceedings.mlr.press/v97/houlsby19a.html

[2] Rebuffi, S. A., Bilen, H., & Vedaldi, A. (2017). Learning multiple visual domains with residual adapters.Advances in neural information processing systems,30.https://proceedings.neurips.cc/paper/2017/file/e7b24b112a44fdd9ee93bdf998c6ca0e-Paper.pdf

[3] Pfeiffer, J., Kamath, A., Rücklé, A., Cho, K., & Gurevych, I. (2021). AdapterFusion: Non-Destructive Task Composition for Transfer Learning.Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 487–503.https://doi.org/10.18653/v1/2021.eacl-main.39

[4] Rücklé, A., Geigle, G., Glockner, M., Beck, T., Pfeiffer, J., Reimers, N., & Gurevych, I. (2021). AdapterDrop: On the Efficiency of Adapters in Transformers.Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 7930–7946.https://doi.org/10.18653/v1/2021.emnlp-main.626

[5] Karimi Mahabadi, R., Henderson, J., & Ruder, S. (2021). Compacter: Efficient Low-Rank Hypercomplex Adapter Layers.Advances in Neural Information Processing Systems,34, 1022–1035.https://proceedings.neurips.cc/paper/2021/hash/081be9fdff07f3bc808f935906ef70c0-Abstract.html

[6] Bapna, A., & Firat, O. (2019). Simple, Scalable Adaptation for Neural Machine Translation.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1538–1548.https://doi.org/10.18653/v1/D19-1165[7] Vilar, D. (2018). Learning Hidden Unit Contribution for Adapting Neural Machine Translation Models.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 500–505.https://doi.org/10.18653/v1/N18-2080

[8] Wang, R., Tang, D., Duan, N., Wei, Z., Huang, X., Ji, J., Cao, G., Jiang, D., & Zhou, M. (2021). K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters.Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 1405–1418.https://doi.org/10.18653/v1/2021.findings-acl.121

[9] Pfeiffer, J., Vulić, I., Gurevych, I., & Ruder, S. (2020).MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer(arXiv:2005.00052). arXiv.http://arxiv.org/abs/2005.00052

[10] Üstün, A., Bisazza, A., Bouma, G., & van Noord, G. (2020). UDapter: Language Adaptation for Truly Universal Dependency Parsing.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2302–2315.https://doi.org/10.18653/v1/2020.emnlp-main.180

[11] Philip, J., Berard, A., Gallé, M., & Besacier, L. (2020). Monolingual Adapters for Zero-Shot Neural Machine Translation.Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4465–4470.https://doi.org/10.18653/v1/2020.emnlp-main.361

[12] Lauscher, A., Majewska, O., Ribeiro, L. F. R., Gurevych, I., Rozanov, N., & Glavaš, G. (2020). Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers.Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, 43–49.https://doi.org/10.18653/v1/2020.deelio-1.5

[13] Stickland, A. C., & Murray, I. (2019). BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning.Proceedings of the 36th International Conference on Machine Learning, 5986–5995.https://proceedings.mlr.press/v97/stickland19a.html

[14] Li, X. L., & Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation.Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 4582–4597.https://doi.org/10.18653/v1/2021.acl-long.353

[15] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021).LoRA: Low-Rank Adaptation of Large Language Models(arXiv:2106.09685). arXiv.http://arxiv.org/abs/2106.09685

[16] He, J., Zhou, C., Ma, X., Berg-Kirkpatrick, T., & Neubig, G. (2022).Towards a Unified View of Parameter-Efficient Transfer Learning(arXiv:2110.04366). arXiv.http://arxiv.org/abs/2110.04366


更多閱讀



#投 稿通 道#

讓你的文字被更多人看到




如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬投稿通道:

• 投稿郵箱:hr@paperweekly.site

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·



arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()