PaperWeekly - NeurIPS 2022 | CATER：針對模型竊取的版權保護之選擇性水印－鑽石舞台

Oct 09 Sun 2022 13:00
PaperWeekly - NeurIPS 2022 | CATER：針對模型竊取的版權保護之選擇性水印

©PaperWeekly 原創 ·作者 |何玄黎

單位 |倫敦大學學院（UCL）

研究方向 |自然語言處理

論文標題：

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

收錄會議：

NeurIPS 2022

論文鏈接：

https://arxiv.org/abs/2209.08773

代碼鏈接：

https://github.com/xlhex/cater_neurips

研究背景

模型竊取（imitation attack）旨在竊取遠程 APIs，並將其本地化。一旦模型本地化以後，模型竊取者即可免費使用該模型，無需繼續支付相關服務費，亦或者將竊取的模型作為低價且高性能的 APIs 發布，進而快速占領相關市場。早期對於模型竊取的研究主要停留在實驗室假設，研究者們通過模擬實驗驗證了模型竊取的可行性。近年來，研究者們（Wallace et al. 2020, Xu et al. 2022）發現模型竊取不僅局限在模擬實驗場景，同時能成功竊取商用 APIs 的性能，並且在特定的場景下，仿製模型（imitation model）可以遠超遠程 APIs 的性能（Xu et al. 2022）。

儘管目前模型竊取的危害已經得到了廣泛研究，但是如何有效地保護受害模型免受模型竊取攻擊，依然是一個尚未解決的問題，尤其是在文本生成的任務里。相較於分類任務，文本任務的輸出必須是一串語義語法合規的文字，因此分類問題中通過改變各個類別分布的保護措施在此處並不適用。此外，研究者們提出在返回模型結果的過程中，對於部分數據，返回錯誤的預測，以此實現後門注入。

如若一個被懷疑的模型對於後門數據的預測和此前錯誤預測一致，則可認為此模型大概率是通過模型竊取所得。不過，此後門注入的方法存在着三個缺陷。

第一，為實現後門檢測，受害模型需要存儲大量後門數據。考慮到常見的商業 API 通常每秒至少需要提供上百萬次服務，後門數據的存儲必將極大增加 API 提供者的成本。第二，被懷疑模型使用過的數據對於受害模型是未知，因此受害模型需要檢測所有的後門數據。該檢測過程也會增加受害模型的防禦成本。若被懷疑模型採取收費模式，檢測成本亦會隨之上升。第三，受害模型通過提供可靠且高性能的服務從而實現盈利。若受害模型的輸出存在錯誤預測，可能會降低用戶的滿意度，從而導致用戶流失，進而影響市場競爭力。

基於此，He et al. 2022 提出採用基於詞法的水印技術來保護受害模型的版權。該水印技術可以有效驗證被懷疑的文本生成模型是否為竊取所得，並且盡最大限度保證受害模型的服務質量，同時無需存儲任何來自用戶的數據。但是，筆者發現，此方法可以通過逆向工程破解，從而導致水印失效。具體而言，筆者通過對比加過水印的數據和正常數據上的詞頻分布，即可發現水印。如圖 1 所示，因為水印詞和原詞的詞頻在水印數據和正常數據存在巨大差異，只需將這些異常詞做同義詞替換，即可去除水印。

▲ 圖1. 對比水印詞詞頻在水印數據（He et al.）和正常數據上的變化。紅色標記詞即為水印詞

因此本文提出一種基於條件要素的水印方法（__CATER__：Conditional wATERmarking），從而選擇性地對受害模型的輸出進行水印保護，以此實現難以察覺和不可逆向工程的版權保護。

模型介紹

▲ 圖2. CATER的保護和檢測過程

之前的水印技術失效的主要原因在於破壞了水印詞和原有詞的詞頻分布，導致水印秘鑰的泄露。因此，如圖 2 所示，CATER 採取選擇性水印，即只有當條件觸發時，受害模型的輸出才會打上水印。為了實現水印及其秘鑰保護，筆者提出了一個新的優化目標函數：

該目標函數由兩部分組成，第一部分是 indistinguishable objective，主要是為保證水印前後，目標詞（即水印詞）的整體詞頻不會發生較大變化。第二部分為 distinct objective，該目標函數是為了確保，在指定的條件下，目標詞的詞頻在水印前後不一致，從而實現水印後的檢測目的。

2.1 水印實現

遵循 He et al.，本文採用多組同義詞進行水印保護。具體而言，對每一組同義詞，筆者將目標函數轉化成一個混合整數線性規劃模型（mixed integer linear programming）進行求解：

此處是我們求解的最終水印，和則是通過計算訓練集裡目標詞和對應條件的頻率得到。

2.2 基於語言特徵的水印條件

如圖 3 所示，筆者在具體實驗中，主要考慮兩類語言特徵：1）詞性（part-of-speech）；2）依存句法樹（dependency tree）。

▲ 圖3. region在不同例句中，詞性和依存語法樹存在差異

假設我們採用 region 和 area 作為一組同義詞的水印目標。對於詞性而言，如果 region 的前一個詞的詞性是 PRON（參見第一個例句），則需將 region 替換為 area，否則不予替換（參見第二個例句）。同樣，給定句子的依存句法樹，如若，region 和父節點的關係是「nsubj」（參見例句 2 中的「do」），那麼 region 則替換為 area，否則保持不變。筆者研究了更多高階語法作為水印條件，感興趣的讀者請閱讀原文。

實驗結果

筆者在機器翻譯和文檔摘要任務上對 CATER 的效果進行驗證。兩個任務使用的數據集分別是：WMT14（DE-EN）和 CNN/Dailymail。遵照 He et al.，筆者從兩個角度來驗證 CATER 的效果。

第一個測試維度是判斷懷疑模型是否通過模型竊取得來。此處採用 null-hypothesis 作為檢測依據。若水印詞出現的頻率越高，則 p-value 越低，那麼懷疑模型愈發可能為通過模型竊取而得。具體計算步驟，請讀者參考原文。第二個測試維度是仿製模型的文本生成的質量。如前文所述，水印的基本原則是最大限度保持受害模型的服務質量。因此仿製模型的文本生成質量越高，水印帶來的負面影響越小。

3.1 基礎實驗

遵從模型竊取的基本設計思路，對於受害模型（victim model）和仿製模型（imitation model），筆者均採用同樣的模型結構，即 Transformer-base。此外，受害模型和仿製模型的數據集來自同樣的領域。

如表1所示，相較於沒有採用水印的基線，CATER 不僅可以準確地識別防止模型，並且不會過多損害模型的生成效果（參見 BLEU，BERTScore 以及 ROUGE）。雖然相較於 He et al., CATER 的 p-value 略微較差，但是能更好地隱藏水印詞，避免水印詞被攻擊者發現並移除（參考圖 1 和 4）。

▲ 表1. CATER和基線方法的對比

▲ 圖4. 水印詞詞頻在水印數據（CATER）和正常數據上的變化

3.2 模型不匹配情境下的版權保護

前文假設，受害模型和仿製模型均採用同樣的模型結構。然而在現實情況下，受害模型對於攻擊者而言是黑盒子。因此，受害模型和仿製模型的模型結構可能不一致。為驗證 CATER 在模型不匹配情境下的版權保護效果，筆者採用 BART 結構作為受害模型，對於仿製模型，採用三種常用文本生成模型：1）BART， 2）Transformer 和 3）ConvS2S。

▲ 表2. CATER在模型不匹配情境下的版權保護效果

如表 2 所示，CATER 的效果並不受限於模型，即使受害模型和仿製模型的模型結構不一致，CATER 也能有效地進行版權保護。

3.3跨領域竊取情境下的版權保護

同樣，前文假設受害模型和仿製模型均採用同樣領域的數據。同理，現實情況，受害模型的訓練數據對於攻擊者通常是未知的。因此，攻擊者可能使用跨領域的數據，從而導致水印失效。為驗證 CATER 在跨領域竊取情境下的版權保護效果，筆者在機器翻譯任務上進行實驗驗證。對於受害模型，訓練數據依然採用 WMT14，至於仿製模型的數據，筆者採用 IWSLT14（tedtalk）以及 OPUS （Law）。如表 3 所示，即使攻擊者使用不同領域的數據進行模型竊取，CATER 依舊能有效地保護受害模型的版權。

▲ 表3: CATER在跨領域竊取情境下的版權保護效果

3.4 CATER在適應式攻擊下的效果

前文研究了 CATER 在通常攻擊模式下的效果，但是攻擊者在進行模型竊取時，可能會得到一些先驗信息，比如受害模型會對輸出進行水印保護，更有甚者，通過特殊渠道獲知了具體的算法。因此，筆者亦對此適應式攻擊也進行了研究。筆者首先考慮的是，攻擊者在不知道具體算法的情境下，使用抵抗數據毒藥（data poisoning）的方法（本文採用 ONION (Qi et al.)）進行水印移除。如表 4 所示，使用 ONION 進行攻擊時，無法很好地移除水印，並且仿製模型的性能會受到損害。

▲ 表4. CATER在使用ONION進行攻擊時的效果

其次，筆者也對算法泄露場景下的攻擊進行評估。在算法泄露的場景下，攻擊者知悉水印的詞典來自 wordnet 的同義詞，同時也獲悉水印觸發條件為目標詞前一個詞的詞性，但是不清楚具體是哪些同義詞組合是水印。基於此先驗信息，攻擊者得到受害模型的輸出後，可以對數據進行分析，從而得到潛在的水印，即任意一組同義詞，有且僅有一個詞在給定條件下，該詞的詞頻不為零，其餘皆為零。滿足此條件的一組同義詞，筆者稱其為 sparse entry。

如圖5所示，攻擊者懷疑的 sparse entries（Watermarking Algorithm Leakage）的數量遠遠超過真實的數量（CATER），因此攻擊者幾乎難以通過逆向工程來獲取並移除掉水印，尤其是當受害模型採用高階 CATER 進行版權保護時。此外，筆者在原文中也在論文中嚴格證明了逆向工程的難度。

▲ 圖5. Sparse entries在不同階CATER下的真實數量和算法泄露後得到疑似數量。Upper bound是詞性在不同階CATER下的組合結果

結論

之前關於模型竊取的研究集中在攻擊者的角度，但是鮮有工作涉及到對模型竊取的防禦，尤其是在文本生成模型上。鑑於模型竊取對於商業 APIs 的重大危害，本文提出如何有效通過基於條件的水印算法（CATER）來保護受害模型的版權。筆者通過大量的測試場景，充分驗證了 CATER 的保護效果。筆者希望藉由 CATER 的有效性，提醒商業 APIs 的開發者採取有效保護措施，從而避免模型竊取而帶來的合法權益的損失。

參考文獻

[1]. Eric Wallace, Mitchell Stern, and Dawn Song. "Imitation Attacks and Defenses for Black-box Machine Translation Systems." EMNLP, 2020

[2] Qiongkai Xu, Xuanli He, Lingjuan Lyu, Lizhen Qu, and Gholamreza Haffari. "Beyond model extraction: Imitation attack for black-box nlp apis." COLING, 2022

[3]. Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, and Chenguang Wang. "Protecting intellectual property of language generation apis with lexical watermark." AAAI, 2022.

[4]. Fanchao Qi, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 「ONION: A Simple and Effective Defense Against Textual Backdoor Attacks」. EMNLP, 2021

更多閱讀