![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f514c44537933437833594c4e72696156725256427a374e69626b7171466f4a62305a42446e597a61326c4155637772654a7254656631544b5655466a514d5965544d55696130466b73624338754a734d7935727471687974772f3634303f77785f666d743d706e67.webp)
OOD現象和OOD檢測在分類任務中已經被廣泛研究:
在conditional language model(CLM)任務(主要是summarization,translation)中,而由於language generation主要是通過auto-regressive的方式,錯誤更容易積累,因此OOD問題可能更嚴重。
本文的主要貢獻:
如果直接套用classification任務中使用MSP作為OOD score的話,那麼對於NLG問題我們就應該採用perplexity(ppx),然而作者實驗發現使用ppx的效果很不好:
從上圖可以看到,不用domain來源的數據,其ppx的分布重疊程度很高;甚至有些明明是OOD的數據,但其綜合的ppx比ID的數據還要低。因此ppx對ID vs OOD的區分能力很差。
如何使用CLM自身的embedding來得到OOD score?
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f514c44537933437833594c4e72696156725256427a374e69626b7171466f4a62305a6669634b4e4d527079534e684b746f6b6b78335842685538546b5032586563617a3463717a6a5a494f5a57754e426543463333546e74412f3634303f77785f666d743d706e67.webp)
直覺上講,當一個樣本的輸入/輸出的embedding跟我訓練樣本的embedding分布距離很遠的話,就很可能是OOD樣本。
因此,可以先用訓練數據集,對輸入和輸出空間擬合一個embedding的高斯分布:
然後,就可以使用馬氏距離(Mahalanobis distance,MD)來衡量新來的embedding跟訓練集embedding的距離:
馬氏距離是基於樣本分布的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。(維基百科)
然而,已有一些研究表明,使用相對馬氏距離(即增加一個background distribution來作為一個參照),可以更好地進行OOD檢測。於是對上述公式改進為:
其中是衡量test input跟一個background高斯分布的距離,這個background分布,是使用一個通用語料擬合出來的,比方使用C4語料庫。
而對於CLM這種需要成對語料的任務,通用語料中一般是沒有的,所以使用通用文本通過CLM decode出來的 outputs來擬合分布:
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f514c44537933437833594c4e72696156725256427a374e69626b7171466f4a62305a686962654d7631563748346f7a617452774f5274497167464b3951484a5865513267556961746b7274663355337269617a70635373543556412f3634303f77785f666d743d706e67.webp)
這樣一來,RMD scores實際上可能為正也可能為負:
因此,RMD score可以直接作為OOD detection的指標。
2. 基於embedding訓練一個detector上面是一種無監督的辦法,作者還提出了一種有監督的辦法,使用training samples和general samples作為兩個類別的數據,使用embedding作為feature來訓練一個logistic regressive model,使用background類的logits作為OOD score:
以summarization為例,實驗所用數據為:
實驗結論:
當檢測到OOD時,一個最保守的做法就是直接拒絕給出輸出,從而避免潛在的風險。但是,我們依然希望當模型的輸出質量足夠高時,即使是OOD也能輸出。
當有參考答案時,如何衡量輸出文本的質量?
對於translation問題,使用BLEURT作為衡量指標;
對於summarization,常見是使用ROUGE score,但由於不同數據集的摘要模式差別很大,所以只使用ROUGE還不夠,作者使用亞馬遜眾籌平台來對一批數據進行人工質量打標。
能否找到一個指標,不需要參考答案也能衡量文本質量?
實驗發現,對於in-domain數據,ppx跟質量有比較好的相關性,但是對於OOD數據,相關性很差。
但是OOD score可以跟ppx互相補充,從而形成一個比較好的對應指標:
單獨只考察ppx或者RMD OOD score的話,難以區分質量的高低,但是同時考察二者,就有較高的區分度。究其原因,作者這麼解釋:
因此二者是互補的關係。
那麼二者如何結合呢:
可以看出,這種二者結合的方法,比各種只用單個指標的baselines都能更好地反映生成的質量。
在selective generation階段,設定一個遺棄比例,然後把quality score最低的那部分丟棄。
Key takeaways:
進技術交流群請添加AINLP小助手微信(id:ainlp2)
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f6e57325a5066755971534a41446b6d5a324958365a32337a6e416962754565766f74444d713969614d786961704b376a664d696269617547466b79636963414a45733678355539534779444a5a305331745265643954504e555544512f3634303f77785f666d743d6a70656726616d703b777866726f6d3d3526616d703b77785f6c617a793d3126616d703b77785f636f3d31.webp)
關於AINLP
AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLP小助手微信(id:ainlp2),備註工作/研究方向+加群目的。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f6e57325a5066755971534b41424843715656516b565950724d345859317673643069616575587a794a6e6f46633863696264356d59623477644133574d5174696150566d7230584c5a484d7556696271576e636962706e54536e512f3634303f77785f666d743d6a70656726616d703b777866726f6d3d3526616d703b77785f6c617a793d3126616d703b77785f636f3d31.webp)
閱讀至此了,分享、點讚、在看三選一吧🙏