PaperWeekly - NeurIPS 2022 | 詞嵌入表示參數占比太大？MorphTE方法20倍壓縮效果不減－鑽石舞台

©作者 |機器之心編輯部

來源 |機器之心

天津大學量子智能與語言理解團隊聯合香港中文大學（深圳）共同發表論文《MorphTE: Injecting Morphology in Tensorized Embeddings》，該論文已被 NeurIPS 2022 接收。

引言

詞嵌入表示作為機器翻譯、問答、文本分類等各種自然語言處理任務的基礎，它通常會占到模型參數總量的 20%~90%。存儲和訪問這些嵌入需要大量的空間，這不利於模型在資源有限的設備上部署和應用。針對這一問題，本文提出了 MorphTE 詞嵌入壓縮方法。MorphTE 結合了張量積操作強大的壓縮能力以及語言形態學的先驗知識，能夠實現詞嵌入參數的高倍壓縮（超過20 倍），同時保持模型的性能。

論文題目：

MorphTE: Injecting Morphology in Tensorized Embeddings

論文來源：

NeurIPS 2022

論文鏈接：

https://arxiv.org/abs/2210.15379

代碼鏈接：

https://github.com/bigganbing/Fairseq_MorphTE

模型

本文提出的 MorphTE 詞嵌入壓縮方法，首先將單詞劃分成具有語義含義的最小單位——語素，並為每個語素訓練低維的向量表示，然後利用張量積實現低維語素向量的量子糾纏態數學表示，從而得到高維的單詞表示。

2.1 單詞的語素構成

語言學中，語素是具有特定語義或語法功能的最小單位。對於英語等語言來說，一個單詞可以拆分成詞根、詞綴等更小單位的語素。例如，「unkindly」可以拆分成表示否定的「un」、具有「友好的」等含義的「kind」，以及表示副詞的「ly」。對於漢語來說，一個漢字同樣可以拆分成偏旁部首等更小單位，如「沐」可拆分成表示水的「氵」和「木」。

語素在蘊含語義的同時，也可以在詞之間進行共享，從而聯繫不同的詞。此外，有限數量的語素可以組合出更多的詞。

2.2 糾纏張量形式的詞嵌入壓縮表示

相關工作 Word2ket 通過張量積，表示單個詞嵌入為若干低維向量的糾纏張量形式，其公式如下：

其中

、r 為秩、n 為階，

表示張量積。Word2ket 只需要存儲和使用這些低維的向量來構建高維的詞向量，從而實現參數有效降低。例如，r =2、n=3時，一個維度為 512 的詞向量，可以通過兩組，每組三個維度為 8 低維向量張量積得到，此時所需參數量從 512 降低至 48。

2.3 形態學增強的張量化詞嵌入壓縮表示

通過張量積，Word2ket 能夠實現明顯的參數壓縮，然而其在高倍壓縮以及機器翻譯等較複雜任務上，通常難以達到壓縮前的效果。既然低維向量是組成糾纏張量的基本單位，同時語素是構成單詞的基本單位。該研究考慮引入語言學知識，提出了 MorphTE，其訓練低維的語素向量，並利用單詞所包含的語素向量的張量積來構建相應的詞嵌入表示。

具體而言，先利用語素分割工具對詞表 V 中的詞進行語素分割，所有詞的語素將構成一個語素表 M，語素的數量會明顯低於詞的數量（

）。

對於每個詞，構建其語素索引向量，該向量指向每個詞包含的語素在語素表中的位置。所有詞的語素索引向量構成一個

的語素索引矩陣，其中 n 是 MorphTE 的階數。

對於詞表中的第 j 個詞

，利用其語素索引向量

從 r 組參數化的語素嵌入矩陣中索引出相應的語素向量，並通過張量積進行糾纏張量表示得到相應的詞嵌入，該過程形式化如下：

通過以上方式，MophTE 可以在詞嵌入表示中注入以語素為基礎的語言學先驗知識，同時語素向量在不同詞之間的共享可以顯式地構建詞間聯繫。此外，語素的數量和向量維度都遠低於詞表的大小和維度，MophTE 從這兩個角度都實現了詞嵌入參數的壓縮。因此，MophTE 能夠實現詞嵌入表示的高質量壓縮。

實驗

本文主要在不同語言的翻譯、問答等任務上進行了實驗，並且和相關的基於分解的詞嵌入壓縮方法進行了比較。

從表格中可以看到，MorphTE 可以適應英語、德語、意大利語等不同語言。在超過 20 倍壓縮比的條件下，MorphTE 能夠保持原始模型的效果，而其他壓縮方法幾乎都出現了效果的下降。此外，在超過 40 倍壓縮比的條件下，MorphTE 在不同數據集上的效果都要好於其他壓縮方法。

同樣地，在 WikiQA 的問答任務、SNLI 的自然語言推理任務上，MorphTE 分別實現了 81 倍和 38 倍的壓縮比，同時保持了模型的效果。

結論

MorphTE 結合了先驗的形態學語言知識以及張量積強大的壓縮能力實現了詞嵌入的高質量壓縮。在不同語言和任務上的實驗表明，MorphTE 能夠實現詞嵌入參數 20～80 倍的壓縮，且不會損害模型的效果。這驗證了引入基於語素的語言學知識能夠提升詞嵌入壓縮表示的學習。儘管 MorphTE 當前只建模了語素，它實際上可以被擴展為一個通用的詞嵌入壓縮增強框架，顯式建模原形、詞性、大小寫等更多先驗的語言學知識，進一步提升詞嵌入壓縮表示。

更多閱讀