
(本文閱讀時間:9分鐘)
近日,微軟通用語言表示模型再創新佳績。最新的 T-ULRv6 在谷歌 XTREME 和 GLUE 排行榜上摘得雙榜冠軍,證明了單個多語言模型可以同時在英語和多語言理解任務上達到 SOTA 性能。這也是多語言理解模型首次在兩個排行榜上同時奪魁,力壓專用於英語或專用於多語言任務的模型,從而有助於消除「多語言詛咒」。
微軟亞洲研究院自然語言計算組首席研究員韋福如表示,「T-ULRv6 是我們推進大規模預訓練語言模型以及 AI 模型『大一統(The Big Convergence)』研究的重要里程碑。我們第一次發現通過規模化預訓練語言模型,可以讓多語言基礎模型在高資源(rich-resource)語言(例如英文)上,取得與專門為這些語言設計和訓練的單語言預訓練模型在對應語言的下游任務上一樣好的效果。之前的研究曾表明多語言預訓練模型在低資源(low-resource)語言的下游任務上有很大的性能提升並具有支持跨語言遷移的能力。這也說明未來我們可以專注於規模化多語言基礎模型,並結合我們所推進的多模態基礎模型大一統方面的研究(如 BEiT-3),為接下來推進多語言、多模態模型的統一提供經驗與參考。」
基於「XY-LENT」的 T-ULRv6 XXL 模型是微軟圖靈團隊和微軟亞洲研究院通力合作的成果,其平均分比 XTREME 排行榜目前位居第二的模型高出0.5分,在 GLUE 排行榜上也占據首位。

圖1:T-ULRv6 XXL 位居 XTREME 排行榜首位

圖2:T-ULRv6 XXL 位居 GLUE 排行榜首位
T-ULRv6 能夠取得如此優異的成績,是因為它在 XY-LENT 研究的基礎之上,利用了不同語言之間的多向 (X-Y) 平行文本對 (bitexts) ,並整合了 T-ULRv5 的關鍵創新,其中包括 XLM-E 架構、MRTD 和 TRTD 的新型預訓練任務、改進的訓練數據和詞彙,以及高級微調技術 xTune。此外,為了能夠擴展到 XXL 大小的模型,微軟還藉助了 ZeRO 的內存優化優勢。
T-ULRv6 的關鍵改進在於摒棄了以英語為中心的 (EN-X) 平行文本對,直接利用不同語言之間的多向 (X-Y) 平行文本對(如法語-德語、印地語-烏爾都語,或斯瓦希里語-阿拉伯語)。儘管在多語言機器翻譯中利用這種平行文本對數據屬於常規操作,但這是由問題的性質所決定的,研究員們的此次嘗試表明,利用平行文本對數據進行多語言編碼器訓練會帶來意想不到的性能提升。雖然 EN-X 平行文本對有助於學習跨語言對齊和共享表示,然而這種方式在語言和領域的覆蓋範圍及多樣性上會受到制約。另一方面,X-Y 平行文本對可以為學習多語言表示提供更豐富、更均衡的信息,從而可以更好地推廣到更廣泛的語言和任務中。
為了有效地利用 X-Y 平行文本對,研究員們採用了一種新穎的採樣策略,以確保數據在多語言之間有效分布,同時保持語言邊際分布一致。反過來說,這也確保了模型仍然能夠維持強大的英語性能。
在編碼器中有一個值得注意的特性,就是參數效率。XY-LENT XXL 明顯優於 XLM-R XXL 和 mT5 XXL,同時規模較後兩者分別縮小了約2倍和3倍。即使在 Base、Large 和 XL 三個類別中,與同類的其他模型相比,XY-LENT 也是最先進的,並且展現出了跨類別的競爭優勢。強大的性能和較少的參數,在產品開發場景中非常實用。


圖3:T-ULRv6 (XY-LENT) 在模型規模範圍內具有 SOTA 水平,同時具有參數效率
在 T-ULRv6 中,微軟亞洲研究院自然語言計算組的研究員們與微軟圖靈團隊緊密合作,為預訓練模型的研究和開發以及下游任務的微調算法,提供了關鍵技術。基於 XLM-E 工作中提出的多語言預訓練方法,研究員們成功實現了130倍的收斂提速,為 T-ULRv6 提供了方法框架。此外,針對多語言預訓練特有的語種競爭問題,研究員們還提出了 VoCap 準則,以此動態決定多語言詞表的分配額度,從而更好地對多語言輸入進行表徵。基於多語言的一致性準則,微軟亞洲研究院的研究員們提出的多語言微調框架 xTune,也更好地實現了跨語言遷移性能。
T-ULRv6 XXL 的另一個顯著優勢,是它在不犧牲質量或效率的前提下,憑藉單一模型即可在英語和多語言任務上同時實現 SOTA 性能。這意味着用戶不用再根據自然語言處理任務來選擇使用哪個預訓練模型,因為 T-ULRv6 XXL 可以很好地處理這兩種情況。這就簡化了模型選擇和部署的過程,也降低了維護多個模型所需的計算和存儲成本。
為了實現這一點,T-ULRv6 利用其擴展能力和非英語平行文本對 (non-English bitexts) 優勢消除了「多語言詛咒」,即在權衡英語和多語言性能時,常常給多語言模型造成困擾。T-ULRv6 不僅在涵蓋一系列英語自然語言理解任務的 GLUE 基準測試中優於專門的英語模型,在覆蓋40種不同類型語言和9種跨語言任務的 XTREME 基準測試中也優於專門的多語言模型。此外,T-ULRv6 模型規模也要小得多,這保證了其參數效率和可擴展性。

圖4:T-ULRv6 (XY-LENT) 在多語言任務中展現出了強大的性能
目前,T-ULRv6 已應用於微軟必應 (Bing) 中,為必應的國際化提供支持,使用戶能夠使用不同語言在不同地區搜索信息。T-ULRv6 還將會把最先進的多語言功能賦能微軟其他產品,通過其跨國別和跨語言的能力,助力微軟踐行「予力全球每一人、每一組織,成就不凡」的使命,為更多用戶提供幫助。
微軟一直認為 AI 技術要在學術界開放共享,進而促進合作與創新。因此,微軟啟動了「微軟圖靈學術計劃」 (MS-TAP,Microsoft Turing Academic Program),允許科研人員提交研究方案,從而獲得 T-ULRv6 和其他圖靈模型的詳細資料。微軟邀請所有人共同探索多語言理解和生成的潛力,一起應對挑戰,同時也歡迎大家提供寶貴的反饋和見解。未來,微軟還將開源 Base 和 Large 模型,進一步推動該領域的研究工作。
多語言技術不僅是一個技術挑戰,更是一項社會責任。微軟一直致力於通過消除限制 AI 易用性和包容性的障礙,例如缺乏訓練數據、語言建模成本過高以及多語言系統過於複雜等問題,實現 AI 的普及化。T-ULRv6 讓 AI 向着這一目標邁出了重要一步,它為跨語言系統開發提供了一個更為高效和可擴展的框架,僅使用一個模型就能同時處理英語和多語言任務。微軟很高興有機會進一步提高技術水平,開發新的多語言能力,讓世界各地的更多人和組織從中受益。希望這些工作能夠推動社會進步,讓 AI 更具包容性,並惠及所有人。
相關鏈接:
XY-LENT 論文鏈接:
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
https://arxiv.org/pdf/2210.14867.pdf
XLM-E 論文鏈接:
XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
https://arxiv.org/abs/2106.16138
xTune 論文鏈接:
Consistency Regularization for Cross-Lingual Fine-Tuning
https://arxiv.org/pdf/2106.08226.pdf
ZeRO 論文鏈接:
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
https://arxiv.org/pdf/1910.02054.pdf
VoCap 論文鏈接:
Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training
https://arxiv.org/pdf/2109.07306.pdf
微軟圖靈學術計劃網頁:
https://www.microsoft.com/en-us/research/collaboration/microsoft-turing-academic-program/
你也許還想看:

