PaperWeekly - 盼星星盼月亮：首期模型CPM-Ant訓練完成啦！－鑽石舞台

2022 年 8 月 5 日，CPM-Live 直播訓練迎來了它的第一個里程碑：

🎉首期模型 CPM-Ant 訓練完成啦！🎉

盼星星盼月亮，經過一個月的評測與打磨，我們很高興能夠在今天發布 CPM-Ant 的全部內容。

從大模型訓練、微調、推理到應用，不管你是大模型研發者還是大模型技術的愛好者，相信你都能夠從 CPM-Ant 的發布內容中有所收穫，快來看看吧！

👀 概覽

—

CPM-Ant 是一個開源的中文預訓練語言模型，擁有 10B 參數。它是 CPM-Live 直播訓練過程中的第一個里程碑。訓練過程是低成本和環境友好的。基於增量微調（delta tuning）方法，CPM-Ant 在 CUGE 基準測試中取得了優異的結果。除了完整的模型，我們還提供各種壓縮版本以適應不同的硬件配置。CPM-Ant 相關代碼、日誌文件和模型參數在一個開放的許可協議下完全開源。具體來說，CPM-Ant 具有如下特點：

計算高效

BMTrain[1]工具包讓我們能夠充分利用分布式計算資源的能力以高效訓練大模型。CPM-Ant 的訓練持續了68 天，花費了43 萬人民幣，是谷歌訓練 T5-11B 模型約 130 萬美元費用的 1/20。訓練 CPM-Ant 的溫室氣體排放量約為4872kgCO₂e，而訓練 T5-11B 的排放量為 46.7t CO₂e[9]，我們的方案約為其排放量的 1/10。

性能優異

OpenDelta[3]工具讓我們能夠非常方便地通過增量微調將 CPM-Ant 適配到下游任務。在我們的實驗中，CPM-Ant 僅僅微調了 6.3M 參數就在 3/6 個 CUGE 任務上取得了最好的結果。這一結果超越了其他全參數微調的模型，舉例來說：CPM-Ant 的微調參數量僅為 CPM2（微調了 11B 參數）的 0.06%。

部署經濟

BMCook[7]和 BMInf[4]工具包讓我們能夠在有限的計算資源下驅動 CPM-Ant。基於 BMInf，我們能夠替代計算集群在單塊 GPU 上進行大模型推理（即便是一塊 GTX 1060 這樣的消費級顯卡）。為了使 CPM-Ant 的部署更加經濟，我們使用 BMCook 進一步將原始的 10B 模型壓縮為不同的版本。壓縮後的模型（7B，3B，1B，300M）能夠適應不同低資源場景下的需求。

使用便捷

不管是原始 10B 模型還是相關的壓縮版本，通過幾行代碼就能夠輕鬆地加載與運行。我們也會將 CPM-Ant 加入到 ModelCenter[8] 中，對模型的進一步開發會變得更加容易。

開放民主

CPM-Ant 的訓練過程完全開放。我們發布了所有的代碼、日誌文件和模型存檔並提供開放獲取。CPM-Ant 也採用了允許商業化的開放許可協議。

-官方網站二維碼

To 大模型提供者

一份完整的大模型訓練實踐

—

對於有能力進行大模型訓練的廠商與研究機構，CPM-Ant 訓練過程提供了一份完整的中文大模型訓練實戰記錄。

訓練開始前，我們發布了 CPM-Live 系列模型的模型設計、訓練方案、數據需求和實現代碼，如果您也希望能夠訓練一個大模型，可以方便快速地基於 CPM-Live 的模型架構設計實現您的方案並整理相關的業務數據，完成模型預研和數據準備工作。

訓練過程中，我們在官方網站記錄了全部訓練動態，包括損失函數、學習率、已學習數據、吞吐量、梯度大小、花費成本曲線，以及模型內部參數均值和標準差實時展示，幫助使用者快速診斷模型訓練過程是否出現問題。

- 模型訓練內部參數實時展示

除實時訓練動態外，我們的研發同學每天也實時更新了訓練記錄總結，總結內容包括損失值、梯度值、總體進展，還記錄了遇到的一些問題和訓練過程中的 bug，方便您提前了解模型訓練過程中的可能會遇到的各種「坑」。

在模型訓練「風平浪靜」的日子，研發小哥也會拋出一些名言名句、介紹一些最新論文、甚至發起猜謎活動，細細讀之相信會別有收穫。

- 日誌中的一次猜謎活動

除此之外，我們還提供了成本經濟的訓練方案，使用BMTrain[1]工具包，百億大模型 CPM-Ant 訓練的算力花費僅 43 萬人民幣（當前花費依照公有雲價格計算，實際成本會更低），是 11B 大模型 T5 外界估算成本 130 萬美元的約1/20。對於實際有大模型訓練需求的企業，通過 OpenBMB 相關訓練加速技術，訓練成本已經降低到可以接受的水平。

To 大模型研究者

一份屢創 SOTA 的高效微調方案

—

對於大模型研究者，我們提供了一份基於參數高效微調的大模型性能評測方案，方便快速進行下游任務適配並評測模型性能。

具體而言，我們使用參數高效微調，即增量微調（delta tuning）來評估 CPM-Ant 在六個下游任務上的性能。我們在實驗中採用了 LoRA[2]，它在每個注意層中插入了兩個可調整的低秩矩陣，並凍結了原始模型的所有參數。使用這種方法，我們為每個任務只微調了6.3M的參數，僅占總參數的0.067%。

在 OpenDelta[3]的幫助下，我們進行了所有的實驗，而沒有修改原始模型的代碼。需要指出的是，在下游任務上評測 CPM-Ant 模型時，我們沒有使用任何數據增強的方法。實驗結果如下表所示：

可以看到在僅微調極少參數的情況下，我們的模型在三個數據集上的性能已經超過了 CPM-2 和源 1.0。同時我們也發現，有些任務（例如 LCSTS）在微調參數極少時可能會比較難以學習。

CPM-Live 的訓練過程將會繼續，我們會進一步打磨 CPM-Live 在各個任務上的性能。我們也歡迎各位研究者使用 CPM-Ant 和 OpenDelta，進一步探索 CPM-Ant 在其他任務上的能力。

To 大模型使用者

一系列硬件友好的推理方式

—

對於大模型使用者，我們提供了一系列硬件友好的使用方式，能夠較為方便地在不同硬件環境下運行不同的模型版本。

使用BMInf[4]工具包，使用者可以將 CPM-Ant 運行在單卡 1060 這樣的低資源環境中。除此之外，我們還將 CPM-Ant 進行了壓縮。這些壓縮的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有這些模型壓縮尺寸都可以對應於現有的開源預訓練語言模型的經典尺寸。

考慮到用戶可能會在我們發布的檢查點上進行進一步的開發，我們主要使用任務無關的結構化剪枝來壓縮 CPM-Ant。剪枝過程也是漸進的，即從 10B 到 7B，從 7B 到 3B，從 3B 到 1B，最後從 1B 到 0.3B。

在具體的剪枝過程中，我們會訓練一個動態的可學習的掩碼矩陣，然後用這個掩碼矩陣來裁剪相應的參數。最後，根據掩碼矩陣的閾值修剪參數，該閾值是根據目標稀疏度確定的。更多壓縮的細節可以參考我們的技術博客[5]。下表展示了模型壓縮的結果：

To 大模型開發者

一款出乎意料的大模型趣味應用

—

對於大模型開發者與愛好者，您可以基於 CPM-Ant 開發任何文本趣味應用。

為了進一步驗證模型的有效性並提供範例，我們在 CPM-Ant 基礎上微調了一個勁爆標題生成器以展示模型能力。只需要把正文內容粘貼到下方文本框，一鍵點擊生成，就可以得到大模型提供的勁爆標題！

‍‍- 本文標題即由生成器生成！

我們會不斷打磨這款 demo，並且將會添加更多的功能，提高用戶體驗。

感興趣的用戶也可以使用 CPM-Ant 構建您自己的展示應用。如果您有任何應用想法、需要技術支持或者使用我們的 demo 遇到任何問題，歡迎您隨時在我們的論壇[6]發起討論！

結語&參考資料

—

作為首個直播訓練中文大模型，CPM-Ant 在大模型訓練、微調、壓縮、推理、應用等環節均提供了一份可行的實踐方案，希望能為不同的關注者提供不同的幫助與參考。

未來 CPM-Live 仍將持續學習，簡單劇透一下，下一期的訓練中將新增多語言支持、結構化輸入輸出等新特性，歡迎各位讀者繼續關注，一起為 CPM-Live 加油打 call！

▾ 傳送門項目鏈接

—

關注「OpenBMB開源社區」公眾號，後台回復CPM-Live，即可加入CPM-Live加油群

項目 GitHub 地址：

🔗https://github.com/OpenBMB/CPM-Live

Demo 體驗地址（僅限 PC 訪問）：

🔗https://live.openbmb.org/ant

📃參考資料

1.BMTrain:

https://github.com/OpenBMB/BMTrain

2.LoRA:

Low-Rank Adaptation of Large Language Models. ICLR 2021.

3.OpenDelta:

https://github.com/thunlp/OpenDelta

4.BMInf:

https://github.com/OpenBMB/BMInf

5. 技術博客：

https://www.openbmb.org/community/blogs/blogpage?id=98afef2ce45f4fe9a4bc15a66d7ccb92

6.CPM-Live 論壇：

https://github.com/OpenBMB/CPM-Live/discussions/categories/application-ideas-%E5%BA%94%E7%94%A8%E6%83%B3%E6%B3%95

7.BMCook:

https://github.com/OpenBMB/BMCook

8.Model Center:

https://github.com/OpenBMB/ModelCenter

9. Carbon emissions and large neural network training.

https://arxiv.org/pdf/2104.10350.pdf

OpenBMB開源社區

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

PaperWeekly - 盼星星盼月亮：首期模型CPM-Ant訓練完成啦！

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

PaperWeekly - 盼星星盼月亮：首期模型CPM-Ant訓練完成啦！

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結