2022 年 8 月 5 日,CPM-Live 直播訓練迎來了它的第一個里程碑:
盼星星盼月亮,經過一個月的評測與打磨,我們很高興能夠在今天發布 CPM-Ant 的全部內容。
從大模型訓練、微調、推理到應用,不管你是大模型研發者還是大模型技術的愛好者,相信你都能夠從 CPM-Ant 的發布內容中有所收穫,快來看看吧!

👀 概覽
CPM-Ant 是一個開源的中文預訓練語言模型,擁有 10B 參數。它是 CPM-Live 直播訓練過程中的第一個里程碑。訓練過程是低成本和環境友好的。基於增量微調(delta tuning)方法,CPM-Ant 在 CUGE 基準測試中取得了優異的結果。除了完整的模型,我們還提供各種壓縮版本以適應不同的硬件配置。CPM-Ant 相關代碼、日誌文件和模型參數在一個開放的許可協議下完全開源。具體來說,CPM-Ant 具有如下特點:
CPM-Ant 的訓練過程 完全開放。我們發布了所有的代碼、日誌文件和模型存檔並提供開放獲取。CPM-Ant 也採用了允許商業化的開放許可協議。
-官方網站二維碼

To 大模型提供者
—
對於有能力進行大模型訓練的廠商與研究機構,CPM-Ant 訓練過程提供了一份完整的中文大模型訓練實戰記錄。
- 日誌中的一次猜謎活動
除此之外,我們還提供了成本經濟的訓練方案,使用BMTrain[1]工具包,百億大模型 CPM-Ant 訓練的算力花費僅 43 萬人民幣(當前花費依照公有雲價格計算,實際成本會更低),是 11B 大模型 T5 外界估算成本 130 萬美元的約1/20。對於實際有大模型訓練需求的企業,通過 OpenBMB 相關訓練加速技術,訓練成本已經降低到可以接受的水平。

To 大模型研究者
—
具體而言,我們使用參數高效微調,即增量微調(delta tuning)來評估 CPM-Ant 在六個下游任務上的性能。我們在實驗中採用了 LoRA[2],它在每個注意層中插入了兩個可調整的低秩矩陣,並凍結了原始模型的所有參數。使用這種方法,我們為每個任務只微調了6.3M的參數,僅占總參數的0.067%。
在 OpenDelta[3]的幫助下,我們進行了所有的實驗,而沒有修改原始模型的代碼。需要指出的是,在下游任務上評測 CPM-Ant 模型時,我們沒有使用任何數據增強的方法。實驗結果如下表所示:
可以看到在僅微調極少參數的情況下,我們的模型在三個數據集上的性能已經超過了 CPM-2 和源 1.0。同時我們也發現,有些任務(例如 LCSTS)在微調參數極少時可能會比較難以學習。
CPM-Live 的訓練過程將會繼續,我們會進一步打磨 CPM-Live 在各個任務上的性能。我們也歡迎各位研究者使用 CPM-Ant 和 OpenDelta,進一步探索 CPM-Ant 在其他任務上的能力。

To 大模型使用者
一系列硬件友好的推理方式
對於大模型使用者,我們提供了一系列硬件友好的使用方式,能夠較為方便地在不同硬件環境下運行不同的模型版本。
使用BMInf[4]工具包,使用者可以將 CPM-Ant 運行在單卡 1060 這樣的低資源環境中。除此之外,我們還將 CPM-Ant 進行了壓縮。這些壓縮的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有這些模型壓縮尺寸都可以對應於現有的開源預訓練語言模型的經典尺寸。
考慮到用戶可能會在我們發布的檢查點上進行進一步的開發,我們主要使用任務無關的結構化剪枝來壓縮 CPM-Ant。剪枝過程也是漸進的,即從 10B 到 7B,從 7B 到 3B,從 3B 到 1B,最後從 1B 到 0.3B。
在具體的剪枝過程中,我們會訓練一個動態的可學習的掩碼矩陣,然後用這個掩碼矩陣來裁剪相應的參數。最後,根據掩碼矩陣的閾值修剪參數,該閾值是根據目標稀疏度確定的。更多壓縮的細節可以參考我們的 技術博客[5]。下表展示了模型壓縮的結果:

To 大模型開發者
對於大模型開發者與愛好者,您可以基於 CPM-Ant 開發任何文本趣味應用。
為了進一步驗證模型的有效性並提供範例,我們在 CPM-Ant 基礎上微調了一個勁爆標題生成器以展示模型能力。只需要把正文內容粘貼到下方文本框,一鍵點擊生成,就可以得到大模型提供的勁爆標題!
我們會不斷打磨這款 demo,並且將會添加更多的功能,提高用戶體驗。
感興趣的用戶也可以使用 CPM-Ant 構建您自己的展示應用。如果您有任何應用想法、需要技術支持或者使用我們的 demo 遇到任何問題,歡迎您隨時在我們的 論壇[6]發起討論!

結語&參考資料
—
作為首個直播訓練中文大模型,CPM-Ant 在大模型訓練、微調、壓縮、推理、應用等環節均提供了一份可行的實踐方案,希望能為不同的關注者提供不同的幫助與參考。
未來 CPM-Live 仍將持續學習,簡單劇透一下,下一期的訓練中將新增多語言支持、結構化輸入輸出等新特性,歡迎各位讀者繼續關注,一起為 CPM-Live 加油打 call!
關注「OpenBMB開源社區」公眾號,後台回復CPM-Live,即可加入CPM-Live加油群
項目 GitHub 地址:
🔗https://github.com/OpenBMB/CPM-Live
Demo 體驗地址(僅限 PC 訪問):
🔗https://live.openbmb.org/ant
📃參考資料
1.BMTrain:
https://github.com/OpenBMB/BMTrain
2.LoRA:
Low-Rank Adaptation of Large Language Models. ICLR 2021.
3.OpenDelta:
https://github.com/thunlp/OpenDelta
4.BMInf:
https://github.com/OpenBMB/BMInf
5. 技術博客:
https://www.openbmb.org/community/blogs/blogpage?id=98afef2ce45f4fe9a4bc15a66d7ccb92
6.CPM-Live 論壇:
https://github.com/OpenBMB/CPM-Live/discussions/categories/application-ideas-%E5%BA%94%E7%94%A8%E6%83%B3%E6%B3%95
7.BMCook:
https://github.com/OpenBMB/BMCook
8.Model Center:
https://github.com/OpenBMB/ModelCenter
9. Carbon emissions and large neural network training.
https://arxiv.org/pdf/2104.10350.pdf