GitHubDaily - 一個令人讚不絕口的開發者神器！－鑽石舞台

公眾號關注「GitHubDaily」

設為「星標」，每天帶你逛 GitHub！

大家好，我是小 G。

提起大模型，除了各種驚艷的性能表現，還伴隨着高昂的硬件要求和運行成本，將絕大多數 AI 社區成員都拒之門外。

得益於開源社區的蓬勃發展，現在情況大有不同：

無需註冊，就可以免費白嫖 1750 億參數的 OPT 模型！

還不快打開下方鏈接，自己上手在線體驗一下？

雲服務體驗地址：https://service.colossalai.org/

快速體驗

基於 1750 億參數 OPT 大模型，該網站支持多種文本生成任務，包括事實問答、聊天機器人、翻譯、文章創作等。

只需點擊對應的子任務名，如文章創作，輸入需要的對應內容，點擊右下方的藍色生成按鈕，稍等就能得到結果。

背後技術

OPT-175B

要想了解剛剛體驗的大模型推理的技術原理，首先，讓我們先回顧一下剛才所用到的大模型。

OPT 的全稱為 Open Pretrained Transformer，是 Meta (Facebook) AI 實驗室發布的對標 GPT-3 的大規模 Transformer 模型，共有 1750 億個參數。

與 OpenAI 尚未公開模型權重的 GPT-3 相比，Meta AI 慷慨地開源了所有的代碼以及模型權重，極大推動了 AI 大模型落地與應用，每一位開發者都能以此為基礎開發個性化的下游任務。

然而 GPT-3、OPT-175B、AlphaFold 等前沿 AI 大模型遠超現有硬件容納能力，訓練和部署推理服務都必須使用複雜專業的分布式技術。現有系統大都存在上手門檻高、運行效率不高、通用性差、部署困難、缺乏維護等問題。

面對這一痛點，面向大模型時代的通用深度學習系統 Colossal-AI，僅需幾行代碼，便能高效快速部署 AI 大模型訓練和推理，促進 AI 大模型低成本應用和落地。

使用開源 Colossal-AI 快速部署 AI 大模型雲服務

OPT 雲服務

此次 OPT-175B 超大模型部署的快速上線，依託 AI 大模型開源解決方案 Colossal-AI 生態，只需少量改動，即可完成大模型雲端並行部署。

從無法運行到快速啟動：

運行超大模型首當其衝的問題是單個 GPU 顯存無法容納巨量的模型參數，而推理問題不僅僅要考慮吞吐量還要考慮時延，因此使用並行來解決這個問題是一種直觀的思路，藉助 Colossal-AI 生態可以輕鬆將一個單機模型轉換成並行運行。Colossal-AI 生態提供眾多可以參考應用實例，如 GPT、OPT、BERT、PaLM、AlphaFold 等。

獲得並行 OPT 模型之後，下一步要處理的是參數加載。Colossal-AI 生態也提供了並行模型參數加載的解決方案，用戶只需要參考樣例簡單提供參數名映射關係即可完成模型參數的加載，最後將模型投入到 Colossal-AI 生態提供的推理引擎中，設置相應的超參數。截至此刻，大模型 OPT 主幹網絡的推理服務就可以上線並能輸出有意義的結果。

從成功啟動到高效部署：

在跨越了內存牆問題、並行參數加載等重重阻礙，成功運行了並行主幹網絡後，為了進一步提高推理性能，Colossal-AI 還提供了多個面向生成式任務的優化，可實現數十倍推理吞吐量的提升。

由於 OPT 面向的是生成式任務，而生成式任務需要不斷循環模型的輸出結果。這使得推理中常見的 batching 策略無法直接應用，而單 batch 運行效率低下。此外，在生成階段還存在大量的重複計算。

為了全面釋放生成式任務運行中高性能硬件的潛力，此次推理部署增加了 left padding 技術使得 batching 成為可能，還增加了 past cache 技術來消除在生成階段的重複計算問題，以及引入 bucket batching 技術減少無意義的計算。

先來講講為什麼生成式任務無法直接使用常見的 batching 方法。如下圖所示，由於輸入語句的長度通常參差不齊，而且多數語言的書寫習慣都是從左至右，如果用常規的 right padding，那麼對於較短的句子就難以生成有意義的結果或者需要複雜的處理才能生成結果，繼而導致無法使用 batching 方法。而當我們使用 left padding 對句子進行填充時，每一個句子的生成側（右側）都是對齊的，可以同時生成新的單詞。

Right padding 不適合生成式任務