Meta AI 在昨天公布的一篇論文可謂是炸開了鍋,論文網站 paperswithcode 熱搜榜第一,眾多 AI 大佬推薦:
LSTM 提出者和奠基者,奧地利人工智能高級研究所(IARAI)創始人 Sepp Hochreiter 教授就在推特上進行了宣傳:

有研究者表示這是將大型 LM 研究引入學術界的重大一步。用一句話總結就是:Meta AI 正在開放用於人工智能研究的大型語言模型訪問權限,並表示這個具有 1750 億參數的模型,是第一個可供更廣泛的人工智能研究社區使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 億參數,不知道這一數字是巧合還是其他。大型語言模型,即具有超過 1000 億個參數的自然語言處理 (NLP) 系統,在過去幾年中改變了 NLP 和 AI 研究。這些模型經過大量文本訓練,在生成創意文本、解決數學問題、回答閱讀理解等方面表現出令人驚訝的能力。雖然在某些情況下,公眾可以通過付費 API 與這些模型進行交互,但完整的研究訪問權限仍然僅限於少數資源豐富的實驗室。這種受限訪問限制了研究人員理解這些大型語言模型如何以及為什麼工作的能力,阻礙了提高其魯棒性和減輕偏見等已知問題的進展。根據 Meta AI 對開放科學的承諾,他們正在共享 Open Pretrained Transformer (OPT-175B),這是一個具有 1750 億參數的模型,在公共數據集上訓練而成,之所以共享這個模型,Meta AI 希望更多的社區參與理解關於大模型的基本技術。
論文地址:https://arxiv.org/pdf/2205.01068.pdf對於這種規模的語言技術系統,該版本首次包括預訓練模型以及訓練和使用它們所需的代碼。為了保持完整性並防止濫用,Meta AI 將在非商業許可下發布該模型,以專注於研究用例。該模型的訪問權限將授予學術研究人員;隸屬於政府、民間團體和學術界組織的人員;以及世界各地的工業研究實驗室。Meta AI 希望整個人工智能社區,包括學術研究人員、民間團體、政策制定者等研究者共同努力,圍繞負責任的人工智能,特別是負責任的大型語言模型制定明確的指導方針,因為它們在許多下游語言應用程序中處於中心地位。人工智能社區更需要訪問這些模型,以便進行可重複的研究並共同推動該領域的發展。隨着 OPT-175B 和小規模基線的發布,Meta AI 也希望增加倫理方面的考慮。
根據 AI 合作夥伴關係(Partnership on AI)為研究人員制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 節),Meta AI 將發布開發過程的所有記錄文檔,包括詳細說明日常訓練過程的完整 logbook,因此其他研究人員可以更輕鬆地在此工作基礎上繼續研究。此外,這些細節還揭示了用於訓練 OPT-175B 的計算量以及當底層基礎設施或訓練過程本身大規模變得不穩定時所需的人力開銷。對此有研究者表示:研究團隊的 logbook 是一個隱藏的寶石,突出了自 Lua torch 以來就存在且尚未解決的 ML 研究中的痛點 / 更廣泛的問題:
Meta AI 僅使用 16 個 NVIDIA V100 GPU 來訓練和部署模型的代碼庫,以增加這些模型的可訪問性,達到專門用於研究目的。Meta AI 還全面發布了一套更小規模的基線模型,使用的數據集和 OPT-175B 相同 ,設置也和 OPT-175B 類似,這樣一來研究人員能夠單獨研究模型規模的影響。這些小規模模型的參數包括 1.25 億、3.5 億、13 億、27 億、67 億、130 億和 300 億(660 億即將發布)。
人工智能研究的最新發展消耗了大量的計算能力。雖然行業實驗室已經開始報告這些模型的碳足跡,但大多數不包括與實驗研發階段相關的計算成本,在某些情況下,這可能比訓練最終模型更耗費一個數量級的資源。Meta AI 在開發 OPT-175B 時考慮到了能源效率,其碳足跡僅為 GPT-3 的 1/7。這是通過在 Megatron-LM 中結合 Meta 的開源全分片數據並行 (FSDP) API 和 NVIDIA 的張量並行抽象來實現的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上實現了約 147 TFLOP/s/GPU 利用率,比 NVIDIA 研究人員在類似硬件上公布的數據高出大約 17%。通過與代碼庫共享這些基線以有效地訓練 175B 模型,Meta AI 正在減少碳足跡,同時還允許以一致的方式衡量該領域的新成果和進展。代爾夫特理工大學助理教師 Luís Cruz 表示:很高興看到新的人工智能論文討論他們模型的碳足跡。儘管有非常粗略的估計,但 OPT-175B 是作為 GPT-3 的替代品提出的,其碳足跡是 GPT-3 的 1/7。
Meta AI 希望 OPT-175B 能夠為大語言模型創建的前沿帶來更多聲音,幫助社區集體設計負責任的發布策略,為該領域的大語言模型開發增加前所未有的透明度和開放性。訪問開源代碼和小規模預訓練模型:https://github.com/facebookresearch/metaseq
OPT-175B:https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform
OPT-175B 許可協議:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md

©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com