模型越大,超參數(HP)調優成本越高,微軟聯合 OpenAI 提出 HP 調優新範式,單個 GPU 上就可以調優 GPT-3 超參數。
偉大的科學成就不能僅靠反覆試驗取得。例如太空計劃中的每一次發射都是基於數百年的空氣動力學、推進和天體等基礎研究。同樣,在構建大規模人工智能系統時,基礎研究大大減少了試錯次數,效益明顯。超參數(Hyperparameter,HP)調優是深度學習的關鍵,但也是一個昂貴的過程,對於具有數十億參數的神經網絡來說更是如此。假如 HP 選擇不當,會導致模型性能不佳、訓練不穩定。當訓練超大型深度學習模型時,這些問題更加嚴重。最近,有研究 [54] 表明不同的神經網絡參數化會導致不同的無限寬度限制(infinitewidth limits),他們提出了最大更新參數化(Maximal Update Parametrization,µP),該方法可以在限制內實現「最大」特徵學習。直觀地說,它確保每一層在訓練期間以相同的順序更新,而不管寬度如何。相比之下,雖然標準參數化 (standard parametrization,SP) 在初始化時保證了激活是單位順序的,但實際上在訓練 [54] 時,由於每層學習率的不平衡,導致激活在寬模型中爆炸。來自微軟和 OpenAI 的研究者首次提出了基礎研究如何調優大型神經網絡(這些神經網絡過於龐大而無法多次訓練)。他們通過展示特定參數化保留不同模型大小的最佳超參數來實現這一點。利用 µP 將 HP 從小型模型遷移到大型模型。也就是說,該研究在大型模型上獲得了接近最優的 HP。論文作者之一、來自微軟的 Greg Yang 表示:「你不能在單個 GPU 上訓練 GPT-3,更不用說調優它的超參數(HP)了。但是由於新的理論進步,你可以在單個 GPU 上調優 HP ?」本文的想法非常簡單,論文中引入了一種特殊參數化 µP,窄和寬的神經網絡共享一組最優超參數。即使寬度→∞也是如此。具體而言,該研究證明,在 µP 中,即使模型大小發生變化,許多最優的 HP 仍保持穩定。這導致一種新的 HP 調優範式:µTransfer,即在 µP 中對目標模型進行參數化,並在較小的模型上間接調優 HP,將其零樣本遷移到全尺寸模型上,無需調優後者。該研究在 Transformer 和 ResNet 上驗證 µTransfer,例如,1)通過從 13M 參數的模型中遷移預訓練 HP,該研究優於 BERT-large (350M 參數),總調優成本相當於一次預訓練 BERT-large;2)通過從 40M 參數遷移,該研究的性能優於已公開的 6.7B GPT-3 模型,調優成本僅為總預訓練成本的 7%。論文地址:https://arxiv.org/pdf/2203.03466.pdf
項目地址:https://github.com/microsoft/mup
通過大大減少猜測要使用哪些訓練超參數的需要,這種技術可以加快對巨大神經網絡的研究,例如 GPT-3 和未來可能更大的繼任者。
大型神經網絡很難訓練,部分原因是不了解其行為如何隨着規模增加而變化。在深度學習的早期工作中,研究者採用啟發式算法。一般來說,啟發式方法試圖在模型初始化時保持激活擴展一致。然而,隨着訓練的開始,這種一致性會在不同的模型寬度處中斷,如圖 1 左側所示。與隨機初始化不同,模型訓練期間的行為更難進行數學分析。該研究用 µP 解決,如圖 1 右側所示,該圖顯示了網絡激活擴展(activation scales)在模型寬度增加的最初幾個訓練步驟中的穩定性。圖 1:在 PyTorch 的默認參數化中,左圖,在經過一次 step 訓練後,激活擴展的寬度會出現差異。但是在右圖的 µP 中,無論訓練 step 寬度如何,激活擴展都會發生一致的變化。事實上,除了在整個訓練過程中保持激活擴展一致之外,µP 還確保不同且足夠寬的神經網絡在訓練過程中表現相似,以使它們收斂到一個理想的極限,該研究稱之為特徵學習極限。如圖所示,µP 是唯一在寬度上保持最佳學習率的參數化,在寬度為 213 - 8192 的模型中實現了最佳性能,並且對於給定的學習率,更寬的模型性能更好——即曲線不相交。
圖2左側,該研究在 CIFAR10 上以不同的學習率(沿 x 軸顯示)訓練不同寬度(對應於不同顏色和圖案的曲線)的多層感知器 (MLP),並沿 y 軸繪製訓練損失。右側,參數化的 2D 平面由以下插值形成:1)PyTorch 默認值和 µP(x 軸)之間的初始化擴展,以及 2)PyTorch 默認值和 µP(y 軸)之間的學習率擴展。在這個平面上,PyTorch 默認用 (0,0) 表示,µP 默認用 (1,1) 表示。基於張量程序(Tensor Programs)的理論基礎,µTransfer 自動適用於高級架構,例如 Transformer 和 ResNet。此外,它還可以同時遷移各種超參數。以 Transformer 為例,圖 3 展示了關鍵超參數如何在寬度上保持穩定。超參數可以包括學習率、學習率 schedule、初始化、參數乘數等,甚至可以單獨針對每個參數張量。該研究在最大寬度為 4096 的 Transformer 上驗證了這一點。圖 3:在 µP 中參數化並在 WikiText-2 上訓練的不同寬度的 transformer。隨着模型寬度的增加,最優學習率、交叉熵溫度、初始化規模和學習率方案保持穩定。查看網絡的超參數有助於預測更寬網絡的最佳超參數。在右下角的圖中,該研究嘗試了如下學習率方案:(a) 線性衰減,(b) StepLR @ [5k, 8k],衰減因子為 0.1,(c) StepLR @ [4k, 7k],衰減因子為 0.3,(d) 餘弦退火,(e) 常數,(f) 逆平方根衰減。現代神經網絡擴展不止涉及寬度一個維度。該研究還探索了如何通過將 µP 與非寬度維度的簡單啟發式算法相結合,將其應用於現實的訓練場景。下圖 4 使用相同的 transformer 設置來顯示最佳學習率如何在合理的非寬度維度範圍內保持穩定。圖 4:在 µP 中參數化並在 Wikitext-2 上訓練的不同大小的 transformer。如圖 3 所示,最優學習率不僅可以跨寬度遷移,還可在測試範圍內實驗性地跨其他擴展維度遷移,例如深度、批大小和序列長度。這意味着可以將理論上的跨寬度遷移與實驗驗證的跨其他擴展維度遷移相結合,以獲得能在小模型上間接調整超參數並遷移到大模型的 µTransfer。在驗證完單個超參數的遷移之後,研究者試圖將它們組合到更現實的場景中。下圖 5 對比了兩種情況,一種是 µTransfer 從一個小型 proxy 模型遷移調整過的超參數,另一種是直接調整大型目標模型。在這兩種情況下,調整都是通過隨機搜索完成的。圖 5:µTransfer 大約將計算效率提高了一個數量級。由於 proxy 模型即使很小也能有意義地預測最佳超參數(如圖 3、圖 4 所示),因此隨着該研究用數十億個參數訓練更大的目標模型,研究者預計性能差距會擴大。在這項工作之前,模型越大,調優成本越高,預計調優效果就越差。研究者預計 µTransfer 將給最大的模型帶來最大的增益,因此該研究與 OpenAI 合作,在 GPT-3 上評估 µTransfer。使用 µP 中的相對注意力對 GPT-3 的一個版本進行參數化後,該研究調整了一個具有 4000 萬個參數的小型 proxy 模型,然後按照 µTransfer 的方法將最佳超參數組合複製到 GPT-3 的 67 億參數變體中。在此調整階段使用的總計算量僅為 67 億模型預訓練使用計算量的 7%。如下圖 6 所示,這個使用 µTransfer 的模型優於 GPT-3 論文中相同大小的模型(絕對注意力),它的性能與 GPT-3 論文中參數數量翻倍的模型(絕對注意力)相當。µP 給出了一個擴展規則,該規則在訓練損失方面唯一地保留了跨不同寬度模型的最佳超參數組合。相反,其他擴展規則(如 PyTorch 中的默認初始化或 NTK 參數化),隨着網絡變得越來越寬,超參數空間中的最優值卻越來越遠。研究者認為:實際使用特徵學習神經網絡時,為了獲得適用的見解,µP 的特徵學習限制會比 NTK 限制更自然。因此,過參數化神經網絡應該在大型寬度設置中重現 µP 的特徵學習限制。過去幾年開發的張量程序 (TP) 理論使這項進展成為可能。TP 理論使研究人員能夠計算任何通用計算圖在其矩陣維數變大時的極限。TP 方法產生了基本的理論結果,例如神經網絡 - 高斯過程對應的架構普遍性和動態二分定理,並通過推導 µP 和特徵學習限制形成了 µTransfer。研究者認為將 TP 理論擴展到深度、批大小等擴展維度是大型模型在寬度之外可靠擴展的關鍵。研究者表示:基礎研究是對反覆試錯的一種高成本效益補充,該研究將繼續推導出更具原則性的大規模機器學習方法。參考鏈接:https://www.microsoft.com/en-us/research/blog/%c2%b5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/
©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com