書圈 - PyTorch宣布支持蘋果M1芯片GPU加速：訓練快6倍，推理提升21倍－鑽石舞台

點擊上圖，查看教學大綱

|本文轉自：機器之心

對於 Mac 用戶來說，這是令人激動的一天。

今年 3 月，蘋果發布了其自研M1 芯片的最終型號 M1 Ultra，它由 1140 億個晶體管組成，是有史以來個人計算機中最大的數字。蘋果宣稱只需 1/3 的功耗，M1 Ultra 就可以實現比桌面級 GPU RTX 3090 更高的性能。

隨着用戶數量的增長，人們已經逐漸接受使用 M1 芯片的計算機，但作為一款 Arm 架構芯片，還有人在擔心部分任務的兼容性問題。

昨天，通過與蘋果 Metal 團隊工程師合作，PyTorch 官方宣布已正式支持在 M1 版本的 Mac 上進行 GPU 加速的 PyTorch 機器學習模型訓練。

此前，Mac 上的 PyTorch 訓練僅能利用 CPU，但隨着即將發布的 PyTorch v1.12 版本，開發和研究人員可以利用蘋果 GPU 大幅度加快模型訓練。現在，人們可以在 Mac 上相對高效地執行機器學習工作，例如在本地進行原型設計和微調。

蘋果芯片的 AI 訓練優勢

PyTorch GPU 訓練加速是使用蘋果 Metal Performance Shaders (MPS) 作為後端來實現的。MPS 後端擴展了 PyTorch 框架，提供了在 Mac 上設置和運行操作的腳本和功能。MPS 使用針對每個 Metal GPU 系列的獨特特性進行微調的內核能力來優化計算性能。新設備將機器學習計算圖和原語映射到 MPS Graph 框架和 MPS 提供的調整內核上。

每台搭載蘋果自研芯片的 Mac 都有着統一的內存架構，讓 GPU 可以直接訪問完整的內存存儲。PyTorch 官方表示，這使得 Mac 成為機器學習的絕佳平台，讓用戶能夠在本地訓練更大的網絡或批大小。

這降低了與基於雲算力的開發相關的成本或對額外的本地 GPU 算力需求。統一內存架構還減少了數據檢索延遲，提高了端到端性能。

可以看到，與 CPU 基線相比，GPU 加速實現了成倍的訓練性能提升：

上圖是蘋果於 2022 年 4 月使用配備 Apple M1 Ultra（20 核 CPU、64 核 GPU）128GB 內存，2TB SSD 的 Mac Studio 系統進行測試的結果。系統為 macOS Monterey 12.3、預發布版 PyTorch 1.12，測試模型為 ResNet50（batch size = 128）、HuggingFace BERT（batch size = 64）和 VGG16（batch size = 64）。性能測試是使用特定的計算機系統進行的，反映了 Mac Studio 的大致性能。

有開發者推測，鑑於谷歌雲服務中使用的英偉達 T4 在 FP32 任務上的浮點性能為 8 TFLOPS，而 M1 Ultra 的圖形計算能力大概在 20 TFLOPS 左右。在最有利情況下，可以期望的 M1 Ultra 速度提升或可達到 2.5 倍。