AI 模型的訓練和推理涉及到一系列軟硬件的系統優化,才能保證 AI 作業穩定、快速、高效地運行,能夠在長時間的計算過程中保證業務可靠運行,並且可以使 AI 任務的計算用時更短,對資源的利用率提升至最高。以上這些,都對異構計算平台的能力提出了全面的要求,包括調度異構資源、編排 AI 作業、AI 訓練和 AI 推理加速等方面。
基於百度在雲計算、人工智能領域 20 多年的實踐積累,百度智能雲在 2021 年推出了 AI 異構計算平台——百度百舸。今年 9 月發布了百度百舸·AI 異構計算平台 2.0,在 AI 計算、AI 存儲、AI 容器等模塊能力上進行了全面增強,同時推出了全新的 AI 加速套件,使數據湖存儲加速提升訓練效率 5~10 倍,分布式訓練加速提升訓練吞吐 50%~150%,推理加速降低時延 40%~60%。
在 12 月的 4 期分享中,來自百度智能雲及NVIDIA團隊的研發人員,將針對調度異構資源、編排 AI 作業、AI 訓練和 AI 推理加速等關鍵點進行全面系統的講解,介紹基本原理和核心方法,分享百度百舸平台的最佳實踐。
分享嘉賓:
王竹雲,百度智能雲資深研發工程師,雲原生 AI 產品研發負責人
你將獲得:
了解單機單卡、多機多卡、多機多卡等場景下雲原生 AI 的資源調度方法。
了解 AI 工作流引擎 PaddleFlow 打通底層資源和上層業務的架構和細節,提升 AI 工程效率。
分享嘉賓:
張恆華,百度智能雲資深研發工程師,AIAK-Training 研發負責人
你將獲得:
系統性了解各類 AI 模型訓練方案下的 AI 訓練瓶頸
全面掌握 AI 加速訓練的各種方法的原理
了解百度百舸平台的 AI 訓練加速套件 AIAK-Training 的工程實踐效果
分享嘉賓:
孫鵬,百度智能雲資深研發工程師,AIAK-Inference 研發負責人
你將獲得:
了解 AI 推理加速的核心原理、評估指標以及相應的優化方法
了解百度百舸平台的 AI 推理加速套件 AIAK-Inference 的工程實踐效果
分享嘉賓:
陶礪,NVIDIA GPU計算專家
陳庾,NVIDIA GPU計算專家
你將獲得:
如何結合 profiling 工具,發現訓練與推理的性能瓶頸;
結合 GPU 產品特點,利用算子融合、低精度等技術,以及 Faster Transformer 最佳實踐,提升性能並加快吞吐。
點擊【閱讀原文】或掃碼預約直播,get 百度百舸最佳實踐!