close
近年來,人工智能技術的快速發展對高效率智能計算系統的需求越來越大。

在58同城平台內部,越來越多的服務使用深度學習模型和技術來驅動,這些工作負載具有一些典型的特性,例如:在線推理服務請求的「高峰低谷」現象,導致部分時段系統資源利用率偏低;離線訓練集群則存在部門之間資源爭搶、分配不公等問題,導致GPU集群吞吐量下降。購置和維護GPU加速器設備帶來了昂貴的開銷,如何改善AI計算平台的資源使用效率成為了亟需解決的問題。

11月03日,由58同城AI Lab & 天津大學智能與計算學部聯合主辦的技術交流會,將從高效的集群資源調度和細粒度的在線離線作業混部兩個方面進行深入技術交流,探討如何利用現有的技術手段,優化深度學習推理服務和訓練作業性能,提高AI平台的資源使用效率。

日程介紹


議題分析&聽眾收益


深度學習平台離線訓練作業資源調度優化
新技術/實用技術點:
1、離線訓練任務優先級調度。2、離線訓練任務資源使用率預估及調整。
聽眾收益:
了解通過優先級調度、任務資源使率預估、異構GPU調度等策略優化離線訓練任務資源調度,提升資源利用率。
基於任務可預測性的高吞吐分布式訓練集群資源調度
新技術/實用技術點:
1、可預測任務的動態資源調度策略2、混合任務下的統一優先級調度
聽眾收益:
1、了解作業可預測性定義和分類2、了解異構資源下的動態資源調度策略3、了解基於任務優先級的統一調度策略

深度學習平台在線推理服務和離線訓練作業混部
新技術/實用技術點::
1、推理服務自動彈性伸縮策略。2、離在線混部下資源動態調度。
聽眾收益:
1、了解模型推理服務自動彈性伸縮方案。2、了解離線作業和在線服務資源混部實現。

分布式微服務場景下的灰度干擾研究和應用混部
新技術/實用技術點:
1、基於時空編碼的服務性能及干擾預測。2、基於微服務組件級可區分的細粒度應用混部。
聽眾收益:
了解雲服務場景下的「灰度干擾」現象,同時針對局部干擾進行細粒度的資源管理和應用混部,提升系統效率。
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()