close

大家好,我是 Jack。

數字智能時代到來,AI 作為核心驅動力量將為各行各業帶來巨大轉變。

會有越來越多,醫療、金融、教育等行業的 AI 產品落地。

在醫療行業,應用認知計算技術AI能為人們的健康保駕護航,將人工智能應用到醫院平台,能從各種渠道分析訪問者的健康狀況並提供保健相關的洞察力,並與訪問者進行雙向互動。對於患者而言,AI可以幫助自己預知發病時間,並及時尋求有效的解決方案;
在金融行業,可以利用AI技術進行智能風投,量化交易;
在教育行業,人工智能可以自主學習大量而深厚的專業知識,開發者能通過人工智能對這些大量非結構化數據的理解、推理和學習,提供個性化的教育體驗。
......

今天的內容可能會略顯「枯燥」,但絕對屬於硬幹貨。

從基礎設施和硬件配置,到平台軟件和雲管理,一網打盡!

支撐 AI 應用需要完善的基礎架構,在 AI 解決方案部署過程中,從底層算力平台到上層資源管理軟件,整個基礎架構需要集成 CPU、GPU、存儲、網絡等多種硬件基礎設施,其中 GPU 是部署過程中的關鍵。

因為 GPU 加速計算是近年來集群建設的主流方案,可以提供卓越的應用程序性能,將應用程序計算密集部分的工作負載轉移到 GPU,同時仍由 CPU 運行其餘程序代碼,可顯著提高應用程序的運行速度,建設一個 GPU 高性能計算集群可以提供一個 GPU 加速的人工智能實驗平台,促進企業人工智能、大數據、深度學習、機器學習等算法方面的研究和應用。

此外,還需要 pytorch、Tensorflow 等 AI 框架,AI 框架是為了更輕鬆、高效地研究和應用深度學習。

目前主流的深度學習框架都很好的支持 GPU 加速,框架可專門為深度神經網絡(DNN)訓練所需的計算提供支持高度優化 GPU 的代碼 NVIDIA 的框架經過調優和測試,可提供非常出色的 GPU 性能,藉助這些框架,用戶可以通過簡單的命令行或 Python 等腳本語言接口訪問代碼。

importtorch#AssumethatweareonaCUDAmachine,thenthisshouldprintaCUDAdevice:device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")print(device)

許多功能強大的 DNN 都可通過這些框架來訓練和部署,而無需編寫任何 GPU 或複雜的編譯代碼。

importtorch.nnasnnimporttorch.nn.functionalasFnet=torchvision.models.densenet121(num_classes=10)net.to(device)

再通過 docker 容器技術,調度器等軟件進行統一的計算資源與數據庫管理和調度,可從 GPU 加速帶來的訓練速度提高中受益。

如果將能成功跑起來的 AI 應用比做一匹馬,那麼硬件就是馬匹本身,馬鞍是機房基礎設施,而軟件和算法是用於把控方向的韁繩,只有三者相匹配、融為一體,才能跑得快、跑得遠。

接下來,從機房基礎設施方面聊聊,如何打好「基建」。

機房建設是部署 AI 應用的基礎,也是整個基礎架構中最底層的部分,合理的機房建設可以滿足未來計算資源的擴容,可以提高計算資源的利用率,節省空間與能耗,機房基礎設施涉及服務器機櫃、 KVM 切換器、UPS 不間斷電源、精密空調、防靜電地板,新風系統、隔音的處理等等,機房基礎建設要考慮未來算力資源的擴充,提前根據算力平台的功耗考慮供電系統,根據設備的數量考慮機房空間。

機房基礎建設分為傳統機房和模塊化機房,傳統機房一般採用工業空調對機房整體空間製冷的方式,或者是採用精密空調架空地板下送風方式製冷方式,模塊化機房與傳統機房最大的區別在於能夠最大限度的利用製冷功率為設備散熱。

因為其採用封閉冷通道方式,冷氣與熱氣隔離,整體提高製冷效率;空調與 IT 機櫃並排間隔擺放,採用空調水平送風直接對機櫃吹冷風,滿足其散熱需求,為客戶節約大量運營成本。

其次,模塊化機房能夠快速部署。因其出廠前完成機櫃的預安裝,現場只需接通外部電源,固定機櫃等簡單操作即可使用。

例如,解決方案提供商思騰合力位於包頭的雲計算中心即採用模塊化機房,總面積 2400 平米,地板承重 800KG/㎡,抗震烈度等級 8 級,電力方面稀土變+沼潭變,雙市電保障,發電機冗餘,滿負荷下可運行 12 小時,並與加油站簽署供油合同,

UPS 採用採用 2N 冗餘 UPS 供電,滿載後備 120 分鐘,空調方面採用 N+1 列間精密空調,運營安全方面採用雙冗餘華為 6680 防火牆,開啟 IPS / IDS /防病毒功能,採用 7x24 小時不間斷全方位機房監控,採用大數據動態感知系統,實時分析預警。

在對機房的一系列需求評估、選址落地等過程中,也會同步考量硬件的部署。

硬件資源層構成複雜,部署 AI 應用需要涉及算力、網絡、存儲等方面,標準的集群構建需要管理節點、計算節點、存儲節點和網絡節點。一般來說,管理節點會採用普通 2U 機架式服務器,顧名思義,它是承擔集群中管理的角色,計算節點即我們提供核心算力的部分,通常採用 GPU 服務器,主流的有 NVIDIA A30 Tensor Core GPU、NVIDIA A40 Tensor Core GPU等。

下面以筆者熟悉的 GPU 卡和服務器為例,帶大家了解一下常見的計算與管理節點的參數與功能配置有哪些。

1思騰合力

NVIDIA A40 是 NVIDIA Ampere 架構計算卡,速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,A40 採用第二代 RT Core 的吞吐量是上一代的 2 倍。

並能同時運行光線追蹤和着色或降噪功能,從而大幅加快工作負載的運行速度,A40採用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的訓練吞吐量達到上一代的 5 倍,而且無需更改代碼即可加速 AI 和數據科學模型的訓練。

從硬件上支持結構稀疏度使推理吞吐量提升一倍;另外,A40 具有超高速 GDDR6 顯存,單卡48GB,還可通過 NVLink® 擴展到高達96 GB,為數據科學家、工程師和創意專業人士提供所需的大容量顯存,讓他們能夠處理大型數據集以及數據科學和模擬等工作負載,PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍。

因而提升了從 CPU 內存傳輸數據的速度,能更好地支持 AI、數據科學和 3D 設計等數據密集型任務,更快的 PCIe 性能還能加速 GPU 直接顯存訪問 (DMA) 傳輸,A40 向後兼容 PCI Express 第 3 代,這也提供了部署靈活性。

* 與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有

思騰合力 GPU 服務器從 2U2 卡,2U4 卡到 4U4 卡,4U8 卡,4U10 卡均有覆蓋,像 IW4222-8GR 這塊 8 卡 GPU 服務器,就是我們構建集群經常用到的一款服務器,它支持 2 顆第三代 Intel® Xeon® Icelake 系列可擴展處理器,TDP 270W,提供強大的 X86 處理平台針對推理及訓練應用,帶寬翻倍的 PCIe Gen4 平台上可支持 8 塊雙寬 GPU 卡,專為高密度 GPU 計算提供多方位的性能支持,支持高速網絡,存儲和其他 IO 擴展,8 個 U.2 硬盤。

為高端計算平台提供高速傳輸和數據存儲能力。同時進一步優化運維效率,擁有專業管理平台能夠實現對市面主流的各類 GPU 實現識別,監控,風扇調速支持,故障報警等功能;

存儲節點即 AI 應用中存放數據的地方,AI 應用對於數據量的需求非常龐大,而且對於讀寫性能、帶寬都要求很高,所以對存儲的容量、性能及安全性都有要求,存儲可以採用分布式存儲系統,即數據分布到各個存儲節點上,並行讀寫,提供存儲性能,同時可以採用不同的冗餘方式,比如雙副本、多副本、糾刪碼冗餘技術等等,保證數據安全性。

這塊思騰合力具備 4U24 盤位、4U36 盤位存儲服務器,也有自己的分布式存儲管理軟件,可提供集性能、容量、安全性與一體的分布式存儲系統;網絡節點有 3 套:管理網絡、計算網絡和 IPMI 網絡,這裡管理網絡一般採用千兆以太網,計算網絡一般採用萬兆光纖網絡或者 InfiniBand 網絡,IPMI 網絡做遠程管理使用。

有了剛剛介紹的硬件資源層,構建好集群硬件後,接下來的一步是平台軟件的部署。

2平台部署

我們在開篇講到部署 AI 應用需要 pytorch、Tensorflow 等 AI 框架,如果沒有平台軟件統一管理,就需要使用者自己安裝應用環境,包括 CUDA、AI 框架、docker 等,再進行環境的調試。

在 AI 部署中,軟件環境調試非常耗費時間,並且不是所有使用者都熟悉各種軟件環境。

此外,沒有軟件平台做統一管理,會造成資源分配不均,容易產生計算資源的浪費,比如大多數高校發現 GPU 計算資源被初學者占用,往往導致真正科研計算任務匱乏計算資源。

基於 Docker 環境的計算管理環境常常發生計算資源搶占現象,讓管理者應接不暇各種投訴。

在這方面。思騰合力有自主開發的 SCM 人工智能雲平台軟件,集成了主流的 AI 框架,可實現計算資源池化,按需分配給一個或多個用戶使用。

SCM 雲平台可對 GPU 高性能計算資源進行統一的管理和調度,有效滿足用戶在深度學習等科研及教學方面的需求,用戶可以快速在平台上進行數據處理、算法設計、模型訓練、模型驗證、模型部署等工作,而不用關心底層複雜的集群構建與調度機制以及深度學習框架的安裝部署、性能調優等問題,在充分簡化深度學習訓練方面工作的同時有效提高資源利用率。

說到這裡,我們用來部署 AI 應用的全套裝備就齊全了,下面以實際案例出發,看看一個 AI 應用是如何落地的。

3應用落地

案例: 山東省人工智能研究院 AI 實驗室建設,以下簡稱「智能院」,定位於山東省人工智能領域創新型科研機構,致力於打造引領全省人工智能科學研究的高地,高端人工智能專業人才的搖籃,成果轉化的基地,人工智能領域的重要智庫以及國際交流與合作的重要樞紐;

案例: 山東省人工智能研究院 AI 實驗室建設,以下簡稱「智能院」,定位於山東省人工智能領域創新型科研機構,致力於打造引領全省人工智能科學研究的高地,高端人工智能專業人才的搖籃,成果轉化的基地,人工智能領域的重要智庫以及國際交流與合作的重要樞紐;

智能院的需求及痛點有:

1、模型和算法出現算力瓶頸,訓練時間周期長;

2、難分配:存在的所有資源都是以物理形式存在,沒有辦法很好的進行合理資源分配,導致科學研究存在一定問題。低效率:正在運行中的項目作業只能靠人為干預檢查是否正常運行,費時費力。不靈活:大量的算力資源無法通過軟件進行靈活調配,無法支撐算力需求極高的任務;

3、難定位:在多個線程的項目同時運行時,一旦有其中之一出錯,難以精準定位報錯任務。

4、難管理:沒有集群管理軟件進行統一的資源管理與監控,無法避免資源的浪費以及算力不足的問題。

解決方案: 從底層硬件算力平台和上層軟件管理平台的統一部署,1 節點管理服務器 IW2211-2GR,9 節點思騰合力 IW4213-4G 計算服務器,2 節點思騰 36 盤位存儲服務器,計算網絡採用 100G InfiniBand 組網,軟件管理平台使用思騰合力 SCM 人工智能雲平台軟件。

亮點:

1、通過統一 AI 平台可進行多用戶管理,用戶分組管理,不同用戶的權限管理等多維度管理模式;

2、提交作業支持 Novnc 遠端桌面,可滿足圖形化使用習慣的部分用戶;

3、平台可通過 jupyter 進行深度學習模型的訓練,代碼調試,調參等等,還可進行打包容器保存自己的鏡像環境;

4、平台具有使用時長統計,可查看每個用戶的使用時長。

部署效果:

通過計算平台的建設,滿足內外部的開展機器學習、計算機視覺、自然語言處理、知識表達與推理等關鍵技術研究,支撐智能醫療、智能家居、智能交通等行業應用研究。

通過算力服務器解決模型和算法的算力需求瓶頸問題,用戶可在 SCM 軟件平台上直接劃分計算資源,存儲資源,分配給多個用戶使用,SCM 集成了主流的 AI 框架,以及鏡像倉庫,方便用戶做 AI 相關的科研工作,減少調試環境的時間,間接提升科研效率數 10 倍。

人工智能基礎架構的構建需要多重因素協調配合,對於一些非計算機專業人員,基礎設施的開發、搭建、調試往往要耗費數月時間,期間透明性低,測試頻繁,效率低下,嚴重限制人工智能技術在行業中的應用,比如 Tensorflow、Caffe 等眾多的計算框架以及 CNN、RNN 等複雜的網絡模型。

即便是資深工程師也需要花費大量的時間成本學習和應用,主流計算框架採用 CPU+GPU 的異構計算平台,其管理和調度融合了高性能計算、大數據和雲計算等多領域技術,實現難度較大,諸如思騰合力這類解決方案提供者,可以幫助大家完成從基礎設施到雲管理平台的構建,通過其研發的 SCM 人工智能雲平台軟件,面向大規模異構計算基礎設施管理,解決上述問題。

這篇文章就到這裡,希望各位開發者、技術負責人、業務管理者們能夠找到適合自身的解決方案,實現深度學習計算資源管理、調度、應用的自動化,充分提升計算基礎設施資源利用效率,降低部署 AI 應用的總體擁有成本,提升 AI 研發創新效率!

如您想了解更多關於 NVIDIA A40 的產品信息,點擊閱讀原文↓↓↓,註冊下載產品白皮書

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()