儘管新冠病毒仍在世界範圍內大肆傳播,吸引着人們大部分的注意力,但根據政府間氣候變化專門委員會(IPCC)的最新報告,逆轉氣候災難的窗口期正快速關閉,減碳行動依然刻不容緩。2022 年 4 月 22 日是第 53 個世界地球日,每一年世界地球日都會制定一個相應的行動主題。2022 年的主題是「投資我們的星球(Invest in Our Planet)」,藉由綠色經濟、落實永續商業模式,來建立健康的城市、國家及經濟。國際科技巨頭在這一領域的投資由來已久,如今已加碼投入。亞馬遜在 2020 年收購了超過 4 吉瓦的共計 35 個風電與光伏電站,成為可再生能源迄今最大買家。谷歌提出將在 2030 年實現全球實時零碳運營,將零碳的統計範圍從年過渡到小時。微軟則提出將於 2030 年實現負碳排放,並且在 2050 年消除企業所有歷史碳排放。中國互聯網科技企業近幾年也紛紛行動。在 2021 年,包括阿里、螞蟻、騰訊等多家企業都提出了自己的碳中和目標,基本上都把 2030 年作為實現碳中和的關鍵時間點。就在今年地球日,螞蟻和阿里先後宣布加入「低碳專利承諾」(Low Carbon Patent Pledge),一家倡導低碳技術專利共享的國際平台,向全球免費開放自己的部分節能減排專利。事實上,國內不少擁有大規模數據中心的公司在減排方面已經有不少嘗試,主要的手段是硬件改造,即通過更先進的散熱技術來降低數據中心能耗,譬如各種水冷、液冷方案,統稱為降低 PUE,這種做法在全球範圍內已經探索多年,谷歌的 PUE 如今非常接近於 1,節省了大量成本;但硬件改造耗時長,運維成本高,且收益相對有限,因為數據中心的電力消耗主要在服務器上,只要服務器利用率低,就意味着浪費。這一部分的浪費遠超 PUE,根據 Gartner 調研,全球數據中心服務器 CPU 利用率只有 6%~12%。如今國內企業站在後發者的位置發展綠色計算,正是着眼未來,布局更有持續性前景技術的好時機。本文以螞蟻為例,解讀如何在保證較低的 PUE 之外,聚焦於能夠提高已有算力使用率的技術,走一條更高穩定、前景更廣闊的「綠色計算」道路。這套綠色計算技術項目成果也獲得了信通院 2021 年度的雲原生技術創新解決方案獎。大數據時代,數據正在成為國民經濟發展的新動力。據 IDC 測算,預計到 2025 年,中國產生的數據總量將達 48.6ZB(澤字節,代表的是 10 萬億億字節),占全球 27.8%,對 GDP 增長的貢獻率將達年均 1.5% 至 1.8%。然而,要讓數據潛力得到真正的釋放,則需要強大的算力體系支撐。數據中心作為海量數據加工和處理的特定設備網絡,其正常運行過程中需要消耗大量電力資源。中國信息通信研究院數據顯示,2020年全國數據中心耗電量約760億千瓦時,占全社會總耗電量(75110億千瓦時)的1%。折算為二氧化碳排放量,2020年全國數據中心二氧化碳排放量近4000萬噸。在節能減碳上,國內互聯網科技企業建設綠色數據中心的路徑大致相似,主要是通過對散熱、冷卻系統和服務器性能優化,降低電能利用效率(PUE)。PUE 是綠色數據中心的重要評價指標之一,理論極限為 1,數值越接近 1 表明能效水平越好。「我們注意到,單純通過降低 PUE 進行節能減排,當前已經遇到了一些挑戰。PUE 技術早已經是低垂的果子,被摘得差不多了,決定綠色數據中心的關鍵技術十年前是 PUE,3~5 年前已經不再是了。」螞蟻集團高級技術專家武鵬向機器之心解釋道:「十年前,整個行業的水平是在 1.8-1.5;十年後的今天,這個數值已經降到了 1.3 左右,部分優秀的公司可以降到 1.1 以下。但是,從 1.1 繼續下降到 1 的過程中,就會出現一些非線性的額外的投入,以及一些技術方面的其他風險。」這也意味着,對於科技企業來說,僅僅依靠節能技術將不足以應對零碳挑戰。「過去十年,整個行業持續向着大型化、智能化、高能效技術迭代。螞蟻早在幾年前就着手從自身的技術優勢入手,瞄準在低碳的前提下進一步提升能源利用效率以及單位能源的業務效率,這一系列技術的結合就是螞蟻的綠色計算技術體系。」據了解,在綠色計算技術能力的支持下,2021 年螞蟻集團的全機房日平均利用率已經達到 2019 年的 2 倍,混部集群的利用率超過 40%,追上 Facebook(現 Meta)等國際領先公司的水平。
螞蟻開始研發「綠色計算」技術的時間點是在 2019 年,早於碳中和目標的提出,可以理解是科技公司發展到一定規模後的內部需求所驅動。目前這套技術已經可以解決大規模集群資源合理分配、分鐘級有效調度、智能流量預測等行業關鍵難題,相關能力來自可信原生、技術風險、原生分布式數據庫 OceanBase、智能引擎等多個技術團隊。「可信原生是一種大規模的基礎設施技術,是綠色計算的底層技術。」螞蟻集團高級技術專家楊統凱向機器之心介紹。可信原生是螞蟻集團源於對下一代金融基礎設施的訴求而提出的理念,開發者可用以構築更加穩定安全,高效易用的大規模技術基礎設施,來滿足泛金融行業嚴格的業務需求。具體到綠色計算方面,可信原生的三大核心技術,是「在離線混合部署技術」、「雲原生分時調度技術」以及「AI 彈性容量技術」。「在離線混合部署技術」,即對計算資源進行離線混合部署。傳統的市場做法是把在線任務和離線任務分開部署在不同的集群以避免可能的衝突,但是兩個集群互相隔離將使得大量集群算力處於閒置狀態,整個集群的運算效率低下。「混合部署的難點在於技術本身,如何保證在線業務和離線業務能夠互不干擾,平穩安全地運行在一個物理機上,這是業界公認的一個難點。」楊統凱表示。螞蟻集團的解題路徑是在業界首次使用 Kata 安全容器的強隔離技術,將離線任務混合部署於在線服務所在的服務器之上。在強隔離技術保障下,即使單機 CPU 利用率達到 80% 以上,螞蟻的在線服務也不會受到離線任務混部的影響,能在其服務指標要求內穩定運行。
「雲原生分時調度技術」,即根據具體場景負載特徵,通過調度編排錯峰復用計算資源。螞蟻集團具備超過百萬算力的在線業務,這些在線業務具備不同的業務場景,因此對資源的使用時間跨度上存在差異,如時間維度上的周期性。分時調度就是利用業務使用資源的時間特性,將一份資源在不同的時間段提供給不同的應用使用,可以極大提高資源效率。「通過這個技術螞蟻可以很好的把不同峰值的在線業務編排在一起。我們現在可以實現更精細化的、小時級別的資源編排,相當於一台機器可以做成 24 份資源,有效提升整台物理機的使用效率,減少資源投入。」楊統凱介紹。
「AI 彈性容量技術」,即結合人工智能來動態預測應用的容量。螞蟻的業務特性有非常高的穩定性要求,像雙 11 等活動場景,以往為了應對流量高峰,主要依靠人工判斷,不停增加服務器進行保障。但是人工判斷存在難度大與滯後性等問題,對此螞蟻研發了 AI 智能容量技術,利用大數據和人工智能技術,建設了圖計算的流量周期算法,通過深度學習來預測流量,從而實現智能的擴容和縮容。
目前螞蟻的可信原生技術主要通過開源的方式對外開放,同時通過其他產品開發,比如使用SOFA技術的相關商業化產品,取得了一定的商業化實踐檢驗。
以上技術只是可信原生在綠色計算中的應用。作為一整套基礎設施技術,它包括了雲原生、安全容器、機密計算、可信硬件、小程序運行時等。從長期主義的角度來說,減碳技術和基礎設施是非常契合的,這也是為什麼提高資源利用率是螞蟻可信原生技術的關鍵目標之一。過去幾年,雲原生在大規模集群系統架構領域獨領風騷。從系統架構角度看,雲原生是一個面向運維(SRE)的架構,其核心使命是保障系統的穩定性,當安全和穩定性與效能產生衝突時,面向運維的架構會讓安全性更容易被折衷,而作為平台用戶的應用開發,在大部分情況下也不想插手安全可信的工作。但最近一兩年,技術趨勢發生了一定變化。隨着各國在隱私與數據安全保護方面的制度逐步健全,不僅基礎設施架構需要加強安全可信,更需要對應用進行保護,通過多個不同的系統層面進行安全切面的檢測、防護和阻斷,甚至要有更強的規約,拒絕不符合安全規則的應用進入軟件供應鏈。正是基於這樣的趨勢判斷和技術理念,螞蟻投入到可信原生這種大規模基礎設施技術的研發中,並進行了廣泛實踐,比如組建安全計算團隊來探索機密計算技術,加強系統對侵入的防護能力,同時讓系統不能窺探上層的應用在做什麼,這種有效的強保護對敏感的金融應用來說是提升資源利用率的必需品。在螞蟻的綠色計算技術體系里,除了可信原生,同樣值得關注的還有 OceanBase。這兩年國產自研數據庫火熱,OceanBase 也是其中的知名例子,連續兩年刷新了事務處理任務(TPC-C)基準測試世界紀錄。從技術原理角度看,OceanBase 主要從以下三方面做到減碳排放:一是基於 LSM-Tree 的高級壓縮技術,可以大幅降低存儲成本,例如支付寶某業務從 Oracle 遷移到 OceanBase,數據由 100TB 壓縮到 33TB;二是多次提速的分布式事務處理機制,OceanBase 將 Paxos 分布式一致性協議引入兩階段提交(2PC)技術中,使分布式事務具有自動容錯能力;三是 SQL 執行引擎優化技術,通過執行計劃緩存(Plan Cache)、快速 SQL 參數化、算子下壓和過濾、向量化引擎等技術大大降低 SQL 執行時間。
領先的數據庫技術天然是減碳的得力支持,各家國內廠商在這方面的投入,相信陸續都會見到回報。綠色低碳的未來是人類共同的追求,也是當下全球共同的難題,需要的不只是幾家公司的領先,而是整個行業、社會的協作。前些年,主要是國外的企業開放自己的技術,國內的同行學習,比如 Facebook在 2011 年創建的開放計算項目,微軟、谷歌都參與在內,開源了自己的數據中心解決方案,幫助降低成本。而這兩年,隨着自研技術的發展,國內領先的公司也在對外開放自己的成果和實踐,以回饋行業。就螞蟻的例子來說,一方面是把已經做得紮實的基礎技術,比如涉及到操作系統、數據庫、雲原生底層組件的部分,用開源的方式開放;另一方面對一些不屬於工程軟件的部分,比如智能算法,則通過學術論文,去和同行共享方法論。這也是谷歌等領先公司的做法。螞蟻集團資深技術專家、Kata 聯合發起人王旭在採訪中表示:「螞蟻在綠色計算上的研發和探索一直保持開放,希望我們的一些探索性工作能幫助到整個行業。現在我們有一些領先性的技術,比如 Kata Containers 是開放基礎設施基金會的頂級項目,也是這個領域的開源事實標準,我們一直在不斷把我們的實踐回饋給開源社區;另外包括螞蟻的 Kubernetes 集群,是全球規模最大的生產集群之一,這方面的實踐也在反饋給社區;在可信領域,我們給機密計算聯盟捐贈了 Occlum LibOS,這是他們接收的第一個來自中國的項目;此外還有金融級分布式中間件 SOFAStack,包含了構建金融級雲原生架構所需的各個組件。截止目前,螞蟻在雲原生、數據庫、前端等核心領域開源了近 800 個倉庫,成長出近 20 個世界頂級開源社區項目。這些是我們作為技術人為行業能做出的一點貢獻,未來我們還會更加開放。」歷次技術革命都是一種創造性的回應,帶動人類社會的發展。自 2020 年我國提出碳中和目標後,「雙碳」連續兩年被寫入政府工作報告。2021 年,工信部印發《新型數據中心發展三年行動計劃》,明確提出要大力推動技術先進、綠色低碳、算力規模與數字經濟增長相適應的新型數據中心發展格局。面向社會數字化轉型時代,「綠色計算」的內涵越來越豐富,從硬件逐漸擴展到軟硬結合,技術也在推陳出新,尋找更面向未來的方向。對於科技企業而言,如何更主動地通過技術解決節能減碳問題,以回應人民對於美好生活的期待,這是挑戰,更是機遇。©THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com