close

一場雙十一,螞蟻集團的「綠色計算」就能減掉394 噸二氧化碳——螞蟻減碳遠不止「螞蟻森林」那麼簡單。


本次記者獨家採訪了螞蟻集團基礎設施委員會主席、可信原生技術事業部總裁何征宇。從2019年開始,何征宇與其團隊摸索出一套「綠色計算」技術體系,並在2021年雙十一期間首次大規模應用,極大提高了計算資源利用效率,最終讓螞蟻集團節省 64 萬度電,減排二氧化碳 394 噸,相當於 3 萬輛燃油車停開一天。
在元宇宙、5G等趨勢下,科技公司的算力需求還會指數級上升,這意味着巨量的能源消耗。在本期「談碳」里,何征宇針對螞蟻集團的「技術減排」構想、落地、以及商業化前景,分享了這幾年的故事和經驗。
和大多互聯網科技公司相似,「雙碳」大潮來臨時,螞蟻集團面臨這樣一道考題:自身業務沒什麼高額碳排放,想減碳的話,從哪減?怎麼減?
何征宇就接到了這道命題。
何征宇有着學霸模板的履歷:15 歲考取北京理工大學,博士畢業於佐治亞理工學院,後供職於谷歌內核組,創立並帶領開源項目 gVisor ,成為基礎技術領域裡的新星。
2018 年,何征宇回國加入螞蟻集團,第一項工作就是螞蟻集團技術架構升級項目。他帶頭建立起的「可信原生技術部」,專攻基礎設施技術,其中第一個目標就是通過技術架構的升級,更合理的分配計算資源,提升螞蟻基礎設施的整體運行效率。
到了 2020 年,國家宣布「碳達峰、碳中和」目標,包括何征宇團隊在內的螞蟻集團「綠色計算」相關團隊,將 2019 年至今的工作更完整地梳理後,確定了碳中和行動路線。如今,何征宇任職螞蟻集團可信原生事業部總裁、螞蟻集團基礎設施委員會主席。
用 IT 的手段節能降碳,業內已有先例。「綠色計算」就是業界基於這一問題提出的新概念。雖尚無明確定義,但業界普遍認為,綠色計算的核心就是提高資源利用效率。
具體實踐上,綠色計算主要分為兩個方面:在物理層面,降低數據中心 PUE(核心能耗指標,即數據中心總能耗/ IT 設備能耗);在算力層面,合理分配計算資源。
何征宇麾下的可信原生技術部中多項自研技術,就和數據庫、技術風險、智能決策等部門的研究成果一起,被歸集到「綠色計算」體系中。
2021 年雙十一期間,「綠色計算技術體系」首次大規模應用——螞蟻的計算資源會變成「潮汐車道」,計算資源按時間段分配給不同的任務。比如,中午飯點是閒時,計算資源可以分配給實時性要求不高的操作;到了晚上零點,計算資源就可以全力支援付款下單高峰期,資源騰挪的時間可從原來的幾個小時降到一分鐘左右。
一份計算資源在不同時間段提供給多個操作任務,能極大提高計算資源利用效率。去年一場雙十一下來,綠色計算讓螞蟻節省了 64 萬度電,相當於 820 個人的全年生活用電;減排二氧化碳 394 噸,相當於 3 萬輛燃油車停開一天。
螞蟻集團2021 年雙十一減排報告
而同比三年前,螞蟻集團的服務器利用率提高超過兩倍,相當於同等規模業務下,每一份算力的耗電量減少了一半。
能在短時間內達到這樣的減排效果,螞蟻 2019 年架構升級的每一步,都不可缺少。
「過去三年,螞蟻的技術架構升級主要做了兩件事,首先是將業務搬到雲原生架構上;第二是建立了統一的調度中心,用來調度所有計算資源。」何征宇回憶道。
此前,螞蟻已完成業務上雲,首先滿足的是讓業務軟件搬到雲上,在雲上「可用」。等到業務進入高速發展階段,內部的計算資源分散在不同地方,比如業務、AI 等算力需求較大的部門都擁有自己的技術棧,重複造輪子的問題日益明顯。
所以,選擇升級到雲原生架構,相當於將底層的操作環境推倒重來,基於「雲」進行重構系統,開發人員不用再像以前一樣,將軟件開發好了再部署到雲上,而是從研發開始直接在雲上協作。
在此基礎上,可信原生技術部研發的核心技術,讓計算效率顯著提高。螞蟻自研的安全容器技術,就類似於讓來自安卓和 IOS 終端的計算任務,同時存在於同一個環境裡,隔離好,讓兩個任務獨立運行。即使 CPU 負載超過 95% ,計算效率也很少受到影響。
技術減排背後,螞蟻集團的組織機制和調整也提供了保障。
從組織機制上,每一年,螞蟻集團內部首先通過財務原則來管控,每年都根據上一年的資源實際使用情況來制定當年的預算。之後,業務和技術再根據需求,確定今年的技術投入和減排目標。
通過升級雲原生架構,螞蟻也將算力的分配統一歸到了 CTO 線,並且成立了類似可信原生技術部這樣的部門,攻堅相關的基礎設施技術。
「以前,一些算力需求比較大的部門會擁有自己的技術棧和服務器,這就肯定容易有資源閒置。雲原生化後,螞蟻將算力統一歸到 CTO 線進行調配,技術上減少了很多損耗,才有可能做到綠色計算。」何征宇告訴記者。
放眼碳中和進程,如今距離國家宣布「雙碳」目標不過短短一年多,科技巨頭們的「減碳路」,剛剛開始。
「雙碳」目標被提出後,騰訊在今年 2 月發布碳中和目標和行動路線,明確第一階段的任務:在節能同時,加大綠電應用,以自研、投資的方式探索新技術路線和商業模式。華為則基於原有的 ICT 業務,在去年 6 月成立了「華為數字能源」,目前已經對外輸出自家的綠色數據中心、基站等方案。
2021 年 3 月,螞蟻公布了碳中和目標,承諾於 2030 年實現淨零排放(範圍一、二、三),並在 4 月公布了自家碳中和路線。
從路徑上看,除了主流的降低數據中心 PUE 、採購綠電、投資綠色技術、碳匯抵消等手段,螞蟻的碳中和排放路徑更注重技術減排帶來的效益——螞蟻在今年的碳中和報告中,就特意提及了,綠色計算在 2021 年為螞蟻減少了近 3 萬噸碳。
目前,螞蟻的綠色計算技術也在通過開源、免費開放專利、論文分享多種形式共享。其中具有彈性可伸縮能力的分布式數據庫,先行一步走到商業化階段—— OceanBase 數據庫開始商業化,幫助有相應需求的客戶達到增效節電的的效果。現在,OceanBase 已經服務超過 400 個客戶。
可做的事情還有很多。何征宇表示,螞蟻的目標,是要在 3 - 5 年內追上世界一流的減排實踐。
國外科技巨頭做碳中和都更早。谷歌早在 2007 年就宣布自身實現碳中和,此後陸續推出包括自研數據中心、Nest 恆溫器節能電源等產品;在技術架構上,谷歌從存儲到計算形成一體化底座,也讓能耗大大減少。
到了 2021 年,谷歌甚至在淨零排放的目標基礎上更進一步做出承諾:到 2030 年,讓數據中心「全天候使用無碳能源運營」, 這意味着運行的全生命周期里都需要採用綠色能源。
對於 3-5 年的目標,何征宇表示,螞蟻主要押注在基礎軟件技術突破上。他認為,技術在綠色計算發揮的潛力遠未被充分挖掘。
一個證明是,當前數據中心 PUE 降低快到達極限值,減排空間已經不太大;但通過計算資源合理調度,螞蟻的資源利用率跟三年前比提升了兩倍多,今年預期漲幅也相當可觀。何征宇認為,技術減排的紅利仍有很多,而基礎技術研發普遍存在後發優勢,接下來團隊解決問題的速度會越來越快。
接下來,可信原生技術部的觸角也在不斷延展到新的領域——在今年,何征宇團隊將會重點攻堅如存儲資源池化的問題。
「現在我們是將上層的算力做調度,但存儲是更為底層、更難遷移的。一旦將計算和存儲打通,業務操作效率將會有質的提升,這也會進一步減少能源消耗。我們今年的目標,是將資源利用率再提升15% 左右。」他表示。
何征宇。圖片由螞蟻集團提供
以下為記者與螞蟻集團可信原生技術事業部總裁、螞蟻集團基礎設施委員會主席何征宇的對話內容,經編輯後發布:
記者:我國「雙碳」目標在 2020 年 9 月提出,螞蟻集團在半年後即宣布了自身的碳中和目標:承諾在 2030 年實現淨零排放。這一目標背後的背景是怎麼樣的?
何征宇:宣布碳中和的大背景是為響應國家「3060」碳中和目標。表面上看,我們在 2021 年 3 月宣布碳中和目標,動作很快。實際上,螞蟻在更早的時候就在探索和實踐這個方向。譬如,在技術減排層面,我們對這個方向的探索,要追溯到 2019 年。
2019 年,我們當時已經服務了數億用戶。當體量達到一定規模後,企業追求高質量發展就會成為必然,這是在我們預測當中的。所以我們開始了技術架構升級,全面雲原生化,這是我們後來做「技術減排」的重要契機。當時,我們明確的最重要方向,是將資源利用率提升,更有效率地消耗能源。
記者:2019 年時,螞蟻的能源消耗情況大概是什麼樣的水平?
何征宇:從減碳來看,我們的業務基礎是金融科技。一開始,我們的能源消耗水平和金融行業相差不多——金融服務對連續性和可用率的保障要求比較高,很多時候都是以加大能源消耗來換可用率。
所以我們當時設定的目標,是對標國外最先進的科技公司減排實踐,比如谷歌從 2009 年就開始做減排。而我們從開始減排到現在,每筆業務的能源利用效率大概是行業水平的 2 倍。未來,我們也希望能在 3 - 5 年內追上全球最先進的減排實踐。
記者:「雙碳」目標出來後,螞蟻僅僅過了半年就宣布了目標,速度很快。在螞蟻內部,減排目標有因此進行過什麼調整?
何征宇:看到 2020 年國家提出雙碳目標後,我們架構升級其實是與之契合的,這就積累了一定的先發優勢。「雙碳」目標出來後,我們把正在做的事情更加完整地梳理了一遍,比如計算效率提升後,到底可以節省多少能源,以及確定了碳中和行動路線。其實,從 2019 年開始,我們每年都會回顧今年技術對能源利用效率的提升,這是一個長期的過程。
記者:如果將目標細化,螞蟻是如何拆解減排任務的?
何征宇:根據溫室氣體核算體系,螞蟻集團碳中和分為範圍一化石燃料燃燒所導致的直接排放以及逸散排放;範圍二是電力和熱力等外購能源所導致的間接排放;範圍三是供應鏈上的相關間接排放。我們的目標是2021年起實現範圍一和範圍二的運營排放碳中和,2030 年實現範圍一範圍二範圍三的淨零排放。
對科技公司而言,最大的能源消耗來自數據中心,用電、製冷等等。算力是其中一個方面,可信原生技術部在探索的就是希望通過技術實現範圍三的減排。
記者:集團技術架構升級是「綠色計算」技術體系的重要前提,螞蟻集團當時都做了什麼事情?
何征宇:在雲原生化之前, 螞蟻和現在很多科技公司的技術架構類似,比如某個部門計算需求比較大,可能他們就持有自己的一部分計算資源,比如存儲、數據庫等等,各自獨立發展。但在非業務高峰的時候,很多資源就閒置了。
所以,螞蟻在 2019 年成立了可信原生技術部這樣的中台部門來做基礎技術研發。總結下來,在技術減排來看,我們就做了兩件事情,首先是將所有業務搬到雲原生架構上;第二是建立了統一的調度中心,用來調度所有的計算資源。
記者:在減排這個事情上,螞蟻集團用什麼指標來衡量?與業界實踐相比,螞蟻會更側重什麼方面?
何征宇:指標是多維度的。我們追求的,不僅僅是單純的降低 PUE 等核心能耗指標,而是整體的資源利用率、研發效率、穩定性、安全性等等。
比如我們買了一個節能 LED 燈,比普通白熾燈貴一點,但如果買回來之後你從來不關,一樣浪費能源。我們追求的,是動態調節燈的開關,在不犧牲業務連續性的前提下,儘可能地節省能源。
記者:在保證業務連續性的前提下節省能源,是否可以分享一個具體的業務場景?應用了哪些關鍵技術?
何征宇:國內很多科技公司都是運營驅動的,這意味着對計算資源的需求一定有峰值。比如雙 11 的計算資源投入和平時可能就有 100 倍的區別,這是當下國內科技行業最突出的問題。
以螞蟻自身為例,我們大概有一半的任務是在線的,另一半里大部分是離線任務,我們應用了多種綠色計算核心技術來做動態調節,比如在離線混合部署技術、雲原生分時調度、AI彈性容量等等。
比如我們的潮汐混布技術,舉個例子,計算資源就跟潮汐車道一樣,大家中午吃飯的時候,業務需求並不多,我們就把車道讓出來,換成別的對延時要求不高的任務來跑;我們也會對內部的業務數據進行分析,預測未來的計算資源峰值,算法不斷調優。
記者:如何提升計算資源的利用效率?難點在什麼地方?
何征宇:關鍵的技術難度,其實在於真正有峰值來臨時,計算資源是否能真正騰挪出來。在這個方面,之前螞蟻的整體架構雲原生化打下了很好的基礎,讓計算資源可以進行統一調度。
而雲原生的核心組件,比如容器,螞蟻一直堅持技術自主研發,在綠色計算體系里就突顯了重要性。打個比方,這相當於開發了一個新操作系統,操作系統上可以同時跑安卓、IOS 等等。所有的計算任務跑在同一台機器上,哪怕是整體 CPU 利用率達到百分之八九十,也可以互不影響,這很大程度提升了運行效率。
達到這個前提,我們才有可能做計算資源的調度,讓離線任務跑到在線任務旁邊,在線任務跑到數據庫旁邊,通過實時動態配置,根據服務需求去做這個事情。
記者:業界做綠色計算,普遍從兩個方面出發,一個是降低數據中心 PUE ,另一個是合理分配計算資源。螞蟻怎麼看待不同方向的減排效率?
何征宇:PUE 是除了計算之外的能源消耗,比如數據中心的照明、冷卻等等,現在業界先進的 PUE 水平是在 1.1 左右,提升到 1.0 幾乎已經是極限了,大概還有 10% 的提升紅利。但計算效率提升的空間還很大。在過去三年,我們整體資源利用率有兩倍多的提升。
所以對治理碳這件事情,我們肯定是先是調整能源結構,科技公司的能源消耗大頭是電,我們會通過採購綠電等方式來改善;然後是提升計算效率,將資源利用率調到最優。
記者:從 2019 年開始做雲原生化,這背後是否有伴隨螞蟻內部的組織調整?對計算資源整合有什麼影響?
何征宇:有調整。螞蟻的組織特點還是以大中台+小前台組織形式為主。在技術架構升級和技術減排方面,我們內部首先是基礎設施技術委員會和財務、安全小組等等拉通目標,保證業務穩定性的前提下,每一年設立能耗提效的目標,我們再制定技術投入和採購量。
到具體執行時,以 CTO 線作為主導,所有業務單元的計算資源都歸到 CTO 線,進行統一規劃、採購和配置。我們有強大的動力去節省資源,組織內部有市場化的結算手段。
記者:在減排成本和保障業務連續性兩方面,螞蟻如何達到平衡?
何征宇:在減排上,螞蟻有比較強的架構管控流程。第一是通過財務來管控,是如果機器消耗量或者利用率沒有到,可能不會有新的一些審批,這是從機制上來保障。
然後再到我們技術這邊,我們會預估全年業務發展到底需要多少資源,進行不同排列和分布,再確定技術投入到什麼部分。
在業務方面,我們肯定將資源保障放在第一位,讓業務的計算資源先滿足。在避免業務打擾的情況下,我們在底層部署潮汐混布之類的技術,幫助他們提效。這也是設立可信原生技術部這樣的中台部門的原因。
記者:復盤過去的三年,螞蟻值得分享的經驗有哪些?
何征宇:我覺得第一個,首先是擁有足夠強大的基礎技術團隊,當我們深入到操作系統層面,不管是中間件也好,操作系統也好,甚至數據庫也好,我們都有相應的隊伍,針對為提效減排目標來做研發。如果你手裡的東西都是黑盒,全是外部採購的,你基本上啥也幹不了,我們對自研技術的投入在這一刻是產生了回報的。
第二個,從技術視角來看,定義明確目標是很重要的。比如國家層面的雙碳目標,對企業的引導就是很正向的。對於很多技術同學來說,擔心的不是技術難或需要時間,擔心的是沒有一個確定的目標或問題。把問題定義清楚,非常重要。
記者:剛剛提到 3 - 5 年達到世界一流的減排實踐這個目標,你認為算比較激進嗎?
何征宇:時間當然是很緊張的,我們肯定有技術上的優勢,也面對挑戰。
在技術上,我們相信很多時候都會存在後發優勢。特別是在計算機基礎架構開發領域,有 Green Field 和 Brown Field 兩個概念。(Green Field,指在全新環境開發系統,沒有遺留代碼等問題;Brown Field,指要在以往的系統基礎上來開發或改進)
螞蟻在這個問題上有一個很好的治理傳統,每三年會做一代大的技術架構升級,能夠比較好地處理技術的歷史遺留問題,解決問題速度會變快。所以對於這個目標,我們還是比較有信心達到的。
記者:在去年的基礎上,螞蟻集團今年減排的目標是怎麼樣的?會重點在哪些關鍵技術上做研發?
何征宇:通過可信原生技術,我們去年實際上實現了 2.7 萬噸二氧化碳的減碳量。今年,我們希望能將資源利用率再提高 15% 左右。
在技術方向上,我們今年會重點解決存儲系統等方面的問題,讓存儲和計算系統進一步打通,這將顯著提升動態調度的效率。
另外,我們也非常支持和熱愛開源,現在已經開源了大型開源項目 Kata Containers ,是容器隔離的核心技術。未來,比如涉及到操作系統、雲原生底層組件的一些技術,我們也會進行開源,通過學術論文、算法等分享形式。
記者:螞蟻技術減排的這些實踐,目前是否有對外輸出,進行商業化?
何征宇:我們當然希望技術讓全行業受益。目前,「綠色計算」體系包括兩個技術門類,一是雲原生,二是原生分布式數據庫。當前,我們的雲原生技術是通過開源、免費開放專利、論文分享等方式做對外開放。
而原生分布式數據庫,我們通過產品化形式對外提供服務。我們的分布式數據庫 OceanBase 支持了綠色計算技術,當前已服務超過 400 家客戶。OceanBase 正是基於離線混合部署、極致無損彈性和智能分時調度的能力,來實現計算、存儲和網絡方面的資源提效。
記者:從全球範圍來看,有哪些比較好的技術減排實踐可以分享?
何征宇:從我的角度看,科技公司就分兩類路線,一類是乙方公司,比如雲計算廠商、硬件廠商等等主要提供算力的公司,還有諮詢公司等;還有一類是甲方公司,大量消耗算力。
乙方公司是希望幫助客戶實現碳中和這個問題,從硬件到軟件,有全套的技術棧。他們的自身技術棧利用率可以達到非常高,比如 IBM 的軟硬件結合,可以讓技術棧的利用率做到 99%,這是非常驚人的。這是因為他們得幫客戶解決問題,並且利用了 AI 和數據等等能力,他們預測算力需求的能力很好。
甲方公司里做得最好的是谷歌。谷歌最大的優勢是在很多系統都是自建,而非採購,這能夠讓他們看清楚所有的業務板塊都在做什麼。他們的技術棧相當於是把所有的服務器看作一台計算機,所做的事情都為了提升這台計算機的利用率。哪怕提升百分之幾,在龐大的服務器體量下,效率提升都是驚人的。
所以,這兩個方向都會出現偉大的公司,一個是幫客戶做,一個是幫自己做,都是我們應該追求的目標,螞蟻也都會去探索。
記者:對科技業而言,你認為,當前最大的減排挑戰會在什麼地方?
何征宇:我前幾天看了一個數據中心的報告,其實可以反映一些問題。目前數據中心從市場出貨量增長來看,是沒有減緩的,每年都還在提升。而單台服務器或 CPU 消耗來看,功率也沒有降低。
在減排挑戰上,我認為真的還是在技術突破。如果我們在處理、儲存、傳輸過程中避免不必要的消耗,科技行業的整體能源消耗量是可以成倍減少的。
這就意味着,科技公司更需要以負責任的態度來看這個問題。在未來的 5G 、元宇宙等新技術趨勢,我們產生的算力將會是巨量的。如果科技業什麼事情都不做,能源危機是能預見的。
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()