10月中旬,在DataFunSummit的數據產品在線峰會上,我分享了有關數據治理工具的產品實踐,從公司內部過往數據治理回顧、當前的治理痛點,針對痛點產品的整體策略以及對於數據治理工具的未來規劃四個方面進行了分享,分享收到了在線用戶較好的反饋,有關文稿內容整理記錄如下:
聽眾收益:
在公司內部,業務線經常面臨數據有哪些、質量如何、是否可用、能產生多大價值的困惑,並且,隨着數據量的增加,計算和存儲資源面臨瓶頸。本次分享將圍繞數據治理重點關注的計算、存儲等方面,分享數據治理的產品實踐。通過分享,一方面可以了解當前業務線主要面臨的待治理的數據問題,另一方面,從計算、存儲等主要方面,了解數據治理需要重點關注的內容,同時,對數據治理的整體產品實踐有宏觀的認識,對內部業務線的數據治理提供針對性的建議。
分享正文:
大家好,下面由我來給大家分享數據治理工具的產品實踐。整個分享我將從下面這四個方面進行介紹,分別是網易內部業務線過往的數據治理回顧,當前面臨的數據治理痛點,針對痛點,數據治理平台整體的產品策略以及未來的規劃。
過往數據治理回顧
首先,對於內部業務線,包括嚴選、傳媒和音樂,都做過數據治理專項活動,也取得了初步的成效。
對於進行數據治理專項活動的背景,一方面隨着業務的發展,內部業務線的計算和存儲達到瓶頸,但業務方很難判斷,是應該繼續擴容增加資源,還是對劣質數據進行治理來降低資源危機,但這個過程中,如何定義劣質數據,定義了劣質資源後,要怎麼對其進行治理,都是亟待確定和解決的問題;另一方面,數據本身的加工鏈路長,數據的加工處理沒有統一的標準,整個團隊內到底有哪些數據,數據的負責人是誰,這些數據是通過哪些任務產出的,這些數據有沒有被有效的使用,數據的存在是否有意義,這些都是管理者比較關心的問題,但數據團隊都很難回答。
對於各個業務線面臨的共同問題,在專項治理活動中,我們給出了針對性的策略。首先將表和任務具體化到責任人,由責任人進行資產梳理,對於沒有人認領的資產,比如沒有負責人、負責人離職或者負責人為項目等情況,那麼就由各個業務線指定專門的治理負責人進行專項治理;然後對於存儲資源,首先對無用數據進行規則定義,明確到底達到什麼指標可以作為無用數據,比如近90天訪問次數均為0等,確定好無用數據的規則後,將項目內無用數據掃描出來,業務方對無用數據進行二次確認,產品上提供操作入口快速下線,同時提供下線列表或累計下線數據等,進行閉環分析;對於計算資源,會對離線任務、自助查詢任務消耗的成本進行分析,包括任務的執行時長、預估消耗的費用、消耗的CU等內容,便於業務進行優化,也給任務的下線治理提供依據,成本分析會默認保留近半年的數據,在對任務進行優化後,也可以進行對比分析;最後,對於存儲和計算優化後,治理效果要可量化和評估,比如確認下線的存儲有多少,對任務優化後節約的資源有多少,便於管理者和治理負責人對治理成果進行評估。
對於治理效率量化可評估這一策略,我們內部有一套自己的成本度量體系。基於底層的表信息、計算任務信息和任務/表之間的血緣信息,匯總為計算、存儲的元數據倉庫,結合網易內部自己的賬單體系,體系中對計算和存儲均進行了定價,從而將調度任務、自助查詢每次執行消耗的計算成本預估出來,對於存儲成本,一方面包含數據表本身的存儲成本,另一方面產出該表的計算任務也會分攤該數據表的成本,最終得到數據表總的存儲成本。將計算和存儲成本轉化為費用,更加一目了然的對治理效果進行量化評估。
上述專項治理中提到的策略,在數據治理工具平台均進行了產品功能的落地,通過平台化的功能,進一步提高治理效率。對任務/表具體化到責任人策略,平台提供項目內所有表的列表,支持查詢、轉交責任人等功能;對於無用數據下線功能,平台基於對無用數據的規則定義進行掃描,提供對無用數據下線的入口,確認下線後,默認會將數據表移到灰度空間保存一定時間,到期之後,平台才真正對數據進行刪除;對於數據表的生命周期管理,提供功能入口,針對內外部表均可設置,並且對於外部表,支持可選是否刪除目錄文件;對於計算任務的成本分析,對項目內所有調度和Query任務進行掃描,分析任務成本,默認保留近半年的成本記錄,便於對任務優化前後進行對比分析。
在治理效果衡量體系中,提供待治理和已治理的負責人紅黑榜單,便於管理員和個人進行查看,對於產生的費用和下線的存儲等內容,從項目和個人角度,提供資產大盤,更加清晰的了解治理的效果。
同時,為了更好地觸達負責人進行數據治理,建立了郵件和內部工具的通知機制,通知內容分為了兩個視角,一方面是治理負責人,可以了解當前自己還有哪些數據需要進行治理,治理後可以給項目節省多少年費用;另一方面是項目的管理員/負責人,可以知道當前項目下一共還有多少數據需要治理,治理後總共可以節省多少年費用,也可以知道整個項目中治理做的好的負責人Top5,以及還有哪些人占據的成本最多,可以以此為依據,催促負責人進行治理工作。
在專項治理活動中,通過上述的多種策略,初步取得了治理成效。2020年,為雲音樂和嚴選分別優化了47.6%和61%的表,也為傳媒業務線節省了約38%的計算資源,數據治理各個業務線的專項活動策略得到了業務方的肯定。
當前的數據治理痛點
第一章主要講解了內部業務線數據治理專項活動採取的策略以及初步取得的成效,接下來重點闡述當前數據治理仍然面臨的痛點和那些怎麼也填不完的數據"坑"。
當前的業務數據治理,主要面臨這樣幾個關鍵的痛點:首先業務數據本身沒有規範化創建和管理,比如外部表定義目錄不規範,有些分區目錄location的是表的目錄,在對表生命周期進行管理時,若選擇刪除目錄,那麼文件就會有被誤刪的風險;數據開發團隊人員更換頻繁,面對眾多的業務需求,疲態應對,處於只開發不治理的循環中,數據治理的動力不足,項目內遺留大量的歷史數據;還有就是當計算和存儲等資源達到瓶頸後,被領導催着進行治理,缺乏長效的數據治理機制,導致階段性治理和資源告急循環往復;然後是治理的效果量化指標粗糙,哪些負責人下線了哪些數據,為項目節省了多少存儲,具體節省了多少費用,沒有有效的可評估的數據,這也衍生了治理者的消極心態。
雖然在上一章也有講到,數據治理專項活動取得了初步的成效,但依然還存有很多成本問題需要持續進行治理,包括嚴選、傳媒和雲音樂都各自有一定比重的表處於待下線狀態,占據了相當一部分的存儲空間。
數據治理這條道路,真的可以用前路漫漫,道阻且長來形容了。針對成本,包括計算和存儲成本,數據量持續在增加,源源不斷的帶來存儲成本,隊列的資源也持續緊張,任務優化也亟待解決;對於質量,數據的加工鏈路長,任何一個環節都可能帶來質量問題;對於規範,基於ODS、DWD層直接製作的報表數量居高不下,模型的復用率低;對於安全,項目內的管理員數量眾多,太多人有比較高的權限,權限太大應該要怎麼控制,以及離職等人員閒置下來的權限應該怎麼收回;對於價值,API、BI等這些下游應用系統,引用表和計算成本要如何進行估量,怎麼根據下游應用來量化數據價值。這些都是在數據治理過程中需要持續關注和解決的問題。
產品整體策略
第二章講到了當前面臨的數據治理痛點,以及從成本、質量、規範、安全和價值各個方面都有亟待解決的問題。本章將針對上述面臨的問題,提出治理方案,並將數據治理過程進行體系化建設,整體形成閉環。
數據治理本就是一個階段化的工作,做不到一口能吃個"胖子",達不到一開始就能把治理工作做到極致,數據治理整體可以分為這樣三個階段:治理的範圍、治理的價值和體系化的治理。首先要讓決策者能夠看見和關注,對數據治理的範圍進行系統性的梳理,明確需要進行數據治理的範圍;其次需要有一套抓手,能夠讓真正做治理工作的負責人看到問題,並且有可量化的體系,對治理成效可評估;最後將治理過程中的策略能夠落地到產品功能上,通過短期業務線的宣傳運營和長期的閉環機制,整體達到體系化的治理。
下面針對上述提到的階梯化治理的各個過程進行詳細的介紹。初階段是明確治理範圍,整個是圍繞數據的全生命周期展開的,在數據生產階段,需要對需求進行分析,明確業務口徑,對數據進行規範採集、任務開發和監控運維;在數據消費階段,涉及到快速的查找數據,對數據的分析和對數據質量的探查;在數據管理過程中,包含權限和成本管理等。整個流程涉及到成本、標準、質量、安全和價值,各個階段都會面臨對數據的治理工作。
明確了數據治理範圍後,然後是對於數據治理價值的量化。基於數據的全生命周期,包含了成本、質量、安全、標準和價值五個方面,針對每個方面,都要有可量化的指標項,對於成本,包括計算和存儲成本的費用量化,對無用數據的下線治理等;對於價值,需要能夠評估每個數據模型、數據報告和API的價值;對於質量,會包含監控任務覆蓋了多少稽核規則,涵蓋了多少強弱規則;對於標準,需要對指標和模型進行規範化定義;對於安全,會包含數據安全登記和數據權限的治理等工作。
數據治理不是一個臨時性要做的工作,從數據生命周期的全過程到治理體系的健康運行,需要一個長效的治理機制來保證,最後就是體系化的數據治理。最開始是發現問題,包含成本、標準、質量、安全和價值五個方面,明確需要進行治理的內容;然後基於需要治理的內容配套專題的治理工具,比如對無用數據的推薦下線,對表生命周期的管理,對計算任務的優化等;最後在治理工作過程中,持續有治理抓手,包括推送整個項目、個人的資產賬單,數據治理的紅黑榜,並將資產健康分和個人的任務優先級或資源申請等掛鈎,然後內部也舉辦了數據治理大賽、業務線專項治理活動等來持續運營產品功能。整體通過發現問題-->解決手段-->持續運營和持續沉澱形成資產治理的閉環。
未來規劃
第三章主要基於之前提到的數據治理痛點,給出了治理的整體策略方案,下面講一下數據治理工具的未來規劃。
關於資產治理產品的架構,繪製了一個房子圖,如圖所示,數據資產治理平台的使命是降本提效、省錢省力,願景是能夠打造成一款全流程、自動化、可落地、高質量的大數據評估和優化工具,成為數據治理的利刃。在這個過程中,以資產健康分為主要抓手,涵蓋成本、質量、安全、標準和價值,各個模塊均包含需要治理的內容,並且針對資產健康分的不同等級,也會和任務的優先級、申請資源等權限掛鈎。同時配合通知機制,從管理員和用戶個人不同角度,對資產治理工作進行觸達,調動治理的積極性,提供便捷的治理入口,形成體系化的治理體系。
以上就是本次有關於網易數據治理工具產品實踐的分享,感謝大家~
雲水謠,網易有數產品經理,主要負責數據服務、指標系統和數據治理相關內容。從0到1構建數據服務平台,從1到1.1實現數據治理整體閉環,有豐富的數據平台產品經驗。
