close


為「數據」降本的背景

信息爆炸的時代數據極速膨脹,數據存儲與計算消耗的IT資源、能源日益增長。為了節省能源,例如我國推出了東數西算,騰訊把數據中心裝進了貴州山里,微軟把數據中心建在海底,「臉書」在猶他州雪山旁建立新數據中心。海底的數據中心建設從硬件、技術角度進行「數據成本」控制。從業務角度對膨脹的數據本身進行「冷熱」分級管理,不僅有利於節約「計算成本」,也可以提高業務數據化運營效率

冷熱數據定義及意義

冷熱數據主要從數據訪問頻度、更新頻度進行劃分。冷數據,即實際生產中被訪問、更新頻度比較低、概率比較低的數據。熱數據,訪問、更新頻度較高,未來被調用的概率較高的數據。冷數據在業務場景中計算時效要求慢,可以做集中化部署,可以對數據進行壓縮、去重等降低成本的方法。熱數據因為訪問頻次需求大,效率要求高,可以高性能存儲與就近計算部署;

數據冷熱管理最核心目標提高算力利用率,所謂算力通常包含CPU、GPU、內存、帶寬等能力,算力瓶頸在於單位時間內處理數據能力。視頻、人工智能等領域的算力消耗集中在對大規模數據及參數的「算法」的計算處理。在傳統行業領域以結構化數據為主,算力消耗集中在「訂單、客戶、事件」三大類數據的搬運、數據排序、數據關聯、數據合併、數據算術運算、數據的查詢等。

希望通過對數據冷熱區分,精準識別出「熱」數據,減少對「冷數據」的搬運、關聯、排序、計算等,把算力集中在刀刃上,實現數據處理「提速、降本」。

系統架構設計時對數據的「冷熱」管理

數據規模控制目前有「冷熱分離異構系統」和「冷熱分離同構系統」兩類架構。

「冷熱分離異構系統」:將冷熱數據根據被訪問的頻度及概率,一般來說將「時間序列較早,訪問頻度較低於一定比例」歸檔轉移至另一個系統的進行存儲。兩套系統擁有不同的存儲特性、訪問方式等,優先熱數據訪問性能的同時,降低冷數據的運維成本

「冷熱分離同構系統」:冷熱數據應用同一套規則,同一個數據集群中部署不同配置的機器,不同服務器進HOT/COLD屬性標誌。高配置服務器管理管理熱數據,低配置服務器用於管理冷數據。當創建一個新的Index時,指定其數據分配到Hot屬性的機器上;一段時間後,再將其配置修改為分配到Cold屬性機器上,Elasticsearch便會自動完成數據遷移。系統級數據的冷熱分級管理可以有效提高算力使用效率。

圖:冷熱存儲策略

全冷存儲指數據全部存儲在HDD盤,是一種較為經濟的存儲策略。全熱存儲指數據全部存儲在SSD盤,滿足高性能訪問的需求。冷熱混合存儲指一定數量的分區存儲在SSD盤,其餘數據存儲在HDD盤。

數據結構設計時進行「冷熱」管理

傳統行業的數據處理不需要像阿爾法狗即時計算出圍棋的落子位置,更多的是固化的計算邏輯。因此可以通過「數據分區、計算分時」等策略優化算力利用率

數據分區,數據結構設計時從動態與靜態維度對數據進行「冷熱」分區,減少對「冷數據」的搬運、關聯、排序、計算等,降低參與計算的數據規模。計算分時,很多傳統領域數據計算步驟是相對固化的、非實時的,可以通過對計算步驟分解在多個時段,平滑並發計算量。

1、所謂靜態數據主要指事件類數據,描述發生一個事件的數據記錄,如保險領域理賠,報案事件、理算記錄、結案事件,每個事件包含了對象、時間、事件內容等。靜態數據參與的計算主要在於「被搬運、被查詢、被關聯、被計算」,靜態數據本身幾乎不進行合併更新計算。對於靜態數據中被關聯、被計算關鍵字段可以進行熱度標識,參與計算的高頻字段可以分配至臨時表獨立存儲,減少統計類計算時加載的數據規模。

如:保險領域對理賠事件原始數據字段超過20個,數據「入湖共享」時對高頻度報表計算的「案件類型、報案時間、結案時間、金額」4個「熱」數據字段拆出一個獨立表進行共享,並增加「機構屬性標記、客戶號、手機號、保單號」關聯關鍵字段(數據規模比原始數據降低3/4)。這樣不同機構在開展個性化理賠統計報表分析時(不同分公司報表分析頻度、統計樣式可以個性化),僅需要加載對應機構的數據,快速完成「客戶-理賠」與「保單-理賠」關聯計算,減少「客戶-保單-理賠」跨表數據搬運及複雜關聯。

2、動態數據指會時序更新的數據,如客戶類的數據「收入、偏好、最近一次交易等」涉及持續更新合併。動態數據消耗的算力集中在「數據更新合併、數據排序、查詢、關聯」,其中數據的Update涉及較多校驗規則。針對動態數據中各字段更新頻度進行冷熱標識,對於高頻度update字段進行獨立表管理,避免高頻對大寬表的讀寫操作。

如在保險領域,客戶高頻度更新信息字段主要是「職業、出險次數、最近投保」等和交易關聯性強字段,客戶數據中台數據結構設計時,對高頻update字段獨立表寫入管理,減少對客戶大寬表加載與讀寫。

結語

目前在IT行業系統架構設計重視度比較高,在數據結構設計有很大提升空間。如我所在在保險企業業務核心系統為外資產品,運行10多年後進行升級重構時,最大的難題就是數據結構設計,招投標時國內廠商可以在系統結構上給出較為完善的解決方案,但在數據結構上、數據規則上面臨很大挑戰。

作者:魏來,金融領域數據營銷、數據中台資深專家,微信號18616082325

(歡迎大家加入數據工匠知識星球獲取更多資訊。)

聯繫我們

掃描二維碼關注我們

微信:SZH9543
郵箱:ccjiu@163.com
QQ:2286075659

熱門文章

數據中台建設過程中「通用化+標準化+敏捷性」

淺議傳統零售領域的數字化與線上化

基於數字孿生平台的應用場景案例

大數據轉型方案:首推數據湖!

終於有人把大數據數倉建模講明白了

數據治理:數據質量管理辦法

我們的使命:發展數據治理行業、普及數據治理知識、改變企業數據管理現狀、提高企業數據質量、推動企業走進大數據時代。

我們的願景:打造數據治理專家、數據治理平台、數據治理生態圈。

我們的價值觀:凝聚行業力量、打造數據治理全鏈條平台、改變數據治理生態圈。

了解更多精彩內容

長按,識別二維碼,關注我們吧!

數據工匠俱樂部

微信號:zgsjgjjlb

專注數據治理,推動大數據發展。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()