
AI 深入應用,以及數字化與新商業環境的挑戰下,對數據的管理與應用被企業和 IT 界提到了更重要的位置。CSDN 的《新程序員》雜誌第二期做了主題為「新數據庫時代」的系列專題報道,此外,分析與諮詢機構在研究與發表的報告中,也印證了這一趨勢。德勤在剛剛發布的《2022年度技術趨勢》中,第一個趨勢即是數據相關,表示數據共享趨勢將加速。Gartner 發布 2022年數據分析十二大趨勢,將數據分析提升到企業創新起源的高度。不過從最早的傳統關係型數據庫,到 Hadoop、Spark 大數據應用,再到數據倉庫、數據湖,今年湖倉一體、流批一體等實時數據處理被廣泛關注,數據賽道呈現了多種需求與多種方案混雜的形態。究竟該如何理解數據的重要性,以及選擇什麼樣的數據策略,是數據從業者都需要去釐清的內容。近日,CSDN 專訪了專注於數據智能基礎設施的軟件廠商九章雲極 DatatCanvas 董事長方磊博士,聽聽他的理解與實踐經驗。TP、AP 之後「第三份數據」興起,引發數據熱潮與系統升級機會在 IT 系統發展中,事務型數據(TP)與分析型數據(AP)是最典型的兩類數據,以往數據與報表只是企業內部使用,例如白天的業務數據在晚上統一匯總,每天只更新一次(T+1),因此這些數據具有低並發、低頻率的特點。隨着商業的創新式發展,數據逐步從內部轉為外部用戶使用,應用操作即時就需反饋結果,方磊舉例道,如手機銀行 App 如果轉賬失敗需要立刻恢復餘額,專業術語成為「沖賬」。因此他表示,在 TP、AP 之後出現了「第三份數據」,它需要與內部系統直連,並能快速、高並發地完成外部請求。為了處理「第三份數據」,新的數據系統既要有數據倉庫的特性,又要兼顧交易數據庫的特性,同時具有 severing 的能力。因此出現了多個數據系統,並逐步發展為統一架構之上,流批一體、湖倉一體等實時數倉隨之產生。不過方磊提到,現在湖倉一體、流批一體側重於在計算層將結構化、非結構化數據統一,實現統一計算。例如 Databricks 提出的 Lakehouse,這是因為在美國的 IT 系統中,公有雲的發展已經解決了數據存儲層的問題。但中國 IT 是更為分散的私有雲、混合雲市場。傳統企業中,數據在存儲層只是由 Oracle、Teradate、MPP 上一代的數據倉庫過渡到了 Hadoop ,數據可能存在 HDFS、或 MPP 數據庫,或在雲上的對象存儲中,各類實時數倉不同的設計,都需要解決數據不一致,這一最大的痛點。除了實時性的需求之後,數據業務正在從大量事後統計,轉向事中與事前(如金融監管)預防,另外在以往系統內 BI 應用之外,數據需要支持眾多新的 AI 應用,而工業互聯網領域的數據應用也在彎道超車,如工業質檢、風力發動機轉速扭矩調節,等物聯網與 AI 應用也帶來數據實時性的需求。這其中,AI 人工智能場景應用對於數據的需求尤為急迫,因為算法與模型都需要更高效和靈活的數據系統去支撐。例如基於 AI 模型的在線實時金融產品,數據早已不是僅限於內部使用,外部對於數據的查詢等需求,需要數據系統的分析能力能夠實時透傳到外部,為外部用戶提供查詢(如金融產品數據、隨股市變化的金額數據等)。以上這些新場景、新應用、新需求,都讓實時性數據進一步成為技術界的熱點。不過方磊認為,從更宏觀的視野來看,實時數倉不應僅僅是離線數據庫的補充和「補丁」。以往數據處理的痛點並未被徹底完美解決,所以現在更是整個數據基礎設施與系統架構迭代升級的機會窗口,也因此國內外出現了各種由創業公司、雲廠商推出的多個數據系統。在數據基礎設施的升級中,各類公司對數據系統的設計分為了很多流派。有些系統針對傳統數倉的性能做了調優提速,已經能滿足目前 80% 的數據業務需求,方磊稱之為改良派,但這類系統仍無法解決高並發與外部用戶使用的難題。另一類系統,則打破了 TP、AP 數據的割裂性,所有數據全部實現流批一體,不過這也會帶來對內存等計算成本的高昂開銷。第三種,也是九章雲極DataCanvas選擇的路線,設計一個既支持「批數據」又支持「流數據」,併兼顧不同類型存儲擺放需求的數據系統。現在,九章雲極 DataCanvas 推出了實時交互式分析數據庫 DingoDB, DingoDB 作為實時數據的通用系統,像 hadoop 一樣具有鬆耦合與靈活性,但同時像 Oracle 具有穩定性且易於運維。更進一步,在數據系統的各環節中,方磊認為,數據的變換已經被業界很好的解決(如開源 Flink 已經可以很好解決實時的數據變換 Realtime ETL),而之後的數據查詢仍然是薄弱和待提升的環節。DingoDB 借鑑了 TP 系統和 AP 系統各自的優點,結合 Flink ETL,在存儲海量數據的同時,能夠進行高並發的數據查詢,實時的數據分析。數據從各種類型的渠道導入 DingoDB,藉助 DingoDB 的高並發查詢,實時數據分析和多維分析的能力,來支撐實時性、需要在線決策的數據業務應用。方磊介紹,DingoDB 最核心的技術特性,是高效支持高頻修改和查詢、實時交互式分析、實時多維分析等功能,兼具行列混存等技術創新,詳細的來說:
行列混合:DingoDB 採用了統一的存儲的設計,支持行存、列存和行列混合的存儲形式。標準 SQL:DingoDB 支持 ANSI SQL 語法,可以和 Calcite 客戶端、BI 報表工具無縫銜接。實時高頻更新:DingoDB 能夠基於主鍵,實現數據記錄的 Upsert、Delete 操作;同時數據採用多分區副本機制,能夠將 Upsert、Delete 操作轉化為 Key-Value 操作,實現高頻更新。
DingoDB 架構圖
在存儲層,DingoDB 與被頻繁比較的 Databricks 的 Delta Lake 最大的不同點,是 DingoDB 採用了分布式存儲架構,以適應國內用戶存儲分散的現狀,而 Delta Lake 在存儲層更多是雲上的對象存儲的抽象定義,而非真正的存儲,這並不適應目前國內雲計算的現實情況。方磊對 CSDN 提到,在企業中,算法和數據不分家,並將越來越緊密結合。所以成立之初,九章雲極 DataCanvas 推出 AI 機器學習平台 DataCanvas APS,並在多個關鍵行業積累了大量的落地場景與案例經驗,現在更進一步,針對 AI 分析依賴高效、實時性數據這個核心需求,推出的實時數據系統 DingoDB ,則是讓數據從處理到 AI 分析,可以在一站式的平台上完成。面對數據領域層出不窮的新技術,方磊表示,實時數倉、湖倉一體都是數據處理與分析應用的新戰術,而從戰略層面來說,方磊認為,九章雲極 DataCanvas 專注和努力在做的,是將 AI 的分析、數據等開放能力,組成一個高效的、互相緊密聯繫與流動的體系。與 Databricks、亞馬遜雲科技一樣,九章雲極DataCanvas 將致力於打造 AI 與數據統一的、一站式的數據科學平台,Data analytics and AI on one platform。以過硬的技術與產品去應對數據處理與分析的效率變革與挑戰,將是數據賽道永恆的主題,我們期待九章雲極 DataCanvas 與更多中國優秀數據廠商的表現。