

本文援引於報告《2022年中國數據庫產品策略解析報告》,首發於頭豹科技創新網(www.leadleo.com)。
全文字數:5,032字,精讀時間:8分鐘
分布式數據庫技術已經步入商業應用的成熟期,但分布式僅是數據庫眾多維度中的一環,那麼從長遠的目光中,再將視角放諸整個數據庫技術棧的大廈中,數據庫的未來該如何發展?
頭豹研究院謹此發布《2022年中國數據庫產品策略解析報告》,本報告將對數據庫產品從數據庫技術的底層核心出發,深入探討當前數據庫的發展潮流中的關鍵技術以及數據庫產業的增長邏輯,幫助讀者建立對數據庫產業的總體及數據庫產品特徵有客觀的認識。
在當前的大數據時代與雲時代的交匯階段,數據庫領域所面臨的挑戰擴展性包括了擴展性、異構性、數據非結構化、錯誤診斷、數據隱私、及時性、數據溯源、可視化等問題
」
計算機數據庫技術的革新完全改變了我們的生活方式。假若數據庫技術仍然停步不前十分落後,一次在線的轉賬要花10分鐘以上,在線支付就不會取代紙質現金交易獲得當前的市場地位;如果一個網頁的加載需要幾分鐘,我們寧願選擇看電視而非打開電腦上的視頻門戶網站。這些正是互聯網時代之前絕大多數人的日常生活。
經歷了多年的信息技術的發展,網絡帶寬和傳輸速度得到了巨大的飛躍,同時數據庫技術的革新貢獻不容忽視。
計算機是一門年輕的學科,誕生至今也不過半個多世紀。而計算機的問世,極大地推動了對處理數據和管理數據的需求發展,數據庫技術作為計算機技術的研究分支應運而生。
隨着計算機應用領域的不斷拓展和多媒體技術的發展,數據庫已經是計算機學科中發展最快、應用最廣泛的重要分支,是現代計算機信息系統和計算機應用系統的基礎和核心。而面向網絡技術、人工智能、並行計算等新興領域技術的融合,為數據庫技術的應用又開拓了更為廣闊的空間。
在當前的大數據時代與雲時代的交匯階段,數據庫領域所面臨的挑戰已經不止步在擴展性,還包括了異構性、數據非結構化、錯誤診斷與處理、數據隱私、及時性、數據溯源、可視化等問題。
這些技術挑戰同時跨越了多個技術應用領域,數據庫作為單一技術領域難以完成數據庫的革命性變化。未來數據庫管理領域的重要發展趨勢便是各類技術的互相借鑑、融合和發展。數據庫數據庫產業持續不斷地適應着市場需求進行改進,而此演進迭代的進程將持續。
NoSQL取代傳統數據庫技術成為新的主流,不到十年就被NewSQL顛覆,一個新穎可行的理念被提出來,轉眼間把過去學的知識顛覆。
數據庫設計理論正在尋求更有效的語義表達關係,並在各設計階段提供自動或半自動的設計工具和集成化的開發環境
」
對於給定的應用環境,構造最優的數據庫模式,建立數據庫及其應用系統,使之能夠有效地存儲數據,並滿足各種用戶對信息分類與處理等應用要求。數據庫設計理論正在尋求更有效的語義表達關係,並在各設計階段提供自動或半自動的設計工具和集成化的開發環境。

創新的分布式事務處理技術能夠給予分布式數據庫在工業實現上不同的高度,也定義了不同數據庫廠商在數據庫內核上的核心競爭力
」
在分布式架構設計的領域中存在一則指導綱領:CAP理論,指出一個數據庫系統無法同時實現以下三個目標,只能妥協其一選餘二:
1.提升系統的可用性;2.保證數據的實時可見;3.提升系統的容錯能力。
CAP理論是學界中的概念化描述,在工程實踐中,存在不同的思路和實踐產品在摸索CAP理論中三者共存的邊界。其中應用了包括不同的架構、事務解決方案、加鎖機制、隔離機制、一致性算法/協議。
而學界也並不將CAP理論奉為圭臬,始終在重新定義CAP,提出了PACELC理論等研究熱點,持續探索更優的分布式系統架構模式。
在CAP理論的提出後,分布式與事務型數據庫開始結合。分布式一致性和事務一致性的融合,簡化了應用層開發者的研發負擔,不需要開發者精通分布式一致性和事務一致性的全部語義,以此提高了工作效率。
BASE原則使得分布式系統的多個組件的協作能夠以弱耦合的方式形成一個異步系統,將理論推導和工程實現變得更簡單。但ACID原則尤其是滿足強一致性依然是所有分布式數據庫架構的目標。

中心時鐘、混合邏輯時鐘、原子鐘授時是目前邏輯時鐘方案中的主流解決方案
」
分布式數據庫出於滿足對高可用性的需求,一般具備多副本進行數據的冗餘存儲。不同節點上的數據是完全一樣的,但各節點的分布不同、分區不同,各節點間的數據複製存在時延,這對跨節點的數據同步複製提出了要求:如何實現多節點之間的數據一致性?
分布式事務的一致性問題聚焦在「次序一致性」。而時間作為單向流逝的序列可用於表達順序關係,於是邏輯時鐘的提出解決了分布式系統中事件之間的排序問題,給分布式系統中的所有事件定位次序關係。
但不同節點中的時鐘點有快慢之差,分布式數據庫下的時鐘無法全局設置,於是誕生了眾多始終解決方案,包括TSO、GTM、SCN、HLC、Truetime。

Paxos協議和Raft協議是分布式數據庫的一致性算法中最為主流的協議方案
」
Write all read one (WARO) 的副本控制協議,要求更新時確保所有副本更新成功,但導致負載不均衡易存在極大的延遲。
Quorum協議,在WARO基礎上對讀取和更新進行權衡,且能容忍一定程度的副本異常。但是Quorum無法保證強一致性。
當前流行的一致性解決方案是:基於兩階段提交協議(2PC)實現跨shard事務提交的完整性,基於全局唯一遞增時間戳實現跨shard事務的全局讀一致性,通過Paxos協議和或aft協議實現多副本之間的數據一致性。
分布式事務的核心問題是解決分布式、並發情況下的事務一致性和分布式一致性。查詢優化與並行執行師重要的模塊,在MPP框架下,利用AI技術結合傳統的優化和執行技術,使得分布式數據庫的執行效率大大提升
」
事務與並發訪問控制
分布式事務的核心問題是解決分布式、並發情況下的事務一致性和分布式一致性。
• 分布式一致性本質上是分布式系統引入的問題,保證分布式一致是站在分布式系統之外觀察數據的讀取過程,確保觀察到的數據之間不存某種序。
• 事務一致性是屬於ACID中的C,確保事務一致的情況下並發事務對數據項的影響不會造成數據異常。
並發操作可能會導致數據產生各種異常現象,為了保證事務特性,事務處理技術延伸到了事務處理策略、事務模型、多種並發訪問控制技術,從而解決數據異常現象,達到事務層面的數據一致性。
並發優化與執行
查詢優化與並行執行是重要的模塊,在MPP框架下,利用AI技術結合傳統的優化和執行技術,使得分布式數據庫的執行效率大大提升。

分布式數據庫引入了數據分片,從邏輯的角度,每個節點的數據都是一個或多個數據分片。而數據庫要滿足「高可用」等特性,每個數據分片都會有多個副本。
分布式事務並發訪問處理技術
分布式一致性問題是因為多個節點分散、各個節點沒有各個節點上發生的操作進行排序。
• 解決分布式不一致需要分布式數據庫通過Raft等一致性算法實現強一致。
事務的一致性問題是因並發的事務間並發訪問(比如讀寫、寫讀、寫寫衝突)同一個數據項所造成的。
• 而解決事務的一致性,則需要依靠並發訪問控制技術。
• 並發訪問控制技術在事務處理策略之上,衍生出基本的分布式事務並發訪問控制機制比如:SSI可串行化的快照隔離技術、2PL兩階段鎖、TO時間戳、CO提交排序等方式。
• 前沿的並發訪問控制技術包括:DTA動態調整時間戳算法、Data-driven算法、ACC自適應並發訪問控制、DomCC混合併發訪問控制。
MVCC多版本並發控制技術,是並發訪問控制的核心技術需要基於並發控制技術來使用,如PCC中的兩階段鎖2PL;OCC中基於撤回的時間戳TO、提交排序CO等方法
」
Multi-Version Concurrency Control 多版本並發控制技術,是並發訪問控制的核心技術,在數據庫中用於防止用戶表數據被並發事務訪問時出現數據不一致的問題。
MVCC通過對數據元組進行多個階段的區分提供多版本操作的物理基礎,並以快照幫助事務獲取滿足一致性狀態的數據,最後通過數據可見性判斷算法依據快照遍歷多個版本,使得多個動態的事務可以同時讀寫同一個數據項。
但MVCC需要基於並發控制技術來使用,如PCC中的兩階段鎖2PL;OCC中基於撤回的時間戳TO、提交排序CO等方法。
在存儲系統的設計中,存儲引擎屬於底層數據結構,直接決定了存儲系統所能夠提供的性能和功能。在數據庫產品中以Hash、B+tree、LSM-tree為存儲引擎的主流索引架構
」
常見存儲算法結構涵蓋:哈希存儲,B 、B+、B*樹存儲,LSM樹存儲引擎,R樹,倒排索引,矩陣存儲,對象與塊,圖結構存儲等等。
在數據庫產品中以Hash、B+tree、LSM-tree為存儲引擎的主流索引架構。

雲和恩墨和華為深度合作,基於 openGauss 內核進行研發,推出了安穩易用的企業級數據庫 MogDB,助力客戶的數字化轉型和數據庫替代升級。公司還通過恩墨學院與墨天輪社區,為行業培養數據庫人才、傳播數據領域知識,推動國產數據庫生態繁榮。
」
雲和恩墨(北京)信息技術有限公司
雲和恩墨專注於數據庫領域,是一家智能的數據技術提供商,致力於為用戶提供可信賴的產品、服務和解決方案,團隊研發人員超200人、技術交付超300人。公司的 MogDB 數據庫、zCloud 雲管平台、zData 數據庫一體機、SQM SQL審核平台,能夠為企業級數據庫應用提供從存儲到開發的端到端解決方案。迄今,雲和恩墨的產品和社區服務已獲得超過1000家企業和100萬會員的認可。
MogDB - 安穩易用的企業級數據庫
MogDB 是雲和恩墨基於 openGauss 內核進行增強提升,發行的一款安穩易用的企業級關係型數據庫。MogDB 具備金融級高可用和全密態計算的極致安全、面向多核處理器的極致性能、AI自診斷調優的極致智能能力,能夠滿足從核心交易到複雜計算的企業級業務需求,解決金融、電信、能源、政企等行業用戶數字化技術創新問題,現已在多個行業頭部客戶的核心場景中得到實踐。
恩墨學院與墨天輪社區打造數據庫生態
恩墨學院致力於提供專業、高水準的數據人才培訓服務,已累計為企業輸送專業DBA人才萬餘人。2022年4月,MogDB 數據庫培訓認證體系正式在恩墨學院上線,旨在為 MogDB 用戶培養專業的技術管理人員。
作為第三方技術社區,墨天輪社區註冊用戶超過30萬人,深度交匯行業用戶、分析師、數據庫廠商、技術從業者,持續促進數據領域的知識傳播和技術創新。

在某城商行的國產化替代進程中,雲和恩墨不僅提供了安穩易用的 MogDB 數據庫,配置了完善的運維體系,同時為行內提供數據庫管理與運維培訓,確保了系統投產後的持續穩定運行。該案例的落地標誌着 MogDB 已成為金融客戶數據庫國產化替代的優選品牌。
」
案例代表是一家具備千億級市場經營規模和數十億級盈利能力的頭部城商行,業務遍布全國14個省,資產總額超過5000億元。為提升IT系統性能,保障數據安全,該城商行對國產數據庫產品進行了公開招標,並最終選擇 MogDB 進行數據庫國產化替代。
業務挑戰
• 異構數據庫替換:由 Oracle、DB2、MySQL、PostgreSQL 分別支持的21套業務系統需要平滑遷移。
• 高並發業務場景:800多萬用戶高並發在線訪問,線上渠道服務客戶超過1300萬人次。
• 金融級安全保障:數據庫需支持存儲加密、數據傳輸通道加密等安全機制。
解決方案
MogDB + MogHA + MTK + BRM 構成了本案例的整體解決方案。
• MogDB對Oracle、DB2、MySQL、PostgreSQL等數據庫都具備高度的兼容性,擁有金融級高可用和全密態計算的極致安全,部署上線後各業務系統的可靠性和整體性能均有不同程度的提升。在階段驗收中,MogDB以穩定高效的運行效果和便捷易維的客戶體驗,增強了案例城商行繼續推進國產數據庫替換的信心。
• 高可用管理系統MogHA,能夠監控實例的狀態、主備的狀態,在探測到故障時立即做出合理的主備切換操作,極大地滿足了銀行客戶對業務連續性的高標準要求。
• 數據庫遷移工具MTK,將異構數據庫的數據結構和全量數據高速導入到目標庫MogDB中,其中A類綜合櫃面圖形前端系統在測試中可實現10分鐘內完成全量、迅速、無差錯的數據遷移。
• 備份恢復工具BRM,對集中備份和恢復管理提供了強有力的支撐,有效提升運維效率。案例城商行的ITIL業務在上線前,進行了基於現網數據庫的本地備份和遠程備份。在數據恢復演練中,恢復後的數據完整無缺失。
替代收益
MogDB結合高可用管理系統MogHA,使數據庫的故障持續時間從分鐘級降到秒級(RPO=0,RTO<60s)。案例城商行的多個B類、C類乃至A類業務系統已陸續上線,安全、穩定、高效的 MogDB 將持續支撐該城商行不斷擴大的業務規模。

重點關注企業
」
通過深度研究中國數據庫行業內優質企業,頭豹建議重點關注云和恩墨。

本文推薦閱讀

頭豹研究院TMT+團隊研究力作
一本讀懂2022年中國數據庫產品策略
↓↓長按掃描下方任一碼獲取↓↓


*本公眾號提供的所有資料(包括但不限於數據、文字、圖表等)的版權均為頭豹所有(另行標明出處者除外)。未經頭豹事先書面許可,任何人不得以任何方式擅自複製、再造、傳播、出版、引用、改編、匯編本公眾號中的內容。
頭豹已入駐以下平台
雪球 | 格隆匯 | 同花順 | 東方財富 | 富途牛牛
36氪 | 鈦媒體 | 第一財經 |鯨平台 |健康界
今日頭條 | 微博 |知乎 |百家號 | 捷利交易寶
企鵝號 |搜狐號 | 網易號 | 一點號
...LEADLEO


👇點擊閱讀原文,查看更多數據庫相關研究報告