炎凰數據平台v2.0採用混合建模技術、高性能計算引擎和雲原生架構,在多個技術方面進行了探索與突破,最大程度提高了靈活性、易用性和高效性。
本篇文章,我們將為大家詳細介紹炎凰數據平台v2.0的技術細節和功能特點。
炎凰數據平台v2.0是我們自主研發的一個異構數據即時分析平台,其中有兩大關鍵詞:
01
異構數據
一個簡單易用的數據分析系統要能夠快速靈活地處理不同格式的數據。炎凰數據利用讀時建模的技術,對各種異構數據進行高效靈活的處理。
讀時建模技術的核心思想是直接存儲原始數據,確保數據的高保真,在查詢數據時可以按需生成新的字段,動態構建模型,靈活地響應業務需求的變化。
分析師或數據工程師把原始數據導入炎凰數據平台之後,可以在炎凰數據平台中通過交互式SQL直接提取字段建立數據模型,進一步完成分析的需求。當分析需求變化時,只需要改寫字段提取SQL邏輯,即可修改數據模型,無需重新導入數據,從而將需求的實現過程從以月計加速到以天計。
02
即時分析
通過對原始數據構建倒排索引以及時序索引,炎凰數據平台v2.0具備即時查詢分析數據的能力。炎凰數據引擎兼具讀時建模、時序處理和數據搜索三大能力。圍繞這一核心引擎,炎凰數據也構建了數據採集、導入和展現等模塊,提供端到端的開箱即用的數據服務。
《炎凰數據平台三大模塊》
炎凰數據平台具有三個技術特點:
靈活性:炎凰數據核心引擎以讀時建模為主,同時兼容寫時建模,保證了數據處理的靈活性。
高效性:使用C++實現引擎,採用現代架構和工程優化,確保了數據處理的快速高效。
先進性:炎凰數據利用雲原生微服務的架構,實現服務之間的解耦,存算分離,可以根據不同的業務場景和工作負載,單獨擴展存儲或者計算服務。
從數據流的角度,可以把炎凰數據平台分為三大模塊:
數據採集模塊
將各類異構數據接入炎凰數據平台。
數據索引模塊
對時間戳自動識別和分析,根據時間對數據分片。對數據進行分詞,構建倒排索引。熱數據暫時存儲到內存當中,當滿足條件之後,把數據和索引寫入磁盤。對於普通的文本類型的日誌,單節點可以達到20MB/s的寫入速度。炎凰數據利用列式存儲技術,實現數據高壓縮比存儲,為客戶節省了存儲成本。
數據查詢模塊
SQL解析和查詢的引擎在解析查詢後可以鎖定檢索數據範圍,然後利用查詢中用到的讀時建模的規則,構建數據模型,進一步進行聚類、過濾和關聯分析。利用即時編譯和向量計算加速等技術,單節點可以每秒鐘處理超過100萬條數據。
《炎凰數據平台技術發展方向》

易用性
選擇SQL作為分析語言,可以降低學習成本,讓用戶更快速地上手數據分析,未來,炎凰數據會進一步豐富SQL計算的能力。同時,持續完善從數據採集到展示的全棧式的服務,在安裝平台之後,可以立即導入數據進行數據分析,驗證分析結果,加快數據產生價值的閉環。

高效性
選用C++來實現底層的存儲和計算的引擎,能夠從底層去控制並行計算的粒度,控制內存的使用量,實現內存的零拷貝。炎凰數據會持續進行工程優化,保證高效地導入數據和計算數據。

雲原生
利用雲原生的架構,可以更好地適配各種雲環境,提高資源利用率,靈活地彈性伸縮,讓企業使用數據的時候更加簡單。
炎凰數據平台v2.0產品介紹
往期回顧
大數至簡|炎凰數據平台v2.0正式發布!