close
摘要:本文整理自阿里雲開源大數據生態產品研發負責人棕澤在 阿里雲CDP公開課 上的演講。主要內容包括:

阿里雲+Cloudera產品介紹
公有雲方案:雲上 CDP
專有雲方案:CDP、CDF、CDSW
典型場景

視頻:https://developer.aliyun.com/live/247867
Tips:點擊「閱讀原文」有驚喜!

2022年4月開始,Cloudera 官方不再對原有版本的 CDH/HDP 提供技術支持和BUG 修復,也不再對原有版本提供新特性增強。

阿里雲與 Cloudera 聯合打造了阿里雲上的半託管形態 CDP企業數據云平台,以及基於 On- Premise 部署的 CDP大數據平台、CDF流計算、CDSW機器學習平台的專有雲輸出。該平台可以靈活地運⾏各種企業⼯作負載,⽀持從邊緣計算到⼈⼯智能的多功能數據分析,提供企業級的安全模型來保證客戶數據安全。

阿里雲+Cloudera 產品介紹


Cloudera 公司簡介

企業數據云公司 – Cloudera

2008年成立,2014年進入中國,肯睿(上海)軟件有限公司

主要代表產品:CDH,全球最受歡迎的 Hadoop 發行版,100%開源

2019年1月3日,Cloudera 和 Hortonworks 正式合併

2021年7月,Cloudera 中國和阿里雲正式戰略合作

公司定位

開源和開放標準:Cloudera 一直致力於以社區驅動的基於開放標準的基於 Hadoop 的平台,滿足企業對穩定性和可靠性的最高期望

企業數據云:專注於企業級安全和治理、多功能數據分析、彈性的雲計算體驗、消除數據孤島

核心產品:Cloudera Data Platform(CDP),Cloudera Data Flow(CDF),Cloudera Data Science Workbench(CDSW)

阿里雲 +Cloudera 大數據方案介紹

Cloudera產品在FORRESTER WAVES中的位置

核心產品 - Cloudera Data Platform(CDP)

CDP攝取CDH和HDP兩者的優勢

Cloudera Data Platform(CDP)合併 Hortonworks 公司和 Cloudera 公司的最佳技術,提供業界首個企業數據云產品。

CDP 在混合雲和多雲環境中可以提供強大的自助服務分析能力,以及IT和數據管理員所需要的複雜性、細粒度的安全與治理策略。

Cloudera最新的許可政策

我們的許可政策類似於成熟的 Red Hat 開源模型。

該模型在市場上廣為人知,並被全世界的企業所接受。

已有產品的許可證在整個21財年發生變化

自2019年11月以來,訪問產品的二進制文件需要訂閱和paywall credentials

從2019年11月後,Cloudera 再發布的產品不再提供社區版(免費版),只有企業版。只有訂閱了 Cloudera 產品,才能下載對應的介質。2021年1月後,擴展的 Paywall 將包括平台的早期版本。

所有產品源均將獲得 OSI 批准的許可證( Apache 軟件許可證(ASL)或 Affero 通用公共許可證(AGPL))的許可。

訪問從 Cloudera 獲得的所有產品的二進制文件和源代碼都需要訂閱協議

由 Apache Software Foundation 託管的我們為之貢獻的所有開源項目將繼續是 ASF 管轄的項目。

我們的源代碼貢獻模型保持不變,並且仍然是第三方項目的第一個上游。第三方項目存儲庫的公共資源僅在上游。

Cloudera 終止提供開源 CDH,產生遷移機會

2021年2月1日,停止CDH和HDP的免費下載

HDP 2.6.x/CDH 5.x覆蓋了約70%的客戶群,EOS時間2020年12月終止服務

CDH 6.3:2022年3月終止服務

售賣形態:基於阿里雲如何售賣 CDP ?

公有云:半託管 CDP

Cloudera 企業數據云是社區版 CDH 的全新商業化升級產品,是阿里雲和 Cloudera 聯合打造阿里雲上的半託管形態的大數據平台。該平台可以靈活地運行各種企業工作負載(包括實時攝取和分析、批處理、交互式SQL、企業搜索、高級分析和機器學習等),支持從邊緣計算到人工智能的多功能數據分析,提供企業級的安全模型來保障客戶數據安全。

專有雲On-Premise:線下轉售三大套件(CDP、CDF、CDSW)

交付模式

公有雲方案:雲上 CDP


基於阿里雲部署的CDP

產品核心

部署商業版 CDP,包括完整的 Cloudera Manager 及 Cloudera Runtime

基於多種規格的 ECS,開箱即用,支持雲上集群擴展能力以及數據湖

與阿里雲產品集成互通,提供高安全、合規和高可用的雲上 CDP 平台,降低複雜性

無需配置的正版軟件及正版 license 許可證

產品引擎與服務

100% 兼容開源 Hadoop生態,經阿里雲與 Cloudera 聯合研發性能優化

提供商業化 SLA 保障與7*24小時 Cloudera 專家支持服務

提供專家服務及諮詢,如平台遷移、數據遷移、版本升級、參數調優等

一致的安全與治理 - SDX

專為隨時隨地進行多功能分析而設計

安全性:動態細粒度的訪問控制始終應用於所有雲和數據中心。包括全棧加密和密鑰管理

治理:跨平台應用的企業級審計,血緣和治理功能,具有豐富的合作夥伴集成擴展性

元數據:利用所有元數據(結構、運營、業務和社交)建立信息資產,以提高可用性、信任度和價值

目錄:用於管理和使用跨越所有分析和部署的數據資產的單一窗格

智能:洞悉平台中如何使用數據、元數據和分析,從而為優化提供建議和自動化

SDX提供

通過在所有雲和數據中心中一致地應用動態細粒度訪問控制實現安全性。包括全棧加密和密鑰管理

通過跨平台應用的企業級審計、沿襲和治理功能進行治理,並具有豐富的合作夥伴集成擴展性

還有智能,可以洞悉平台中如何使用數據,元數據和分析,從而為優化提供建議和自動化

我們從最廣泛的意義上利用元數據:不僅是您稱為架構的結構類型,而且還包括運營、業務和社交方面的元數據,建立信息資產以提高可用性,信任度和價值

最後,SDX 提供的數據目錄是一個統一的窗格,用於管理和使用涵蓋所有分析和部署的數據資產

統一版本(CDP – Cloudera Data Platform)

CDP - 攝取 CDH 和 HDP 兩者的優勢

CDP PVC 基礎版功能地圖

CDP 針對 CDH/HDP 用戶的新功能

CDP大數據組件列表

CDP大數據組件列表 – 簡化管理的緊密結合的平台

公有雲客戶:1.2倍成本帶來三大收益

專有雲方案:CDP、CDF、CDSW


CLOUDERA-混合數據云

On-Premise(專有雲)整體方案,CDP/CDF/CDSW

ClouderaDATAFLOW – 從邊緣到雲的實時流數據管理

邊緣和流管理

利用 ApacheNiFi、ApacheMiNiFi 和 Cloudera Edge Flow Manager(從邊緣到 AI 的流管理)構建從邊緣到公共雲的可擴展數據流所需的一切。使您能夠從任何地方到任何地方收集、整理和攝取數據。

流式消息傳遞

由 Apache Kafka 提供支持的面向企業和雲的企業級消息傳遞解決方案。Streams Messaging Manager 用於監控/管理集群,Streams Replication Manager 用於 HA/DR 部署,Kafka Connect 用於集成,Cruise Control 用於管理和平衡 Kafka 集群。

流處理和分析

支持多個流處理引擎。ApacheFlink 和 SSB 通過高級窗口和狀態管理為您提供有狀態、低延遲的流處理功能。

Cloudera Data Science Workbench(CDSW)

CDSW-機器學習:覆蓋從邊緣到AI的場景

專有雲線下客戶,彌補 CDH 三大不足

更多組件和更高版本

CDP 新增組件包括 Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger和 Atlas 等等

更多的企業管理

企業級安全和管理

CDP 的 Apache Ranger 提供了新的安全功能(動態行過濾和列掩碼)。同時藉助 ApacheAtlas,CDP 改進了數據資產管理功能,幫助企業實現 PCI 和 GDPR 標準。

更多的企業管理平台集成。

版本持續更新更長時間

EoS時間比較

CDH 6.3:2022年3月。後續僅有維護版本

CDP 7.1:2023年5月。產品線持續更新

典型場景


為什麼選擇 CDP?

許可證 renew+硬件更新的機會

HDP 2.6.x/CDH 5.x覆蓋了約70%的客戶群

運行這些軟件的客戶將需要升級到受支持的版本

阿里雲CDP產品客戶價值

更快、更高效、更安全

重大功能增強/性能改進

數據工程:Spark3性能提升2倍;支持 Nvidia GPU 卡,性能再提升3-7倍

數據倉庫:Impala 性能提升2到7倍;新執行引擎 Hive on Tez,支持 ACID、物化視圖,性能提升5倍以上

運營數據庫:支持 SQL 和 No SQL 多種模式,吞吐量性能提高15-20%

流處理:完善的集群管理,複製,流量控制

安全合規和售後支持

基於 Ranger 提供統一的細粒度訪問控制,動態行過濾和列掩碼

基於 Atlas 提供完善的元數據、血緣和監管鏈,高級數據發現和業務詞彙表

持續修復已報的 CVE 安全漏洞

專家支持服務,快速解決使用問題,用戶專注業務

不升級的影響

舊平台功能/性能/安全受限,無法滿足部分應用需求和國家/行業合規性需求

沒有售後支持,應用無法放心的廣泛應用於生產,影響業務創新

CDP7.1 VS CDH6.3

更高版本

CDP 的 HDFS,Hive,HBase,Spark,Kafka 和 Solr 等組件版本較新

更多組件

CDP 新增組件包括 Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger 和 Atlas 等等

更長時間

EoS 時間比較

CDH 6.3:2022年3月。後續僅有維護版本

CDP 7.1:2023年5月。產品線持續更新

安全合規

CDP 的 Apache Ranger 提供了新的安全功能(動態行過濾和列掩碼)。同時藉助 ApacheAtlas,CDP 改進了數據資產管理功能,幫助企業實現 PCI 和 GDPR 標準

更高擴展

Apache Hadoop Ozone 是一個分布式 KV 存儲,旨在實現數十億個規模的文件擴展,遠遠超過當前 Namenode文件上限(300M) 。同時,Ozone 能與 HDFS 共享數據節點實現無縫遷移

更易管理

CM7.1支持在 cgroup 中直接啟用新配置。而在C6中必須重新啟動集群才能更新 cgroup 配置。另外,CDP 的 ZK 新版本修復了與 jackson-databind、Jetty、log4j 相關的17個安全漏洞

新 Hive3體驗

Hive on Tez 提供更好的 ETL 性能,同時支持 ACID,極大簡化事務處理,兼容ANSI SQL 2016標準。另外,Data Analytics Studio 能夠可視化展示 HiveSQL 對應的 DAG 分解圖

新 Spark 體驗

CDP 預裝 Spark 2.4.5,同時支持並行安裝 Spark3.0。可以體驗 Spark SQL 自適應執行和動態分區裁剪等功能

新的隊列管理

CDP 的 YARNQueue Manager 使用 Capacity Scheduler,支持GPU、Node Labels、Globalscheduling,同時採取更加靈活的 placement Policy

多種部署方式:支持公有雲/本地部署,混合雲/多雲部署

CDP公有雲應用場景

現代數據庫

運營數據庫

准實時分析

流式處理和分析

升級現有集群

選項A

步驟1:將現有集群升級到 CDP PVC Base,從而基於現有數據創建 SDX 環境
步驟2:安裝 CDP 私有雲並使用「體驗」構建新應用程序
步驟3:使用工作負載管理器將關鍵工作負載從 CDP 數據中心版群集智能遷移到 CDP 私有雲體驗

選項B

步驟1:在新硬件上安裝 CDP 數據中心,並使用 Replication Manager 從現有群集中複製數據、元數據和策略以創建 SDX 環境

步驟2:安裝 CDP 私有雲並使用「體驗」構建新應用程序

步驟3:使用工作負載管理器將關鍵工作負載從 CDH/HDP 集群智能遷移到 CDP 私有雲體驗

參考資料

[1]阿里雲 CDP官網

https://ac.aliyun.com/application/cloudera

[2]阿里雲CDP 產品文檔

https://www.yuque.com/aliyunbigdata/xdgumz

[3]ClouderaCDP 官網文檔

https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/index.html

我們會在釘群推送精彩文章,邀請技術大牛直播分享。

歡迎釘釘掃碼加入交流群一起參與討論~

阿里雲CDP 免費試用進行中!
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()