雲原生資料湖分析DLA(Data Lake Analytics)是新一代巨量資料解決方案,採取計算與儲存完全分離的架構,支援資料庫與訊息即時歸檔建倉。DLA提供彈性的Spark與Presto,滿足線上互動式查詢、流處理、批處理、機器學習等訴求,也是傳統Hadoop方案上雲的有競爭力的解決方案,其中彈性是DLA最為核心的競爭力。
彈效能力
Spark CU版彈性:按照Job實際使用彈出資源,只對實際啟動並執行資源進行計費,比傳統方案節約50%+的成本。
Presto CU版彈性:分時彈性(設定時間段來使用CU資源)。
Presto掃描量版本:按照掃描量計費,只對實際啟動並執行SQL進行計費。
優勢總結
對比類目 | 自建Hadoop系統 | 阿里雲 DLA + OSS方案 |
產品體系 | 複雜、組件較多 | 一體化、端到端(入湖=>管理=>ETL =>分析查詢),產品體驗好;組件精耕細作Presto、Spark; |
彈性 | 無 | 雲原生、彈性強、一分鐘可彈300節點參與計算 |
性價比 | 開源方案 | 內建大量最佳化+彈性,比開源自建叢集至少降低50%+的成本 |
DB&訊息(如Kafka)歸檔到Hudi(儲存在OSS) | 無或者自己寫Code | 鏈路大量最佳化、Hudi大量最佳化,產品化支援(實現中) |
學習與營運成本 | 高(需要較長時間搭建、配置、營運、學習) | 低(即開即用、零營運成本) |
安全、多租戶 | 基於 Kerberos&Ranger,較為複雜 | 支援資料庫模式庫、表授權模式,多租戶 |
功能 | 開源功能,缺乏雲連接器的支援,雲內部系統對接與最佳化 | 針對阿里雲OSS & OTS &ADB 等資料來源深度最佳化,Presto與Spark核心大量最佳化 |