全部產品
Search
文件中心

E-MapReduce:什麼是EMR on ACK

更新時間:Jan 29, 2024

阿里雲E-MapReduce(簡稱EMR) on ACK提供了全新構建巨量資料平台的方式。您可以將開源巨量資料服務部署在阿里雲Container ServiceKubernetes版(ACK)之上,利用ACK在服務部署和容器應用管理的優勢,減少對底層叢集資源的營運投入,以便於您可以更加專註巨量資料任務本身。

形態對比

阿里雲EMR提供on ECS和on ACK兩種方式,以滿足不同使用者的需求。

  • 對於正在使用EMR on ECS的使用者,可以將Spark和Presto任務運行在ACK叢集上,與其他應用共用一個ACK叢集,可以實現計算資源跨可用性區域共用。

  • 對於已經將巨量資料任務(例如,Spark和Presto等)執行在ACK叢集上的使用者,EMR on ACK提供了自動部署和管理叢集的能力。EMR on ACK與EMR Shuffle Service相結合,可以顯著提升Spark任務的效能。

形態

描述

EMR on ECS

EMR負責將開源Hadoop生態的組件安裝部署在ECS上,並啟動相應的服務。您可以在EMR控制台完成對叢集ECS及服務的營運操作。

您需要將其巨量資料任務提交至EMR叢集。

EMR on ACK

您需要先完成ACK叢集的安裝部署。當ACK叢集準備就緒後,EMR將基於ACK的資源安裝部署巨量資料服務組件,並在容器內運行。

EMR on ACK優勢

優勢

描述

節省成本

您無需為巨量資料服務單獨購買ACK叢集,通過簡單的配置即可在已有的ACK叢集上執行巨量資料作業,成本低廉。

複用現有ACK叢集的空閑資源,一鍵執行EMR Spark和Presto等任務,輕鬆上手。巨量資料和線上應用程式可以共用叢集資源。

離線上混部(線上任務和離線任務)情境下,資源可以充分利用。巨量資料和線上應用程式共用叢集資源,達到削峰填穀的效果。

簡化營運

一套營運體系,一套叢集管理,全面覆蓋巨量資料和線上等多種業務,簡化營運。

最佳化體驗

一套EMR平台,同時支援ECS和ACK兩套IaaS資源模型,您可以無縫切換。

利用ACK和Elastic Container Instance的資源快速交付能力,彈性計算資源的擷取時間更短,充分應對計算高峰期。

支援針對作業層級調整Spark版本,便於快速嘗試新特性,以滿足不同業務對版本的需求。

深度整合

完全採用雲原生資料湖架構,計算使用阿里雲ACK,計算資源可以無限擴充;儲存使用阿里雲OSS,儲存計算分離;中繼資料使用資料湖構建DLF,助力資料湖構建。