阿里雲E-MapReduce(簡稱EMR) on ACK提供了全新構建巨量資料平台的方式。您可以將開源巨量資料服務部署在阿里雲Container ServiceKubernetes版(ACK)之上,利用ACK在服務部署和容器應用管理的優勢,減少對底層叢集資源的營運投入,以便於您可以更加專註巨量資料任務本身。
形態對比
阿里雲EMR提供on ECS和on ACK兩種方式,以滿足不同使用者的需求。
對於正在使用EMR on ECS的使用者,可以將Spark和Presto任務運行在ACK叢集上,與其他應用共用一個ACK叢集,可以實現計算資源跨可用性區域共用。
對於已經將巨量資料任務(例如,Spark和Presto等)執行在ACK叢集上的使用者,EMR on ACK提供了自動部署和管理叢集的能力。EMR on ACK與EMR Shuffle Service相結合,可以顯著提升Spark任務的效能。
形態 | 描述 |
EMR on ECS | EMR負責將開源Hadoop生態的組件安裝部署在ECS上,並啟動相應的服務。您可以在EMR控制台完成對叢集ECS及服務的營運操作。 您需要將其巨量資料任務提交至EMR叢集。 |
EMR on ACK | 您需要先完成ACK叢集的安裝部署。當ACK叢集準備就緒後,EMR將基於ACK的資源安裝部署巨量資料服務組件,並在容器內運行。 |
EMR on ACK優勢
優勢 | 描述 |
節省成本 | 您無需為巨量資料服務單獨購買ACK叢集,通過簡單的配置即可在已有的ACK叢集上執行巨量資料作業,成本低廉。 複用現有ACK叢集的空閑資源,一鍵執行EMR Spark和Presto等任務,輕鬆上手。巨量資料和線上應用程式可以共用叢集資源。 離線上混部(線上任務和離線任務)情境下,資源可以充分利用。巨量資料和線上應用程式共用叢集資源,達到削峰填穀的效果。 |
簡化營運 | 一套營運體系,一套叢集管理,全面覆蓋巨量資料和線上等多種業務,簡化營運。 |
最佳化體驗 | 一套EMR平台,同時支援ECS和ACK兩套IaaS資源模型,您可以無縫切換。 利用ACK和Elastic Container Instance的資源快速交付能力,彈性計算資源的擷取時間更短,充分應對計算高峰期。 支援針對作業層級調整Spark版本,便於快速嘗試新特性,以滿足不同業務對版本的需求。 |
深度整合 | 完全採用雲原生資料湖架構,計算使用阿里雲ACK,計算資源可以無限擴充;儲存使用阿里雲OSS,儲存計算分離;中繼資料使用資料湖構建DLF,助力資料湖構建。 |