全部產品
Search
文件中心

E-MapReduce:產品簡介

更新時間:Aug 08, 2024

開源巨量資料開發平台E-MapReduce(簡稱EMR)是運行在阿里雲平台上的一種巨量資料處理系統解決方案。EMR基於開源的Apache Hadoop和Apache Spark,讓您可以方便地使用Hadoop和Spark生態系統中的其他周邊系統分析和處理資料。EMR還可以與阿里雲其他的雲資料存放區系統和資料庫系統(例如,阿里雲OSS和RDS等)進行資料轉送。

產品介紹

阿里雲EMR提供了on ECS、on ACK和Serverless形態,以滿足不同使用者的需求。

形態

描述

EMR on ECS

EMR負責將開源Hadoop生態的組件安裝部署在ECS上,並啟動相應的服務。您可以在EMR控制台完成對叢集ECS及服務的營運操作。

關於EMR on ECS的更多介紹,請參見什麼是EMR on ECS

EMR on ACK

您需要先完成ACK叢集的安裝部署。當ACK叢集準備就緒後,EMR將基於ACK的資源安裝部署巨量資料服務組件,並在容器內運行。關於EMR on ACK的更多介紹,請參見什麼是EMR on ACK

EMR Serverless Spark

EMR Serverless Spark是一款雲原生,專為大規模資料處理和分析而設計的全託管Serverless產品。它為企業提供了一站式的資料平台服務,包括任務開發、調試、調度和營運等,極大地簡化了資料處理的全生命週期工作流程。使用EMR Serverless Spark,企業可以更專註於資料分析和價值提煉,提高工作效率。

關於EMR Serverless Spark的更多介紹,請參見什麼是EMR Serverless Spark

產品優勢

EMR on ECS

EMR為您提供了相對方便可控的企業級開源巨量資料服務。您可以快速搭建開源巨量資料服務,例如Hadoop、Spark、Flink、Kafka和HBase服務。

  • 100%採用社區開源組件,適配並最佳化開源組件,效能遠高於開源版本。

  • 基於時間的Auto Scaling能力,搶佔式執行個體可進一步降低成本。

  • 解耦了計算與儲存之間的綁定關係,實現了資源的彈性利用。

  • 分鐘層級建立和擴容叢集,無需手動部署和啟動服務。

EMR on ACK

  • 節省成本:無需單獨購買ACK叢集。

  • 簡化營運:一套營運體系,一套叢集管理,全面覆蓋巨量資料和線上等多種業務。

  • 最佳化體驗:支援ECS和ACK兩套IaaS資源模型,您可以無縫切換。

  • 深度整合:完全採用雲原生資料湖架構,計算使用阿里雲ACK,計算資源可以無限擴充。

EMR Serverless Spark

  • 雲原生極速計算引擎

    • 內建Fusion Engine (Spark Native Engine),相對開源版本效能提升200%。

    • 內建Celeborn(Remote Shuffle Service),支援PB級Shuffle資料,計算資源總成本最高下降30%。

  • 開放化的資料湖架構

    • 支援計算儲存分離,計算可Auto Scaling,儲存可隨用隨付。

    • 對接OSS-HDFS,完全相容HDFS的雲上儲存,無縫平滑遷移上雲。

    • 中心化的DLF中繼資料,全面打通湖倉中繼資料。

  • 一站式的開發體驗

    • 提供作業開發、調試、發布、調度等一站式資料開發體驗。

    • 內建版本管理、開發與生產隔離,滿足企業級開發與發布標準。

  • Serverless的資源平台

    • 開箱即用,無需手動管理和營運雲基礎設施。

    • Auto Scaling,秒級資源彈性與供給。

    • 隨用隨付,按實際計算資源量付費,進一步降低計算總成本。