什麼是E-MapReduce - E-MapReduce

開源巨量資料開發平台E-MapReduce（簡稱EMR）是運行在阿里雲平台上的一種巨量資料處理系統解決方案。EMR基於開源的Apache Hadoop和Apache Spark，讓您可以方便地使用Hadoop和Spark生態系統中的其他周邊系統分析和處理資料。EMR還可以與阿里雲其他的雲資料存放區系統和資料庫系統（例如，阿里雲OSS和RDS等）進行資料轉送。

產品介紹

阿里雲EMR提供了on ECS、on ACK和Serverless形態，以滿足不同使用者的需求。

形態	描述
EMR on ECS	EMR負責將開源Hadoop生態的組件安裝部署在ECS上，並啟動相應的服務。您可以在EMR控制台完成對叢集ECS及服務的營運操作。關於EMR on ECS的更多介紹，請參見什麼是EMR on ECS。
EMR on ACK	您需要先完成ACK叢集的安裝部署。當ACK叢集準備就緒後，EMR將基於ACK的資源安裝部署巨量資料服務組件，並在容器內運行。關於EMR on ACK的更多介紹，請參見什麼是EMR on ACK。
EMR Serverless Spark	EMR Serverless Spark是一款雲原生，專為大規模資料處理和分析而設計的全託管Serverless產品。它為企業提供了一站式的資料平台服務，包括任務開發、調試、調度和營運等，極大地簡化了資料處理的全生命週期工作流程。使用EMR Serverless Spark，企業可以更專註於資料分析和價值提煉，提高工作效率。關於EMR Serverless Spark的更多介紹，請參見什麼是EMR Serverless Spark。

產品優勢

EMR on ECS

EMR為您提供了相對方便可控的企業級開源巨量資料服務。您可以快速搭建開源巨量資料服務，例如Hadoop、Spark、Flink、Kafka和HBase服務。

100%採用社區開源組件，適配並最佳化開源組件，效能遠高於開源版本。
基於時間的Auto Scaling能力，搶佔式執行個體可進一步降低成本。
解耦了計算與儲存之間的綁定關係，實現了資源的彈性利用。
分鐘層級建立和擴容叢集，無需手動部署和啟動服務。

EMR on ACK

節省成本：無需單獨購買ACK叢集。
簡化營運：一套營運體系，一套叢集管理，全面覆蓋巨量資料和線上等多種業務。
最佳化體驗：支援ECS和ACK兩套IaaS資源模型，您可以無縫切換。
深度整合：完全採用雲原生資料湖架構，計算使用阿里雲ACK，計算資源可以無限擴充。

EMR Serverless Spark

雲原生極速計算引擎
- 內建Fusion Engine (Spark Native Engine)，相對開源版本效能提升200%。
- 內建Celeborn（Remote Shuffle Service），支援PB級Shuffle資料，計算資源總成本最高下降30%。
開放化的資料湖架構
- 支援計算儲存分離，計算可Auto Scaling，儲存可隨用隨付。
- 對接OSS-HDFS，完全相容HDFS的雲上儲存，無縫平滑遷移上雲。
- 中心化的DLF中繼資料，全面打通湖倉中繼資料。
一站式的開發體驗
- 提供作業開發、調試、發布、調度等一站式資料開發體驗。
- 內建版本管理、開發與生產隔離，滿足企業級開發與發布標準。
Serverless的資源平台
- 開箱即用，無需手動管理和營運雲基礎設施。
- Auto Scaling，秒級資源彈性與供給。
- 隨用隨付，按實際計算資源量付費，進一步降低計算總成本。