全部產品
Search
文件中心

E-MapReduce:建立叢集

更新時間:Feb 15, 2025

通過阿里雲E-MapReduce(簡稱EMR),您可以輕鬆構建和運行Hadoop、Spark、Hive、Presto等開源巨量資料架構,以進行大規模資料處理和分析等操作。本文為您介紹在EMR on ECS上建立叢集的操作步驟和相關配置,協助您快速搭建和管理巨量資料叢集。

說明

如果您在2022年12月19日17點(UTC+8)以後第一次建立EMR叢集,則不能選擇Hadoop、Data Science、Presto、Zookeeper叢集類型。

前提條件

已完成RAM授權,詳情請參見阿里雲帳號角色授權

注意事項

EMR-5.12.1及後續版本,EMR-3.46.1及後續版本的DataLake、DataFlow、DataServing和Custom叢集,如果所選服務可以不依賴Core節點,則可以在節點群組地區單擊操作列的移除節點群組

操作步驟

  1. 登入E-MapReduce控制台

  2. 在頂部功能表列處,根據實際情況選擇地區和資源群組。

    • 地區:建立的叢集將會在對應的地區內,一旦建立不能修改。

    • 資源群組:預設顯示帳號全部資源。

  3. 單擊上方的建立叢集

  4. 根據介面提示,配置叢集資訊。

    建立叢集時,您需要對叢集進行軟體配置、硬體設定、基礎配置和確認訂單。

    說明

    叢集建立完成後,除了叢集名稱以外,其他配置均無法修改,所以在建立時請仔細確認各項配置。

  5. 當所有的資訊確認正確後,單擊確認訂單

    重要
    • 隨用隨付叢集:立刻開始建立。 叢集建立完成後,叢集的狀態變為運行中

    • 訂用帳戶叢集:先產生訂單,支付完成訂單以後叢集才會開始建立。

配置項說明

軟體配置

配置項

描述

地區

地區指資料中心所在的地理地區,選擇距離近的地區可以降低網路時延,執行個體建立完成後不支援更改地區。

在地區下拉式清單中選擇EMR執行個體所在的物理位置。

業務情境

請您根據自身實際情境進行選擇:

  • 資料湖(DataLake):提供更靈活、可靠、高效的管理叢集,更快的運行巨量資料計算引擎並提供出色的資料分析能力。

    • 支援構建資料湖架構,使用JindoFS進行資料湖加速。

    • 支援OSS-HDFS(全託管HDFS)作為儲存,減少您的營運成本,完全基於使用量計費。

    更多資訊,請參見資料湖叢集

  • 資料分析(OLAP):將海量資料通過匯入或者外表等形式引入到OLAP分析引擎裡,例如,ClickHouse、StarRocks,提供高效、即時和靈活的資料分析能力,滿足使用者畫像、人群圈選、BI報表和業務分析等一系列的業務情境。

  • 即時資料流(DataFlow):是EMR平台上提供的Realtime Compute一站式解決方案,擁有分布式、高輸送量和高可擴充性的訊息系統Kafka和基於Apache Flink官方產品Ververica提供的Flink商業核心兩大組件,專註於解決Realtime Compute端到端的各類問題,廣泛應用於即時資料ETL和日誌採集分析等情境,您也可以單獨使用其中任一組件。

  • 資料服務(DataServing):

    • 提供更靈活、可靠、高效的資料服務叢集。

    • 提供半託管HBase叢集,同時可以基於OSS-HDFS(JindoFS服務)解耦計算叢集與資料存放區。

    • 支援JindoData本機快取以進一步提高資料服務叢集的讀寫效能。

    更多資訊,請參見資料服務叢集

  • 自訂叢集(Custom):自訂叢集提供了豐富的服務搭配。您可以根據需求選擇需要的服務。

    說明

    在生產環境中,建議避免將多個儲存服務部署在同一個節點群組上。

產品版本

EMR產品的發行版本,詳細請參見發行版本

服務高可用

預設關閉。開啟高可用後,EMR會建立多個Master節點來支援ResourceManager和NameNode的高可用,並將他們分布在多個底層硬體上,以降低故障風險。

可選服務

根據您的實際需求選擇其他的一些服務,被選中的服務會預設啟動相關的服務進程。

重要
  • 服務越多,對機器的配置要求也越高,所以在下面的步驟中您需要根據實際的服務數量進行機器選型,否則可能沒有足夠的資源運行這些服務。

  • 安裝後的服務不支援卸載。

  • 版本不同,選擇的服務不同,需要設定的參數也不同。

允許採集服務作業記錄

支援一鍵開啟或關閉所有服務的日誌採集。預設開啟,將收集您的服務作業記錄,這些日誌僅供叢集診斷使用。

叢集建立後,您可以在基礎資訊頁面,修改服務作業記錄收集狀態

重要

關閉日誌採集後,EMR的健全狀態檢查和支援人員將受到限制,但其他功能仍可正常使用。如何關閉及影響詳情,請參見如何停止採集服務日誌?

中繼資料

支援以下方式儲存和管理中繼資料:

  • DLF統一中繼資料(推薦):表示中繼資料存放區在資料湖構建DLF中。

    開通DLF後,系統會為您選擇預設的DLF資料目錄,預設為UID。如果針對不同叢集您期望使用不同的資料目錄,則可以按照以下方式建立目錄。

    1. 單擊建立資料目錄,在彈出的對話方塊中輸入目錄ID,單擊確定

    2. DLF資料目錄下拉式清單中,選擇您建立的資料目錄。

  • 自建RDS:選擇您自有的或阿里雲RDS執行個體作為中繼資料存放區。

    選擇該方式時,需要配置RDS相關的參數,詳情請參見配置自建RDS

  • 內建MySQL(不推薦):該方式的中繼資料存放區在叢集本地環境的MySQL資料庫中。

    說明
    • 測試情境:推薦使用DLF統一中繼資料

    • 生產情境:可以使用DLF統一中繼資料自建RDS

叢集儲存根路徑

當您在可選服務地區選取項目了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。

重要

在EMR控制台通過單擊建立OSS-HDFS執行個體按鈕建立的Bucket,僅支援通過EMR進行讀寫操作,不支援控制台及API操作。

首次使用OSS-HDFS服務時,阿里雲帳號(主帳號)需要單擊此處,根據提示資訊完成授權。RAM使用者需要阿里雲帳號授權開通並授予AliyunEMRDlsFullAccess許可權,以及AliyunOSSDlsDefaultRole和AliyunEMRDlsDefaultRole角色,詳情請參見為RAM使用者授權。選擇一個已在同一地區下開通了OSS-HDFS服務的Bucket,或者單擊建立OSS-HDFS執行個體,根據提示資訊建立一個OSS-HDFS執行個體,作為叢集的儲存根路徑。

說明
  • 在選擇使用OSS-HDFS服務之前,請確保您選擇的地區支援該服務。否則,您可以嘗試更換地區或使用HDFS服務替代OSS-HDFS服務。OSS-HDFS服務目前支援的地區資訊,請參見開通並授權訪問OSS-HDFS服務

  • EMR-5.12.1及後續版本,EMR-3.46.1及後續版本的DataLake、DataFlow、DataServing和Custom叢集,支援選擇OSS-HDFS服務。

與服務及版本相關的配置項

以下配置項跟所選產品版本和服務有關。

  • 僅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,且選擇了Hive服務時,需配置以下參數。

    參數

    說明

    Hive儲存模式

    使用資料湖儲存OSS-HDFS或OSS作為資料倉儲的儲存目錄。如果取消勾選,則使用叢集HDFS作為儲存目錄。

    預設勾選時,還需配置Hive資料倉儲路徑,建議選擇開通了HDFS服務的Bucket。

    說明

    請確保具有訪問OSS或OSS-HDFS Bucket的許可權。

  • 僅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,選擇了HBase服務時,需配置以下參數。

    參數

    說明

    HBase儲存模式

    用於儲存HBase的資料檔案,支援以下模式:OSS-HDFSOSS

    選擇OSS-HDFS模式時,還需配置HBase儲存路徑,建議選擇開通了HDFS服務的Bucket。

  • 僅EMR-5.12.1及後續版本,EMR-3.46.1及後續版本,選擇了OSS-HDFS和HBase服務後,還需配置以下參數。叢集建立完成後,會產生一個HBase-HDFS服務,詳情請參見HBASE-HDFS

    參數

    說明

    HBase日誌儲存

    預設勾選,表示HBase將HLog檔案儲存體在HDFS中。

更多情境

重要

如果您在2022年12月19日17點(UTC+8)以後第一次建立EMR叢集,則不能選擇以下叢集類型。

  • 機器學習(Data Science):主要面向巨量資料+AI情境。

    • 提供分布式深度學習架構。

    • 提供兩百多種經典機器學習演算法包。

    • 提供AutoML能力,10餘種深度學習演算法,覆蓋推薦和廣告等情境。

  • 舊版資料湖:用於構建大規模資料處理架構和管道,適用於巨量資料分析,支援Apache Hive、Spark和Presto等開源架構。支援的叢集類型如下:

    • Hadoop

      • 提供最豐富的開源組件列表,完全相容Hadoop生態。

      • 可應用於巨量資料離線處理、即時處理和互動式查詢等多種使用情境。

      • 支援構建資料湖架構,使用JindoFS進行資料湖加速。

    • Zookeeper:提供獨立的分布式一致性鎖服務,適用於大規模的Hadoop叢集、HBase叢集和Kafka叢集。

    • Presto:是基於記憶體的分布式SQL互動式查詢引擎。支援多種資料來源,適合PB級海量資料的複雜分析,以及跨資料來源的查詢。

(可選)進階設定

配置項

說明

Kerberos身份認證

預設不開啟。Kerberos是一種基於對稱金鑰技術的身份認證協議,可以為其他服務提供身份認證功能,詳情請參見Kerberos概述

重要
  • Knox:不支援開啟Kerberos身份認證。

  • Kudu:即使啟用了Kerberos身份認證,Kudu服務仍需要額外的配置才能支援和啟用Kerberos身份認證機制,詳情請參見Apache Kudu的Authentication

軟體自訂配置

可指定JSON檔案對叢集中的基礎軟體(例如Hadoop、Spark和Hive等)進行配置,詳細使用方法請參見配置自訂軟體。預設不開啟。

說明

針對Hive作業並發量的設定,請參見如何預估Hive作業並發量的上限值?

硬體設定

配置項

說明

付費類型

預設為訂用帳戶。當前支援的付費類型如下:

  • 隨用隨付:一種後付費模式,即先使用再付費。隨用隨付是根據實際使用的小時數來支付費用,每小時計費一次,適合短期的測試工作或是靈活的動態任務。

  • 訂用帳戶:一種預付費模式,即先付費再使用。

    說明
    • 建議測試情境下使用隨用隨付,測試正常後再建立一個訂用帳戶的生產叢集正式使用。

    • 訂用帳戶執行個體還需選擇付費時間長度和是否開啟自動續約。預設續約時間長度為6個月,且開啟自動續約。開啟自動續約後,執行個體到期前7天會執行自動續約操作,詳情請參見續約說明

可用性區域

可用性區域為在同一地區下的不同物理地區,可用性區域之間內網互連。通常使用預設的可用性區域即可。

專用網路

專用網路是您在阿里雲自己定義的一個隔離網路環境,您可以完全掌控自己的專用網路。

選擇已有的專用網路,或者單擊建立VPC前往專用網路控制台即時建立專用網路,詳情請參見建立和管理專用網路

說明

建立叢集後無法修改內網IP地址,因為叢集的內網IP與VPC(Virtual Private Cloud)之間存在綁定關係。

交換器

交換器(vSwitch)是組成Virtual Private Cloud的基礎網路模組,用來串連不同的雲資源。

選擇已有的交換器,或者單擊建立交換器前往專用網路控制台即時建立交換器,詳情請參見建立和管理交換器

預設安全性群組

安全性群組是一種虛擬防火牆,用於控制安全性群組內執行個體的入流量和出流量。更多資訊,請參見安全性群組

選擇已有的安全性群組,或者單擊建立安全性群組前往ECS控制台建立一個安全性群組,詳情請參見建立安全性群組

重要

禁止使用ECS上建立的企業安全性群組。

節點群組

您可以根據需要選擇執行個體規格,詳情請參見執行個體規格類型系列

  • Master:主要負責ResourceManager和NameNode等控制進程的部署。

  • Core:主要負責叢集所有資料的儲存,建立叢集完成後也支援按需進行擴容。

  • Task:不儲存資料,調整叢集的計算力使用。預設不開啟,需要時可自訂配置。

    重要

    Task節點群組支援的付費類型有隨用隨付、搶佔式執行個體和訂用帳戶。

  • 加入部署集:開啟高可用後,Master預設加入部署集。部署集是控制執行個體分布的策略,詳情請參見部署集

  • 系統硬碟:根據需要選擇SSD雲端硬碟、ESSD雲端硬碟或者高效雲端硬碟。系統硬碟大小請根據需要調整。

  • 資料盤:根據需要選擇SSD雲端硬碟、ESSD雲端硬碟或者高效雲端硬碟。資料盤大小請根據需要調整。

    說明

    當您選擇ESSD雲端硬碟時,可以根據所選雲端硬碟的容量大小來設定不同的效能層級(PL層級),以滿足不同的叢集效能需求。預設的效能層級為PL1。根據云盤的容量範圍,系統硬碟支援PL0、PL1和PL2三個效能層級的雲端硬碟規格,資料盤支援PL0、PL1、PL2和PL3四個效能層級的雲端硬碟規格。雲端硬碟的詳細資料,請參見雲端硬碟概述

  • 執行個體數量:Master節點群組預設1台。如果開啟高可用,可以有多台Master執行個體。

    Core節點群組預設2台,您可以根據需要調整。

  • 附加安全性群組:附加安全性群組可以靈活定製不同的外部資源或應用程式之間的訪問。您最多可以為該節點群組關聯2個附加安全性群組。

  • 掛載公網:叢集是否掛載Elastic IP Address地址,預設不開啟。僅DataLake叢集支援節點群組層級掛載公網。

    說明

    如果您未開啟該功能,建立後您想使用公網IP地址訪問,請在ECS上申請開通公網IP地址,詳情請參見Elastic IP Address中的申請EIP的內容。

叢集伸縮

您可根據需要選擇Auto Scaling規則:

  • 不使用Auto Scaling規則(預設)。

  • 自訂Auto Scaling規則:需要自訂Auto Scaling規則,可按時間或按負載實現自動Auto Scaling。詳情請參見建立自訂Auto Scaling規則

  • 託管Auto Scaling規則:當您啟動叢集時,EMR會按託管伸縮規則預調配Task節點數量。詳情請參見建立託管Auto Scaling規則

說明
  • 僅當Task節點群組的付費類型為隨用隨付或搶佔式執行個體時,允許配置Auto Scaling規則。

  • 叢集中如果存在Trino、Presto、Starrocks、Impala或Clickhouse組件,不支援切換到託管Auto Scaling規則。

基礎配置

配置項

說明

叢集名稱

叢集的名字,長度限制為1~64個字元,僅可使用中文、字母、數字、短劃線(-)和底線(_)。

身份憑證

身份憑證用於安全地登入叢集的Master節點,登入操作請參見登入叢集。支援以下身份:

  • 金鑰組(預設):選擇已有的金鑰組,或者單擊建立金鑰組即時建立金鑰組。

    金鑰組是一種安全便捷的登入認證方式,由公開金鑰和私密金鑰組成,僅支援Linux執行個體。關於金鑰組的使用詳情,請參見SSH金鑰組

  • 密碼:設定Master節點的登入密碼,並輸入確認密碼。使用者名稱預設為root。

    • 密碼規則:8~30個字元,且必須同時包含大寫字母、小寫字母、數字和特殊字元。

    • 特殊字元包括:驚嘆號(!)、at(@)、井號(#)、貨幣符號($)、百分比符號(%)、乘方(^)、and(&)和星號(*)。

(可選)進階設定

配置項

說明

ECS應用角色

當使用者的程式在EMR計算節點上運行時,可不填寫阿里雲AccessKey來訪問相關的雲端服務(例如OSS),EMR會自動申請一個臨時AccessKey來授權本次訪問。ECS應用角色用於控制該AccessKey的許可權。

引導操作

在叢集啟動前執行的指令碼,可以安裝第三方軟體或者修改叢集運行環境,詳情請參見引導操作執行指令碼

釋放保護

您可以在建立隨用隨付叢集時開啟釋放保護,也可以在叢集建立後開啟,以防止叢集被意外釋放。開啟釋放保護後,您將無法直接釋放該叢集。如需釋放叢集,需先關閉釋放保護,詳情請參見開啟和關閉釋放保護

標籤

您可以在建立叢集時綁定標籤,也可以在叢集建立完成後添加標籤,這可以方便您識別和管理擁有的叢集資源,詳情請參見設定標籤

資源群組

資源群組會對您擁有的雲資源從用途、許可權和歸屬等維度上進行分組,詳情請參見使用資源群組

資料盤加密

僅支援在建立叢集時開啟該功能。開啟該功能,資料盤上的動態資料傳輸以及待用資料都會被加密,詳情請參見開啟資料盤加密

系統硬碟加密

僅支援在建立叢集時開啟該功能。開啟該功能,系統硬碟上的作業系統、程式檔案及其他系統相關資料將會被加密,詳情請參見開啟系統硬碟加密

備忘

用於記錄集群的重要訊息,建立叢集後支援在基礎資訊頁面對備忘進行修改。 如果在建立叢集時未設定備忘,使用者可以在建立後對該參數進行編輯。

確認訂單

(可選)儲存為叢集模板:如果身份認證選擇的金鑰組,則可以單擊儲存為叢集模板,儲存當前叢集的配置資訊為叢集模板。

  1. 保存为集群模板對話方塊中,輸入集群模板名称,選擇叢集模板資源群組

    參數

    說明

    集群模板名称

    輸入集群模板的名稱,方便後期管理。長度限制為1-64個字元,只允許包含中文、字母、數字、-、_。

    叢集模板資源群組

    根據需要選擇已有的資源群組,方便對模板進行分組管理。

    如果需要建立新的資源群組,您可以單擊下方的建立資源群組,詳情請參見建立資源群組

  2. 單擊確定

    即會在管理集群模板面板中新增一個叢集模板。叢集模板的詳細資料,請參見建立叢集模板

常見問題

建立叢集時報錯的錯誤碼為“EntityNotExist.Role”,要怎麼處理?

  • 問題原因:當前帳號不具備建立叢集所需要的許可權。

  • 解決方案:

    根據當前帳號是阿里雲帳號還是RAM使用者選擇對應的解決方案。

    • 阿里雲帳號:在建立叢集時,當前帳號需要具備訪問其他阿里雲資源及執行相關操作的許可權。您可以單擊雲資源訪問授權為當前帳號授權,授權成功後可建立叢集。關於角色授權,可參見阿里雲帳號角色授權

    • RAM使用者:當前帳號不具備建立EMR叢集的許可權,推薦通過阿里雲帳號為RAM使用者授予權限原則AliyunEMRFullAccess,具體請參見為RAM使用者授權

相關文檔