DataWorks支援基於E-MapReduce建立Hive、Spark SQL、Presto和MR等節點,實現任務工作流程的配置和定時調度、中繼資料管理及資料品質監控警示等功能,為使用者提供一站式資料湖開發和治理的環境。本文為您介紹如何在DataWorks上快速使用EMR叢集。
操作流程
在EMR控制台,快速建立一個DataLake叢集。
在DataWorks控制台,快速建立一個工作空間。
在DataWorks控制台,快速綁定E-MapReduce。
EMR環境配置完成後,您可以在DataWorks控制台上進行EMR中繼資料管理、任務營運監控及資料品質監控,保證EMR資料能夠正常產出。
步驟一:建立叢集
進入建立叢集頁面。
在頂部功能表列處,根據實際情況選擇地區和資源群組。
地區:建立的叢集會在對應的地區內,一旦建立不能修改。
資源群組:預設顯示帳號全部資源。
單擊上方的建立叢集。
在建立叢集頁面,完成叢集相關配置。
配置地區
配置項
樣本
描述
軟體配置
地區
華東1(杭州)
叢集節點ECS執行個體所在的物理位置。
重要叢集建立後,無法更改地區,請謹慎選擇。
業務情境
資料湖
選擇適合的業務情境,建立叢集時阿里雲EMR會自動為您配置預設的組件、服務和資源,以簡化叢集配置,並提供符合特定業務情境需求的叢集環境。
產品版本
EMR-5.14.0
當前最新的軟體版本。
服務高可用
不開啟
預設不開啟。開啟服務高可用開關後,EMR會把Master節點分布在不同的底層硬體上以降低故障風險。
可選服務
HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。
根據您的實際需求選擇組件,被選中的組件會預設啟動相關的服務進程。
說明除過叢集預設的服務,還需選擇Knox和OpenLDAP服務。
允許採集服務運行日誌
開啟
支援一鍵開啟或關閉所有服務的日誌採集。預設開啟,將收集您的服務作業記錄,這些日誌僅供叢集診斷使用。
叢集建立後,您可以在基礎資訊頁面,修改服務作業記錄收集狀態。
重要關閉日誌採集後,EMR的健全狀態檢查和支援人員將受到限制,但其他功能仍可正常使用。
元資料
DLF統一中繼資料
表示中繼資料存放區在資料湖構建DLF中。
系統會為您選擇預設的DLF資料目錄,如果您不同叢集期望使用不同的資料目錄,可以單擊建立資料目錄。
說明選擇該方式時,需要開通阿里雲資料湖構建服務。
集羣存儲根路徑
1366993922******
當您在可選服務地區選取項目了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。
說明在選擇使用OSS-HDFS服務之前,請確保您選擇的地區支援該服務。否則,您可以嘗試更換地區或使用HDFS服務替代OSS-HDFS服務。
EMR-5.12.1及後續版本,EMR-3.46.1及後續版本的DataLake、DataFlow、DataServing和Custom叢集,支援選擇OSS-HDFS服務。
硬體設定
付費類型
隨用隨付
在測試情境下,建議使用隨用隨付,測試正常後可以釋放該叢集,再建立一個訂用帳戶的生產叢集正式使用。
可用性區域
可用性區域 I
叢集建立後,無法直接更改可用性區域,請謹慎選擇。
專用網路
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
選擇對應地區下的專用網路。如果沒有,單擊建立VPC前往建立。建立專用網路完成後,單擊重新整理,可以選擇剛建立好的VPC。
交換器
vsw_i/vsw-bp1e2f5fhaplp0g6p****
選擇在對應專用網路下可用性區域的交換器,如果在這個可用性區域沒有可用的交換器,則需要新建立一個。
預設安全性群組
sg_seurity/sg-bp1ddw7sm2risw****
重要禁止使用ECS上建立的企業安全性群組。
如果已有在使用的安全性群組,則可以直接選擇使用。您也可以建立一個安全性群組。
節點群組
開啟Master節點群組下的掛載公網開關,其餘使用預設值即可。
您可以根據業務訴求,配置Master節點群組、Core節點群組或Task節點群組資訊。
基礎配置
叢集名稱
Emr-DataLake
叢集的名字,長度限制為1~64個字元,僅可使用中文、字母、數字、短劃線(-)和底線(_)。
身份憑證
密碼。
用於遠程登入叢集的Master節點。
登入密碼和確認密碼
自訂密碼。
請記錄該配置,登入叢集時您需要輸入該密碼。
選中服務合約,單擊確認訂單。
步驟二:建立工作空間
登入DataWorks控制台。
單擊建立工作空間。
配置工作空間基本資料。
配置項
樣本
描述
工作空間名稱
emr_dataworks
工作空間名稱的長度需要在3~23個字元,以字母開頭,且只能包含字母、底線(_)和數字。
生產、開發環境隔離
否
定義工作空間模式。
是:需隔離生產、開發環境,該方式建立的工作空間為標準模式工作空間。
否:無需隔離生產、開發環境,該方式建立的工作空間為簡單模式工作空間。
單擊提交,工作空間建立完成。
步驟三:綁定E-MapReduce
工作空間建立完後,在建立工作空間面板中,單擊E-MapReduce地區的立即綁定。
在綁定E-MapReduce頁面,單擊綁定並進入下一步。
在開源叢集頁面,單擊註冊叢集。
在註冊E-MapReduce叢集頁面,配置相關參數,單擊完成註冊。
參數
樣本
描述
叢集顯示名稱
dataworks_test
定義叢集在DataWorks中的名稱,名稱必須唯一。
叢集所屬雲帳號
當前阿里雲主帳號
選擇需要將哪個帳號下的EMR叢集註冊至當前工作空間。
叢集類型
資料湖(DataLake)
選擇需要綁定的EMR叢集類型。
叢集
Emr-DataLake
選擇需要綁定在DataWorks上運行任務的EMR叢集。
預設訪問身份
叢集帳號:hadoop
定義在當前工作空間下,使用什麼身份訪問該EMR叢集。
在EMR叢集頁面,單擊資源群組初始化。
可以對需要使用的資源群組進行初始化,驗證獨享調度資源群組和EMR引擎的網路連通性。
說明DataWorks僅支援使用獨享調度資源群組運行EMR任務,所以此處僅支援選擇獨享調度資源群組進行資源群組初始化操作。
資源群組初始化可能導致正在啟動並執行任務失敗。非必要情境(例如,叢集配置變更,需要立即重新初始化資源群組,否則會導致大量任務運行失敗),建議在業務低峰期對資源群組執行初始化操作。
步驟四:資料開發和治理
操作 | 描述 |
資料開發 | 您可以根據業務需要,選擇合適的節點類型進行EMR任務開發。 |
中繼資料管理 | 資料地圖通過中繼資料採集方式管理EMR中繼資料。您可以在資料地圖中查看EMR表中繼資料、產出資訊和血緣等功能。 |
資料品質監控 | 資料品質提供對調度任務產出的表資料的品質監控能力,您可以通過配置表的品質監控規則實現對錶資料的監控。 說明 DataLake和自訂類型叢集配置品質規則時,您需選擇dqc_emr_plugin_datalake外掛程式。 |
任務營運監控 | 智能監控提供調度任務執行狀態的監控能力,您可以通過配置智能監控規則實現任務運行狀態的監控。 |