全部產品
Search
文件中心

E-MapReduce:DataWorks on EMR快速入門

更新時間:Jan 30, 2024

DataWorks支援基於E-MapReduce建立Hive、Spark SQL、Presto和MR等節點,實現任務工作流程的配置和定時調度、中繼資料管理及資料品質監控警示等功能,為使用者提供一站式資料湖開發和治理的環境。本文為您介紹如何在DataWorks上快速使用EMR叢集。

操作流程

  1. 步驟一:建立叢集

    在EMR控制台,快速建立一個DataLake叢集。

  2. 步驟二:建立工作空間

    在DataWorks控制台,快速建立一個工作空間。

  3. 步驟三:綁定E-MapReduce

    在DataWorks控制台,快速綁定E-MapReduce。

  4. 步驟四:資料開發和治理

    EMR環境配置完成後,您可以在DataWorks控制台上進行EMR中繼資料管理、任務營運監控及資料品質監控,保證EMR資料能夠正常產出。

步驟一:建立叢集

  1. 進入建立叢集頁面。

    1. 登入EMR on ECS控制台

    2. 在頂部功能表列處,根據實際情況選擇地區和資源群組。

      • 地區:建立的叢集會在對應的地區內,一旦建立不能修改。

      • 資源群組:預設顯示帳號全部資源。

    3. 單擊上方的建立叢集

  2. 在建立叢集頁面,完成叢集相關配置。

    配置地區

    配置項

    樣本

    描述

    軟體配置

    地區

    華東1(杭州)

    叢集節點ECS執行個體所在的物理位置。

    重要

    叢集建立後,無法更改地區,請謹慎選擇。

    業務情境

    資料湖

    選擇適合的業務情境,建立叢集時阿里雲EMR會自動為您配置預設的組件、服務和資源,以簡化叢集配置,並提供符合特定業務情境需求的叢集環境。

    產品版本

    EMR-5.14.0

    當前最新的軟體版本。

    服務高可用

    不開啟

    預設不開啟。開啟服務高可用開關後,EMR會把Master節點分布在不同的底層硬體上以降低故障風險。

    可選服務

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根據您的實際需求選擇組件,被選中的組件會預設啟動相關的服務進程。

    說明

    除過叢集預設的服務,還需選擇Knox和OpenLDAP服務。

    允許採集服務運行日誌

    開啟

    支援一鍵開啟或關閉所有服務的日誌採集。預設開啟,將收集您的服務作業記錄,這些日誌僅供叢集診斷使用。

    叢集建立後,您可以在基礎資訊頁面,修改服務作業記錄收集狀態

    重要

    關閉日誌採集後,EMR的健全狀態檢查和支援人員將受到限制,但其他功能仍可正常使用。

    元資料

    DLF統一中繼資料

    表示中繼資料存放區在資料湖構建DLF中。

    系統會為您選擇預設的DLF資料目錄,如果您不同叢集期望使用不同的資料目錄,可以單擊建立資料目錄

    說明

    選擇該方式時,需要開通阿里雲資料湖構建服務。

    集羣存儲根路徑

    1366993922******

    當您在可選服務地區選取項目了OSS-HDFS服務時,需要配置該參數,如果選擇的是HDFS服務,則無需配置該參數。

    說明
    • 在選擇使用OSS-HDFS服務之前,請確保您選擇的地區支援該服務。否則,您可以嘗試更換地區或使用HDFS服務替代OSS-HDFS服務。

    • EMR-5.12.1及後續版本,EMR-3.46.1及後續版本的DataLake、DataFlow、DataServing和Custom叢集,支援選擇OSS-HDFS服務。

    硬體設定

    付費類型

    隨用隨付

    在測試情境下,建議使用隨用隨付,測試正常後可以釋放該叢集,再建立一個訂用帳戶的生產叢集正式使用。

    可用性區域

    可用性區域 I

    叢集建立後,無法直接更改可用性區域,請謹慎選擇。

    專用網路

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    選擇對應地區下的專用網路。如果沒有,單擊建立VPC前往建立。建立專用網路完成後,單擊重新整理,可以選擇剛建立好的VPC。

    交換器

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    選擇在對應專用網路下可用性區域的交換器,如果在這個可用性區域沒有可用的交換器,則需要新建立一個。

    預設安全性群組

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上建立的企業安全性群組。

    如果已有在使用的安全性群組,則可以直接選擇使用。您也可以建立一個安全性群組。

    節點群組

    開啟Master節點群組下的掛載公網開關,其餘使用預設值即可。

    您可以根據業務訴求,配置Master節點群組、Core節點群組或Task節點群組資訊。

    基礎配置

    叢集名稱

    Emr-DataLake

    叢集的名字,長度限制為1~64個字元,僅可使用中文、字母、數字、短劃線(-)和底線(_)。

    身份憑證

    密碼。

    用於遠程登入叢集的Master節點。

    登入密碼確認密碼

    自訂密碼。

    請記錄該配置,登入叢集時您需要輸入該密碼。

  3. 選中服務合約,單擊確認訂單

步驟二:建立工作空間

  1. 登入DataWorks控制台

  2. 單擊建立工作空間

  3. 配置工作空間基本資料。

    配置項

    樣本

    描述

    工作空間名稱

    emr_dataworks

    工作空間名稱的長度需要在3~23個字元,以字母開頭,且只能包含字母、底線(_)和數字。

    生產、開發環境隔離

    定義工作空間模式。

    • 是:需隔離生產、開發環境,該方式建立的工作空間為標準模式工作空間。

    • 否:無需隔離生產、開發環境,該方式建立的工作空間為簡單模式工作空間。

  4. 單擊提交,工作空間建立完成。

步驟三:綁定E-MapReduce

  1. 工作空間建立完後,在建立工作空間面板中,單擊E-MapReduce地區的立即綁定

  2. 綁定E-MapReduce頁面,單擊綁定並進入下一步

  3. 在開源叢集頁面,單擊註冊叢集

  4. 註冊E-MapReduce叢集頁面,配置相關參數,單擊完成註冊

    參數

    樣本

    描述

    叢集顯示名稱

    dataworks_test

    定義叢集在DataWorks中的名稱,名稱必須唯一。

    叢集所屬雲帳號

    當前阿里雲主帳號

    選擇需要將哪個帳號下的EMR叢集註冊至當前工作空間。

    叢集類型

    資料湖(DataLake)

    選擇需要綁定的EMR叢集類型。

    叢集

    Emr-DataLake

    選擇需要綁定在DataWorks上運行任務的EMR叢集。

    預設訪問身份

    叢集帳號:hadoop

    定義在當前工作空間下,使用什麼身份訪問該EMR叢集。

  5. EMR叢集頁面,單擊資源群組初始化

    可以對需要使用的資源群組進行初始化,驗證獨享調度資源群組和EMR引擎的網路連通性。

    說明
    • DataWorks僅支援使用獨享調度資源群組運行EMR任務,所以此處僅支援選擇獨享調度資源群組進行資源群組初始化操作。

    • 資源群組初始化可能導致正在啟動並執行任務失敗。非必要情境(例如,叢集配置變更,需要立即重新初始化資源群組,否則會導致大量任務運行失敗),建議在業務低峰期對資源群組執行初始化操作。

步驟四:資料開發和治理

操作

描述

資料開發

您可以根據業務需要,選擇合適的節點類型進行EMR任務開發。

中繼資料管理

資料地圖通過中繼資料採集方式管理EMR中繼資料。您可以在資料地圖中查看EMR表中繼資料、產出資訊和血緣等功能。

資料品質監控

資料品質提供對調度任務產出的表資料的品質監控能力,您可以通過配置表的品質監控規則實現對錶資料的監控。

說明

DataLake和自訂類型叢集配置品質規則時,您需選擇dqc_emr_plugin_datalake外掛程式。

任務營運監控

智能監控提供調度任務執行狀態的監控能力,您可以通過配置智能監控規則實現任務運行狀態的監控。