全部產品
Search
文件中心

DataWorks:建立和使用EMR資源

更新時間:Nov 15, 2024

DataWorks支援可視化建立EMR(E-MapReduce) JAR、EMR(E-MapReduce)FILE資源,用於上傳提交自訂函數或開源MR樣本源碼作為資源,便於EMR 計算節點的資料開發過程中引用。本文為您介紹如何建立資源,並上傳提交資源,為資源的使用做好前期準備。

前提條件

EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立資源前需執行的準備工作不同。您需要根據實際情況完成EMR側及DataWorks側的準備工作。

建立EMR資源

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 滑鼠移至上方至建立表徵圖,單擊建立資源 > EMR > EMR JAR建立資源 > EMR > EMR File

    您也可以找到相應的商務程序,按右鍵商務程序,選擇建立資源 > EMR > EMR JAR建立資源 > EMR > EMR File

  3. 建立資源對話方塊中,配置各項參數。

    建立資源

    參數

    描述

    引擎類型

    預設建立EMR類型的資源,不可修改。

    引擎執行個體

    從下拉式清單中選擇需要建立資源的目標引擎執行個體。

    說明

    此處展示工作空間的資料開發中綁定好的EMR引擎。

    資源類型

    僅支援EMR JAR、EMR FILE類型的資源。

    路徑

    為您使用的商務程序路徑。

    儲存路徑

    為該資源選擇儲存的路徑,包括OSSHDFS兩種儲存類型:

    • 如果您選擇OSS,需要先授權再選擇目錄的位置。

      說明

      需要主帳號在此處進行授權操作。

    • 如果您選擇HDFS,需要手動輸入儲存路徑。

    說明

    目前您的任務JAR包僅支援如下兩種存放路徑:

    • JAR包存放在EMR叢集的Master機器中。

    • JAR包存放在Object Storage Service服務(Object Storage Service,OSS)中。推薦您使用OSS進行存放。使用OSS存放JAR包,詳情請參見控制台使用流程

    檔案來源

    目標檔案的來源,包括本地OSS兩種來源。

    • 如果您選擇本地,在上傳檔案中單擊點擊上傳即可上傳本地檔案。

    • 如果您選擇OSS,在選擇檔案下拉框中選擇OSS檔案,或者單擊前往OSS建立即可建立OSS檔案

    名稱

    建立的EMR資源的名稱,如果您上傳的是jar資源,您需要添加尾碼名.jar

  4. 建立資源對話方塊中,單擊建立

  5. 單擊工具列中的儲存提交表徵圖,儲存並提交資源至調度程式開發伺服器端。

    說明

    提交時,您需要選擇提交資源所用的調度資源群組,當使用Serverless資源群組提交資源時,DataWorks平台將下發對應建立資源的任務到引擎側執行,並列印執行過程的執行日誌,如果資源提交過程中出現問題,您可以通過日誌先自助排查。如果您目前無可用的Serverless資源群組,請購買並配置Serverless資源群組便於使用,操作詳情請參見新增和使用Serverless資源群組

使用資源註冊函數

DataWorks支援可視化方式使用資源來註冊函數,當您將函數註冊所需的資源通過DataWorks可視化上傳後,便可通過可視化方式在函數註冊時使用該資源。註冊函數

節點中使用資源

建立完成EMR JAR資源後,如果您需要在節點中直接使用資源,您需要在資源檔案夾選擇相應的資源節點,然後按右鍵該節點並選擇引用資源。引用方式如下圖所示。節點中使用資源

說明

節點中引用資源後,會自動添加一條@resource_reference{"resourcename},表示節點內已經引用該資源。

詳細的引用操作步驟可參見建立EMR MR節點

資源版本管理

每次提交資源都將產生一個資源版本,您可以通過按右鍵該資源節點,單擊查看歷史版本查看並下載資源。資源版本