DataWorks支援可視化建立EMR(E-MapReduce) JAR、EMR(E-MapReduce)FILE資源,用於上傳提交自訂函數或開源MR樣本源碼作為資源,便於EMR 計算節點的資料開發過程中引用。本文為您介紹如何建立資源,並上傳提交資源,為資源的使用做好前期準備。
前提條件
EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立資源前需執行的準備工作不同。您需要根據實際情況完成EMR側及DataWorks側的準備工作。
DataLake:詳情請參見DataLake叢集配置、DataWorks配置。
Hadoop:Hadoop叢集開發前準備工作。
建立EMR資源
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
滑鼠移至上方至表徵圖,單擊 或 。
您也可以找到相應的商務程序,按右鍵商務程序,選擇
或 。在建立資源對話方塊中,配置各項參數。
參數
描述
引擎類型
預設建立EMR類型的資源,不可修改。
引擎執行個體
從下拉式清單中選擇需要建立資源的目標引擎執行個體。
說明此處展示工作空間的資料開發中綁定好的EMR引擎。
資源類型
僅支援EMR JAR、EMR FILE類型的資源。
路徑
為您使用的商務程序路徑。
儲存路徑
為該資源選擇儲存的路徑,包括OSS和HDFS兩種儲存類型:
如果您選擇OSS,需要先授權再選擇目錄的位置。
說明需要主帳號在此處進行授權操作。
如果您選擇HDFS,需要手動輸入儲存路徑。
說明目前您的任務JAR包僅支援如下兩種存放路徑:
JAR包存放在EMR叢集的Master機器中。
JAR包存放在Object Storage Service服務(Object Storage Service,OSS)中。推薦您使用OSS進行存放。使用OSS存放JAR包,詳情請參見控制台使用流程。
檔案來源
目標檔案的來源,包括本地和OSS兩種來源。
如果您選擇本地,在上傳檔案中單擊點擊上傳即可上傳本地檔案。
如果您選擇OSS,在選擇檔案下拉框中選擇OSS檔案,或者單擊前往OSS建立即可建立OSS檔案
名稱
建立的EMR資源的名稱,如果您上傳的是jar資源,您需要添加尾碼名.jar。
在建立資源對話方塊中,單擊建立。
單擊工具列中的和表徵圖,儲存並提交資源至調度程式開發伺服器端。
說明提交時,您需要選擇提交資源所用的調度資源群組,當使用Serverless資源群組提交資源時,DataWorks平台將下發對應建立資源的任務到引擎側執行,並列印執行過程的執行日誌,如果資源提交過程中出現問題,您可以通過日誌先自助排查。如果您目前無可用的Serverless資源群組,請購買並配置Serverless資源群組便於使用,操作詳情請參見新增和使用Serverless資源群組。
使用資源註冊函數
DataWorks支援可視化方式使用資源來註冊函數,當您將函數註冊所需的資源通過DataWorks可視化上傳後,便可通過可視化方式在函數註冊時使用該資源。
節點中使用資源
建立完成EMR JAR資源後,如果您需要在節點中直接使用資源,您需要在資源檔案夾選擇相應的資源節點,然後按右鍵該節點並選擇引用資源。引用方式如下圖所示。
節點中引用資源後,會自動添加一條@resource_reference{"resourcename},表示節點內已經引用該資源。
詳細的引用操作步驟可參見建立EMR MR節點。
資源版本管理
每次提交資源都將產生一個資源版本,您可以通過按右鍵該資源節點,單擊查看歷史版本查看並下載資源。