本文為您介紹如何註冊EMR(E-MapReduce)函數。
前提條件
EMR引擎類型包括新版資料湖(DataLake)及Hadoop,不同類型引擎建立資源前需執行的準備工作不同。您需要根據實際情況完成EMR側及DataWorks側的準備工作。
DataLake:詳情請參見DataLake叢集配置、DataWorks配置。
Hadoop:Hadoop叢集開發前準備工作。
您需要先上傳資源,才可以註冊函數。建立EMR資源詳情可參考文檔:建立和使用EMR資源
操作步驟
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
建立商務程序,詳情請參見建立周期商務程序。
在本地Java環境編輯程式並產生JAR包後,再建立JAR資源,並提交發布。詳情請參見建立和使用EMR資源。
建立函數。
開啟相應的商務程序,按右鍵EMR,選擇建立函數。
在建立函數對話方塊中,輸入名稱,並選擇引擎執行個體和路徑。
單擊建立。
在註冊函數對話方塊中,配置各項參數。
參數
描述
函數類型
選擇函數類型,包括數學運算函數、彙總函式、字串處理函數、日期函數、視窗函數和其他函數。
EMR引擎執行個體
預設不可以修改。
EMR引擎類型
預設不可以修改。
EMR資料庫
從下拉式清單中選擇相應的資料庫。如果您需要建立資料庫,請單擊建立庫。在建立庫對話方塊中,配置各項參數,單擊確認。
函數名
UDF函數名,即SQL中引用該函數所使用的名稱。需要全域唯一,且註冊函數後不支援修改。
責任人
預設顯示。
類名
實現UDF的主類名,必填。
資源清單
從下拉式清單中選擇本工作空間中已添加的資源,必填。如果您需要建立資源,請單擊建立資源。在建立資源對話方塊中,配置各項參數,單擊確定。
描述
對當前UDF進行簡單描述。
命令格式
該UDF的具體使用方法樣本,例如
test
。參數說明
支援輸入的參數類型以及返回參數類型的具體說明。
傳回值
傳回值,例如1,非必填項。
樣本
函數中的樣本,非必填項。
單擊工具列中的表徵圖。
提交函數。
單擊工具列中的表徵圖。
說明提交時,您需要選擇提交函數所用的調度資源群組,當使用Serverless資源群組提交表時,DataWorks平台將下發對應的註冊函數的任務到引擎側執行,並列印執行過程日誌資訊,如果資源提交過程中出現問題,您也可以通過日誌先進行自助排查。如果您目前無可用的Serverless資源群組,請購買並配置Serverless資源群組便於使用,操作詳情請參見新增和使用Serverless資源群組。
在提交新版本對話方塊中,輸入變更描述。
單擊確認。