全部產品
Search
文件中心

DataWorks:CDH MR節點

更新時間:Feb 05, 2026

在DataWorks任務開發中,您可以通過建立CDH MR(MapReduce)節點處理超大規模的資料集。本文為您介紹如何在DataWorks中配置並使用CDH MR節點。

前提條件

  • 已建立阿里雲CDH叢集,並綁定至DataWorks工作空間。操作詳情請參見新版資料開發:綁定CDH計算資源

  • (可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員

    說明

    如果您使用的是主帳號,則可忽略該添加操作。

  • 已在DataWorks配置Hive資料來源並通過連通性測試,詳情請參見資料來源管理

建立CDH JAR資源

您可將任務JAR包上傳至DataWorks,後續可通過CDH Spark任務實現對該JAR包的周期性調度。

  1. 詳情請參見資源管理。可將JAR包通過本地上傳的方式上傳到JAR資源的存放目錄下。單擊點擊上傳按鈕,上傳JAR資源。

  2. 選擇儲存路徑資料來源資源群組

  3. 單擊儲存按鈕進行儲存。

建立節點

建立入口參考:建立節點

開發節點

在CDH MR節點編輯頁面,執行如下開發操作。

  1. 開啟建立的CDH MR節點,停留在代碼編輯頁面。

  2. 在左側導覽列的資源管理中找到待引用資源,右鍵選擇引用資源

  3. 選擇引用後,若CDH節點的代碼編輯頁面出現##@resource_reference{""}格式的語句,表明已成功引用代碼資源。此時,需執行下述命令運行作用。命令涉及的資源套件、Bucket名稱、路徑資訊等為本文樣本內容,使用時,需替換為實際使用的資訊。

##@resource_reference{"onaliyun_mr_wordcount-1.0-SNAPSHOT.jar"}
onaliyun_mr_wordcount-1.0-SNAPSHOT.jar cn.apache.hadoop.onaliyun.examples.EmrWordCount oss://onaliyun-bucket-2/cdh/datas/wordcount02/inputs oss://onaliyun-bucket-2/cdh/datas/wordcount02/outputs

調試節點

  1. 回合組態計算資源中,選擇配置計算資源資源群組

    1. 計算資源選擇您在DataWorks上註冊的CDH叢集名稱。

    2. 資源群組選擇與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案

  2. 在節點編輯頁面上方工具列,單擊運行任務。

後續步驟

  • 節點調度配置:若專案目錄下的節點需要周期性調度執行,您需要在節點右側的調度配置中設定調度策略,配置相關的調度屬性。

  • 節點發布:若任務需要發布至生產環境執行,請單擊介面image表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。

  • 任務營運:任務發布後,您可以在營運中心查看周期任務的運行情況。詳情請參見營運中心入門