全部產品
Search
文件中心

DataWorks:註冊CDH或CDP叢集至DataWorks

更新時間:Jun 19, 2024

DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

背景資訊

  • CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。

  • CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。

您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

前提條件

使用限制

  • 僅支援使用獨享調度資源群組運行CDH或CDP叢集任務。

  • 僅支援在DataWorks註冊CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本叢集。

  • 僅支援華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)地區註冊CDH或CDP叢集。

步驟一:進入叢集註冊頁面

  1. 進入管理中心頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  1. 在左側導覽列單擊開源叢集 > 註冊叢集,選擇CDH,進入叢集註冊頁面。

步驟二:註冊CDH或CDP叢集

說明
  • 標準模式工作空間,需分別註冊開發環境叢集和生產環境叢集。工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別

  • CDP與CDH基於DataWorks的開發操作基本一致,本文以CDH為例,為您介紹在DataWorks如何註冊CDH叢集。

  1. 配置叢集基本資料。

    參數

    描述

    叢集顯示名稱

    定義叢集在DataWorks的名稱,名稱必須唯一。

    叢集版本

    選擇註冊的叢集版本。

    當前支援選擇CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本。不同版本需配置的參數存在差異,具體請以實際配置介面為準。

    叢集名稱

    用於確定當前所註冊叢集的配置資訊來源。可選擇其他工作空間登入的叢集或建立叢集:

    • 登入叢集:當前所註冊叢集的配置資訊,直接引用其他工作空間登入叢集的配置資訊。

    • 建立叢集:當前註冊叢集的配置資訊需您自行配置。

  2. 配置叢集串連資訊。

    根據實際使用方式選擇對應叢集的組件版本,並輸入擷取到的組件地址資訊。擷取組件資訊,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通image.png

  3. 添加叢集設定檔。

    您可根據需要上傳所需組件的設定檔。擷取設定檔,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通

    image.png

  4. 配置叢集預設訪問身份。

    用於配置在DataWorks運行CDH叢集任務時,使用什麼帳號訪問CDH叢集,不同環境支援使用的帳號存在差異,具體如下。

    說明

    當註冊叢集時,預設訪問身份配置為非叢集帳號,若該帳號未設定帳號映射或設定的映射類型選擇無認證方式,則任務均會執行失敗。

    環境

    預設訪問身份

    相關文檔

    開發環境

    • 叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。

    • 映射帳號:使用任務執行者運行CDH任務時,需配置任務執行者帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。

    配置帳號映射關係,詳情請參見設定叢集身份映射

    生產環境

    • 叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。

    • 映射帳號:使用任務責任人、阿里雲主帳號、阿里雲子帳號運行CDH任務時,需配置相應帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。

  5. 單擊完成註冊,即成功在DataWorks中註冊叢集。

步驟三:資源群組初始化

初次綁定叢集、叢集服務配置變更組件版本升級(例如:修改core-site.xml)請初始化資源群組,確保資源群組可正常訪問CDH叢集,資源群組當前環境配置可正常執行CDH叢集任務。在開源叢集頁面,找到登入的CDH叢集,單擊右上方的資源群組初始化選擇所需資源群組並進行初始化操作。

說明
  • DataWorks僅支援使用獨享調度資源群組運行CDH叢集任務,因此,此處僅支援選擇獨享調度資源群組進行初始化操作。

  • 若無可用資源群組,請根據需要建立。建立資源群組,詳情請參見新增和使用獨享調度資源群組

後續步驟

  • 設定叢集身份映射:當CDH叢集預設訪問身份非指定叢集帳號時(即通過DataWorks雲帳號訪問),您需配置DataWorks雲帳號與叢集帳號的映射關係,使DataWorks雲帳號可通過映射的叢集指定身份訪問CDH叢集,實現相關資料許可權的隔離和管控。

  • 資料開發:您可在DataStudio(資料開發)中建立Hive、Spark、MapReduce、Impala或者Presto任務節點,進行相關開發操作。詳情請參見使用DataWorks進行資料開發