全部產品
Search
文件中心

DataWorks:註冊CDH或CDP叢集至DataWorks

更新時間:Jul 13, 2024

DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

背景資訊

  • CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。

  • CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。

您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

前提條件

使用限制

  • 僅支援使用新版通用型資源群組(推薦)或舊版獨享調度資源群組運行CDH或CDP叢集任務。

    說明
    • (推薦)新版資源群組為通用型資源群組,可滿足多種任務類型(例如,資料同步、任務調度)的情境應用,購買詳情請參見新增和使用新版通用型資源群組;若您已購買過舊版獨享調度資源群組,也可使用該資源群組運行CDH或CD任務,詳情請參見使用獨享調度資源群組

    • 新使用者僅支援購買新版資源群組。

    • 若使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組。叢集版本介紹,請參見步驟二:註冊CDH或CDP叢集

  • 僅支援華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)、德國(法蘭克福)地區註冊CDH或CDP叢集。

步驟一:進入叢集註冊頁面

  1. 進入管理中心頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

  2. 在左側導覽列單擊開源叢集 > 註冊叢集,選擇CDH,進入叢集註冊頁面。

步驟二:註冊CDH或CDP叢集

說明
  • 標準模式工作空間,需分別註冊開發環境叢集和生產環境叢集。工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別

  • CDP與CDH基於DataWorks的開發操作基本一致,本文以CDH為例,為您介紹在DataWorks如何註冊CDH叢集。

  1. 配置叢集基本資料。

    參數

    描述

    叢集顯示名稱

    定義叢集在DataWorks的名稱,名稱必須唯一。

    叢集版本

    選擇註冊的叢集版本。

    DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接選擇,該類叢集版本配套的組件版本(即叢集串連資訊中各組件的版本)固定。若該類叢集版本不滿足您的業務需要,您可選擇自訂版本,並按需配置組件版本。

    說明
    • 不同叢集版本需配置的組件存在差異,具體請以實際介面為準。

    • 使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組,且註冊完成後需提交工單聯絡技術支援人員初始化相關環境。

    叢集名稱

    用於確定當前所註冊叢集的配置資訊來源。可選擇其他工作空間登入的叢集或建立叢集:

    • 登入叢集:當前所註冊叢集的配置資訊,直接引用其他工作空間登入叢集的配置資訊。

    • 建立叢集:當前註冊叢集的配置資訊需您自行配置。

  2. 配置叢集串連資訊。

    根據實際使用方式選擇對應叢集的組件版本,並輸入擷取到的組件地址資訊。擷取組件資訊,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通image.png

  3. 添加叢集設定檔。

    您可根據需要上傳所需組件的設定檔。擷取設定檔,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通

    image.png

    設定檔介紹如下。

    設定檔

    描述

    應用情境

    Core-Site檔案

    包含Hadoop Core庫的全域配置。例如,HDFS和MapReduce常用的I/O設定。

    運行Spark或MapReduce任務,需上傳該檔案。

    Hdfs-Site檔案

    包含HDFS的相關配置。例如,資料區塊大小、備份數量、路徑名稱等。

    Mapred-Site檔案

    用於配置MapReduce相關的參數。例如,配置MapReduce作業的執行方式和調度行為。

    運行MapReduce任務,需上傳該檔案。

    Yarn-Site檔案

    包含了與YARN守護進程相關的所有配置。例如,資源管理員、節點管理器和應用程式運行時的環境配置。

    運行Spark或MapReduce任務,或帳號映射類型選擇Kerberos時,需上傳該檔案。

    Hive-Site檔案

    包含了用於配置Hive的各項參數。例如,資料庫連接資訊、Hive Metastore的設定和執行引擎等。

    帳號映射類型選擇Kerberos時,需上傳該檔案。

    Spark-Defaults檔案

    用於指定Spark作業執行時應用的預設配置。您可通過 spark-defaults.conf 檔案預先設定一系列參數(例如,記憶體大小、CPU核心數),Spark應用程式在運行時將採用該參數配置。

    運行Spark任務,需上傳該檔案。

    Config.Properties檔案

    包含Presto伺服器的相關配置。例如,設定Presto叢集中協調器節點和工作節點的全域屬性。

    使用Presto組件,且帳號映射類型選擇OPEN LDAP或Kerberos時,需上傳該檔案。

    Presto.Jks檔案

    用於儲存安全性憑證,包括私密金鑰和頒發給應用程式的密鑰憑證。在Presto資料庫查詢引擎中,presto.jks 檔案用於為Presto進程啟用SSL/TLS加密通訊,確保資料轉送的安全。

  4. 配置叢集預設訪問身份。

    用於配置在DataWorks運行CDH叢集任務時,使用什麼帳號訪問CDH叢集,不同環境支援使用的帳號存在差異,具體如下。

    說明

    當註冊叢集時,預設訪問身份配置為非叢集帳號,若該帳號未設定帳號映射或設定的映射類型選擇無認證方式,則任務均會執行失敗。

    環境

    預設訪問身份

    相關文檔

    開發環境

    • 叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。

    • 映射帳號:使用任務執行者運行CDH任務時,需配置任務執行者帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。

    配置帳號映射關係,詳情請參見設定叢集身份映射

    生產環境

    • 叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。

    • 映射帳號:使用任務責任人、阿里雲主帳號、阿里雲子帳號運行CDH任務時,需配置相應帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。

  5. 單擊完成註冊,即成功在DataWorks中註冊叢集。

步驟三:資源群組初始化

初次綁定叢集、叢集服務配置變更組件版本升級(例如:修改core-site.xml)請初始化資源群組,確保資源群組可正常訪問CDH叢集,資源群組當前環境配置可正常執行CDH叢集任務。在開源叢集頁面,找到登入的CDH叢集,單擊右上方的資源群組初始化選擇所需資源群組並進行初始化操作。

說明
  • DataWorks僅支援使用新版通用型資源群組(推薦)和獨享調度資源群組運行CDH叢集任務,因此,此處僅支援選擇這兩類資源群組進行初始化操作。若無可用資源群組,請根據需要建立,詳情請參見新增和使用新版通用型資源群組新增和使用獨享調度資源群組

  • 使用自訂版本叢集註冊至DataWorks,僅支援使用舊版獨享調度資源群組,且註冊完成後需提交工單聯絡技術支援人員初始化相關環境。

後續步驟

  • 設定叢集身份映射:當CDH叢集預設訪問身份非指定叢集帳號時(即通過DataWorks雲帳號訪問),您需配置DataWorks雲帳號與叢集帳號的映射關係,使DataWorks雲帳號可通過映射的叢集指定身份訪問CDH叢集,實現相關資料許可權的隔離和管控。

  • 資料開發:您可在DataStudio(資料開發)中建立Hive、Spark、MapReduce、Impala或者Presto任務節點,進行相關開發操作。詳情請參見使用DataWorks進行資料開發