全部產品
Search
文件中心

DataWorks:準備工作:擷取CDH或CDP叢集資訊並配置網路連通

更新時間:Oct 22, 2024

DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。註冊CDH或CDP叢集前,您需先擷取註冊叢集所需的配置資訊,並配置叢集與資源群組網路連通。本文以CDH叢集為例,為您介紹如何擷取叢集資訊,並配置叢集與資源群組網路連通。

背景資訊

  • CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。

  • CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。

您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

前提條件

  • 已部署CDH叢集。

    DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。

  • 已購買DataWorks新版Serverless資源群組(推薦)或舊版獨享調度資源群組。

    DataWorks資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDH時,需先保障CDH叢集和資源群組間網路連通,才可進行後續相關操作。

    說明
    • Serverless資源群組(推薦)為通用型資源群組,可滿足多種任務類型(例如,資料同步、任務調度)的情境應用,購買詳情請參見新增和使用Serverless資源群組。新使用者(即在當前地區未開通過任意版本DataWorks的使用者)僅支援購買新版資源群組。

    • 若您已購買過舊版獨享調度資源群組,也可使用該資源群組運行CDH或CDP任務。詳情請參見使用獨享調度資源群組

擷取CDH叢集配置資訊

您需按如下步驟擷取CDH配置資訊,用於後續在DataWorks註冊CDH叢集使用。

  1. 擷取CDH版本資訊。

    登入Cloudera Manager,在主介面叢集名稱右側查看當前部署的CDH叢集版本,如下圖所示。cdh版本資訊

  2. 擷取Host地址與組件地址資訊,用於註冊CDH叢集時配置叢集串連資訊。

    在Cloudera Manager頁面手動查看

    登入Cloudera Manager,在主機(Hosts)下拉式功能表中選擇角色(Roles),根據關鍵字和表徵圖識別需要配置的服務,然後查看左側對應的主機(Host),按照格式補全要填寫的地址。方法二

    其中:

    • HS2表示:HiveServer2

    • HMS表示:Hive Metastore

    • ID表示:Impala Daemon

    • RM表示:YARN ResourceManager

  3. 擷取設定檔,用於後續註冊CDH叢集時上傳使用。

    1. 登入Cloudera Manager。

    2. 狀態頁面,單擊叢集的下拉式功能表中的查看用戶端配置 URL設定檔

    3. 以YARN為例,在對話方塊中下載配置包。設定檔2

  4. 擷取CDH叢集的網路資訊,用於後續與DataWorks資源群組配置網路連通。

    1. 登入部署CDH叢集的ECS控制台

    2. 在執行個體列表中找到部署CDH叢集的ECS執行個體,單擊執行個體名稱進入執行個體詳情頁,查看並記錄安全性群組專用網路虛擬交換器資訊。

配置網路連通

Serverless資源群組

本文以Serverless資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。

DataWorks的Serverless資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與資源群組的網路連通。

  1. 進入Serverless資源群組網路設定頁面。

    1. 登入DataWorks控制台

    2. 在左側導覽列,單擊資源群組,預設進入資源群組列表獨享資源群組頁簽。

    3. 單擊已購買資源群組後的網路設定

  2. 綁定VPC。

    專用網路綁定頁簽下面的資料調度 & Data Integration裡,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器。

  3. 配置Host。

    進入Alibaba Cloud DNS控制台。將擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊,在Alibaba Cloud DNS的內網DNS解析 (PrivateZone)中進行權威解析。

    1. 開通內網DNS解析,詳情請參見開通內網DNS解析

      說明

      如已開通內網DNS解析您可忽略此步驟。

    2. 添加內建權威網域名稱,詳情請參見添加內建權威網域名稱

      說明
      • 本文以在Cloudera Manager頁面手動查看擷取的主機網域名稱cdh-header-1-cn-shanghai為例,對網域名稱cdh-header-1-cn-shanghai進行權威解析,您可根據自己主機網域名稱配置情況調整該參數。

      • 解析的IP為CDH叢集所在的ECS執行個體私人IP地址

    3. 設定網域名稱生效範圍,詳情請參見設定網域名稱生效範圍

      說明

      設定網域名稱生效範圍的VPC時,您需選擇CDH叢集、資源群組綁定的VPC。

獨享調度資源群組

本文以獨享調度資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。

DataWorks的獨享調度資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將獨享調度資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與獨享調度資源群組的網路連通。

  1. 進入獨享資源群組網路設定頁面。

    1. 登入DataWorks控制台

    2. 在左側導覽列,單擊資源群組,預設進入資源群組列表獨享資源群組頁簽。

    3. 單擊已購買的獨享調度資源群組後的網路設定

  2. 綁定VPC。

    專用網路綁定頁簽,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器、安全性群組。

  3. 配置Host。

    Host配置頁簽,單擊批量修改,在對話方塊中配置為上述擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊。host配置

後續步驟

完成本文準備工作後,您可開始在DataWorks註冊CDH叢集進行相關開發操作,詳情請參見註冊CDH或CDP叢集至DataWorks