全部產品
Search
文件中心

DataWorks:準備工作:擷取CDH或CDP叢集資訊並配置網路連通

更新時間:Jun 19, 2024

DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。註冊CDH或CDP叢集前,您需先擷取註冊叢集所需的配置資訊,並配置叢集與資源群組網路連通。本文以CDH叢集為例,為您介紹如何擷取叢集資訊,並配置叢集與資源群組網路連通。

背景資訊

  • CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。

  • CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。

您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。

前提條件

  • 已部署CDH叢集。

    DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。

  • 已購買DataWorks獨享調度資源群組。

    DataWorks獨享調度資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDH時,需先保障CDH叢集和獨享調度資源群組間網路連通,才可進行後續相關操作。購買資源群組,詳情請參見新增和使用獨享調度資源群組

擷取CDH叢集配置資訊

您需按如下步驟擷取CDH配置資訊,用於後續在DataWorks註冊CDH叢集使用。

  1. 擷取CDH版本資訊。

    登入Cloudera Manager,在主介面叢集名稱右側查看當前部署的CDH叢集版本,如下圖所示。cdh版本資訊

  2. 擷取Host地址與組件地址資訊,用於註冊CDH叢集時配置叢集串連資訊。

    方式一:使用DataWorks JAR包工具擷取

    1. 登入Cloudera Manager,下載工具JAR包。

      wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
    2. 運行工具JAR包。

      export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin
      java -jar dw-tools.jar <user> <password>

      其中<user><password>分別是Cloudera Manager的使用者名稱和密碼。

      在運行結果中查看並記錄CDH的Host地址和組件地址資訊。組件資訊

    方式二:在Cloudera Manager頁面手動查看

    登入Cloudera Manager,在主機(Hosts)下拉式功能表中選擇角色(Roles),根據關鍵字和表徵圖識別需要配置的服務,然後查看左側對應的主機(Host),按照格式補全要填寫的地址。預設連接埠號碼可參考方法一的輸出結果範例。方法二

    其中:

    • HS2表示:HiveServer2

    • HMS表示:Hive Metastore

    • ID表示:Impala Daemon

    • RM表示:YARN ResourceManager

  3. 擷取設定檔,用於後續註冊CDH叢集時上傳使用。

    1. 登入Cloudera Manager。

    2. 狀態頁面,單擊叢集的下拉式功能表中的查看用戶端配置 URL設定檔

    3. 以YARN為例,在對話方塊中下載配置包。設定檔2

  4. 擷取CDH叢集的網路資訊,用於後續與DataWorks獨享調度資源群組配置網路連通。

    1. 登入部署CDH叢集的ECS控制台

    2. 在執行個體列表中找到部署CDH叢集的ECS執行個體,單擊執行個體名稱進入執行個體詳情頁,查看並記錄安全性群組專用網路虛擬交換器資訊。

配置網路連通

DataWorks的獨享調度資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將獨享調度資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與獨享調度資源群組的網路連通。

  1. 進入獨享資源群組網路設定頁面。

    1. 登入DataWorks控制台

    2. 在左側導覽列,單擊資源群組列表,預設進入獨享資源群組頁簽。

    3. 單擊已購買的獨享調度資源群組後的網路設定

  2. 綁定VPC。

    專用網路綁定頁簽,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器、安全性群組。

  3. 配置Host。

    Host配置頁簽,單擊批量修改,在對話方塊中配置為上述擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊。host配置

後續步驟

完成本文準備工作後,您可開始在DataWorks註冊CDH叢集進行相關開發操作,詳情請參見註冊CDH或CDP叢集至DataWorks