DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。註冊CDH或CDP叢集前,您需先擷取註冊叢集所需的配置資訊,並配置叢集與資源群組網路連通。本文以CDH叢集為例,為您介紹如何擷取叢集資訊,並配置叢集與資源群組網路連通。
背景資訊
CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。
CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。
您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。
前提條件
已部署CDH叢集。
DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。
已購買DataWorks新版Serverless資源群組(推薦)或舊版獨享調度資源群組。
DataWorks資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDH時,需先保障CDH叢集和資源群組間網路連通,才可進行後續相關操作。
說明Serverless資源群組(推薦)為通用型資源群組,可滿足多種任務類型(例如,資料同步、任務調度)的情境應用,購買詳情請參見新增和使用Serverless資源群組。新使用者(即在當前地區未開通過任意版本DataWorks的使用者)僅支援購買新版資源群組。
若您已購買過舊版獨享調度資源群組,也可使用該資源群組運行CDH或CDP任務。詳情請參見使用獨享調度資源群組。
擷取CDH叢集配置資訊
您需按如下步驟擷取CDH配置資訊,用於後續在DataWorks註冊CDH叢集使用。
擷取CDH版本資訊。
登入Cloudera Manager,在主介面叢集名稱右側查看當前部署的CDH叢集版本,如下圖所示。
擷取Host地址與組件地址資訊,用於註冊CDH叢集時配置叢集串連資訊。
在Cloudera Manager頁面手動查看
登入Cloudera Manager,在主機(Hosts)下拉式功能表中選擇角色(Roles),根據關鍵字和表徵圖識別需要配置的服務,然後查看左側對應的主機(Host),按照格式補全要填寫的地址。
其中:
HS2表示:HiveServer2
HMS表示:Hive Metastore
ID表示:Impala Daemon
RM表示:YARN ResourceManager
擷取設定檔,用於後續註冊CDH叢集時上傳使用。
登入Cloudera Manager。
在狀態頁面,單擊叢集的下拉式功能表中的查看用戶端配置 URL。
以YARN為例,在對話方塊中下載配置包。
擷取CDH叢集的網路資訊,用於後續與DataWorks資源群組配置網路連通。
登入部署CDH叢集的ECS控制台。
在執行個體列表中找到部署CDH叢集的ECS執行個體,單擊執行個體名稱進入執行個體詳情頁,查看並記錄安全性群組、專用網路、虛擬交換器資訊。
配置網路連通
Serverless資源群組
本文以Serverless資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。
DataWorks的Serverless資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與資源群組的網路連通。
進入Serverless資源群組網路設定頁面。
登入DataWorks控制台。
在左側導覽列,單擊資源群組,預設進入資源群組列表的獨享資源群組頁簽。
單擊已購買資源群組後的網路設定。
綁定VPC。
在專用網路綁定頁簽下面的資料調度 & Data Integration裡,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器。
配置Host。
進入Alibaba Cloud DNS控制台。將擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊,在Alibaba Cloud DNS的內網DNS解析 (PrivateZone)中進行權威解析。
開通內網DNS解析,詳情請參見開通內網DNS解析。
說明如已開通內網DNS解析您可忽略此步驟。
添加內建權威網域名稱,詳情請參見添加內建權威網域名稱。
說明本文以在Cloudera Manager頁面手動查看擷取的主機網域名稱
cdh-header-1-cn-shanghai
為例,對網域名稱cdh-header-1-cn-shanghai
進行權威解析,您可根據自己主機網域名稱配置情況調整該參數。解析的IP為CDH叢集所在的ECS執行個體
私人IP地址
。
設定網域名稱生效範圍,詳情請參見設定網域名稱生效範圍。
說明設定網域名稱生效範圍的VPC時,您需選擇CDH叢集、資源群組綁定的VPC。
獨享調度資源群組
本文以獨享調度資源群組樣本,為您介紹資源群組與CDH叢集的網路連通配置。
DataWorks的獨享調度資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將獨享調度資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與獨享調度資源群組的網路連通。
進入獨享資源群組網路設定頁面。
登入DataWorks控制台。
在左側導覽列,單擊資源群組,預設進入資源群組列表的獨享資源群組頁簽。
單擊已購買的獨享調度資源群組後的網路設定。
綁定VPC。
在專用網路綁定頁簽,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器、安全性群組。
配置Host。
在Host配置頁簽,單擊批量修改,在對話方塊中配置為上述擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊。
後續步驟
完成本文準備工作後,您可開始在DataWorks註冊CDH叢集進行相關開發操作,詳情請參見註冊CDH或CDP叢集至DataWorks。