DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。註冊CDH或CDP叢集前,您需先擷取註冊叢集所需的配置資訊,並配置叢集與資源群組網路連通。本文以CDH叢集為例,為您介紹如何擷取叢集資訊,並配置叢集與資源群組網路連通。
背景資訊
CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。
CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。
您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。
前提條件
已部署CDH叢集。
DataWorks支援使用非阿里雲ECS環境部署的CDH,但需確保部署CDH的環境和阿里雲專用網路可連通。通常您可使用Express Connect、VPN等網路連通方案來保障網路的連通性。
已購買DataWorks獨享調度資源群組。
DataWorks獨享調度資源群組購買後,預設與其他雲產品網路不連通。在對接使用CDH時,需先保障CDH叢集和獨享調度資源群組間網路連通,才可進行後續相關操作。購買資源群組,詳情請參見新增和使用獨享調度資源群組。
擷取CDH叢集配置資訊
您需按如下步驟擷取CDH配置資訊,用於後續在DataWorks註冊CDH叢集使用。
擷取CDH版本資訊。
登入Cloudera Manager,在主介面叢集名稱右側查看當前部署的CDH叢集版本,如下圖所示。
擷取Host地址與組件地址資訊,用於註冊CDH叢集時配置叢集串連資訊。
方式一:使用DataWorks JAR包工具擷取
登入Cloudera Manager,下載工具JAR包。
wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
運行工具JAR包。
export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin java -jar dw-tools.jar <user> <password>
其中
<user>
和<password>
分別是Cloudera Manager的使用者名稱和密碼。在運行結果中查看並記錄CDH的Host地址和組件地址資訊。
方式二:在Cloudera Manager頁面手動查看
登入Cloudera Manager,在主機(Hosts)下拉式功能表中選擇角色(Roles),根據關鍵字和表徵圖識別需要配置的服務,然後查看左側對應的主機(Host),按照格式補全要填寫的地址。預設連接埠號碼可參考方法一的輸出結果範例。
其中:
HS2表示:HiveServer2
HMS表示:Hive Metastore
ID表示:Impala Daemon
RM表示:YARN ResourceManager
擷取設定檔,用於後續註冊CDH叢集時上傳使用。
登入Cloudera Manager。
在狀態頁面,單擊叢集的下拉式功能表中的查看用戶端配置 URL。
以YARN為例,在對話方塊中下載配置包。
擷取CDH叢集的網路資訊,用於後續與DataWorks獨享調度資源群組配置網路連通。
登入部署CDH叢集的ECS控制台。
在執行個體列表中找到部署CDH叢集的ECS執行個體,單擊執行個體名稱進入執行個體詳情頁,查看並記錄安全性群組、專用網路、虛擬交換器資訊。
配置網路連通
DataWorks的獨享調度資源群組購買後,預設與其他雲產品網路不可達,在對接使用CDH時,您需擷取部署CDH叢集的網路資訊,將獨享調度資源群組綁定至CDH叢集所在的VPC網路中,保障CDH叢集與獨享調度資源群組的網路連通。
進入獨享資源群組網路設定頁面。
登入DataWorks控制台。
在左側導覽列,單擊資源群組列表,預設進入獨享資源群組頁簽。
單擊已購買的獨享調度資源群組後的網路設定。
綁定VPC。
在專用網路綁定頁簽,單擊新增綁定,在配置頁面選擇上述擷取CDH叢集配置資訊:步驟4記錄的CDH叢集所在VPC、可用性區域、交換器、安全性群組。
配置Host。
在Host配置頁簽,單擊批量修改,在對話方塊中配置為上述擷取CDH叢集配置資訊:步驟2中記錄的Host地址資訊。
後續步驟
完成本文準備工作後,您可開始在DataWorks註冊CDH叢集進行相關開發操作,詳情請參見註冊CDH或CDP叢集至DataWorks。