DataWorks提供了與CDH(Cloudera’s Distribution Including Apache Hadoop,以下簡稱CDH) 和CDP(Cloudera Data Platform,以下簡稱CDP)叢集對接的能力,您可在DataWorks中註冊CDH及CDP叢集,進行任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。
背景資訊
CDH是Cloudera的開源平台發行版,提供開箱即用的叢集管理、叢集監控、叢集診斷等功能,並支援使用多種組件,助力您執行端到端的巨量資料工作流程。
CDP是跨平台收集和整合客戶資料的公用資料平台,可協助您收集即時資料,並將其構建為單獨的使用者資料使用。
您可在DataWorks中註冊CDH及CDP叢集,基於業務需求進行相關任務開發、調度、資料地圖(中繼資料管理)和資料品質等一系列的資料開發和治理操作。
前提條件
當前工作空間下,擁有以下任意權限原則或角色的使用者可註冊CDH或CDP叢集:
阿里雲主帳號。
擁有DataWorks空間管理員角色的工作空間成員。授權詳情請參見增加空間成員並管理成員角色許可權。
擁有AliyunDataWorksFullAccess權限原則的使用者,且該使用者為DataWorks工作空間成員。授權權限原則,詳情請參見為RAM使用者授權、為RAM角色授權;添加使用者為工作空間成員,詳情請參見增加空間成員並管理成員角色許可權。
已完成CDH或CDP叢集的相關部署,並擷取註冊叢集所需的配置資訊。詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通。
使用限制
僅支援使用獨享調度資源群組運行CDH或CDP叢集任務。
僅支援在DataWorks註冊CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本叢集。
僅支援華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、華北3(張家口)、西南1(成都)地區註冊CDH或CDP叢集。
步驟一:進入叢集註冊頁面
進入管理中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心。
在左側導覽列單擊,選擇CDH,進入叢集註冊頁面。
步驟二:註冊CDH或CDP叢集
標準模式工作空間,需分別註冊開發環境叢集和生產環境叢集。工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別。
CDP與CDH基於DataWorks的開發操作基本一致,本文以CDH為例,為您介紹在DataWorks如何註冊CDH叢集。
配置叢集基本資料。
參數
描述
叢集顯示名稱
定義叢集在DataWorks的名稱,名稱必須唯一。
叢集版本
選擇註冊的叢集版本。
當前支援選擇CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本。不同版本需配置的參數存在差異,具體請以實際配置介面為準。
叢集名稱
用於確定當前所註冊叢集的配置資訊來源。可選擇其他工作空間登入的叢集或建立叢集:
登入叢集:當前所註冊叢集的配置資訊,直接引用其他工作空間登入叢集的配置資訊。
建立叢集:當前註冊叢集的配置資訊需您自行配置。
配置叢集串連資訊。
根據實際使用方式選擇對應叢集的組件版本,並輸入擷取到的組件地址資訊。擷取組件資訊,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通。
添加叢集設定檔。
您可根據需要上傳所需組件的設定檔。擷取設定檔,詳情請參見準備工作:擷取CDH或CDP叢集資訊並配置網路連通。
配置叢集預設訪問身份。
用於配置在DataWorks運行CDH叢集任務時,使用什麼帳號訪問CDH叢集,不同環境支援使用的帳號存在差異,具體如下。
說明當註冊叢集時,預設訪問身份配置為非叢集帳號,若該帳號未設定帳號映射或設定的映射類型選擇無認證方式,則任務均會執行失敗。
環境
預設訪問身份
相關文檔
開發環境
叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。
映射帳號:使用任務執行者運行CDH任務時,需配置任務執行者帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。
配置帳號映射關係,詳情請參見設定叢集身份映射。
生產環境
叢集帳號:無論誰在DataWorks運行CDH任務(例如,阿里雲主帳號、只擁有開發許可權的子帳號),實際統一使用指定叢集帳號訪問CDH叢集。
映射帳號:使用任務責任人、阿里雲主帳號、阿里雲子帳號運行CDH任務時,需配置相應帳號與叢集帳號的映射關係,配置後,則運行任務時實際使用該映射帳號訪問CDH叢集。
單擊完成註冊,即成功在DataWorks中註冊叢集。
步驟三:資源群組初始化
初次綁定叢集、叢集服務配置變更或組件版本升級(例如:修改core-site.xml)請初始化資源群組,確保資源群組可正常訪問CDH叢集,資源群組當前環境配置可正常執行CDH叢集任務。在開源叢集頁面,找到登入的CDH叢集,單擊右上方的資源群組初始化,選擇所需資源群組並進行初始化操作。
DataWorks僅支援使用獨享調度資源群組運行CDH叢集任務,因此,此處僅支援選擇獨享調度資源群組進行初始化操作。
若無可用資源群組,請根據需要建立。建立資源群組,詳情請參見新增和使用獨享調度資源群組。
後續步驟
設定叢集身份映射:當CDH叢集預設訪問身份非指定叢集帳號時(即通過DataWorks雲帳號訪問),您需配置DataWorks雲帳號與叢集帳號的映射關係,使DataWorks雲帳號可通過映射的叢集指定身份訪問CDH叢集,實現相關資料許可權的隔離和管控。
資料開發:您可在DataStudio(資料開發)中建立Hive、Spark、MapReduce、Impala或者Presto任務節點,進行相關開發操作。詳情請參見使用DataWorks進行資料開發。