DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。注册CDH或CDP集群前,您需先获取注册集群所需的配置信息,并配置集群与资源组网络连通。本文以CDH集群为例,为您介绍如何获取集群信息,并配置集群与资源组网络连通。
背景信息
CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。
CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。
您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。
前提条件
已部署CDH集群。
DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用高速通道、VPN等网络连通方案来保障网络的连通性。
已购买DataWorks新版Serverless资源组(推荐)或旧版独享调度资源组。
DataWorks资源组购买后,默认与其他云产品网络不连通。在对接使用CDH时,需先保障CDH集群和资源组间网络连通,才可进行后续相关操作。
说明Serverless资源组(推荐)为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用Serverless资源组。新用户(即在当前地域未开通过任意版本DataWorks的用户)仅支持购买新版资源组。
若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CDP任务。详情请参见使用独享调度资源组。
获取CDH集群配置信息
您需按如下步骤获取CDH配置信息,用于后续在DataWorks注册CDH集群使用。
获取CDH版本信息。
登录Cloudera Manager,在主界面集群名称右侧查看当前部署的CDH集群版本,如下图所示。
获取Host地址与组件地址信息,用于注册CDH集群时配置集群连接信息。
在Cloudera Manager页面手动查看
登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别需要配置的服务,然后查看左侧对应的主机(Host),按照格式补全要填写的地址。
其中:
HS2表示:HiveServer2
HMS表示:Hive Metastore
ID表示:Impala Daemon
RM表示:YARN ResourceManager
获取配置文件,用于后续注册CDH集群时上传使用。
登录Cloudera Manager。
在状态页面,单击集群的下拉菜单中的查看客户端配置 URL。
以YARN为例,在对话框中下载配置包。
获取CDH集群的网络信息,用于后续与DataWorks资源组配置网络连通。
登录部署CDH集群的ECS控制台。
在实例列表中找到部署CDH集群的ECS实例,单击实例名称进入实例详情页,查看并记录安全组、专有网络、虚拟交换机信息。
配置网络连通
Serverless资源组
本文以Serverless资源组示例,为您介绍资源组与CDH集群的网络连通配置。
DataWorks的Serverless资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与资源组的网络连通。
进入Serverless资源组网络配置页面。
登录DataWorks控制台。
在左侧导航栏,单击资源组,默认进入资源组列表的独享资源组页签。
单击已购买资源组后的网络设置。
绑定VPC。
在专有网络绑定页签下面的数据调度 & 数据集成里,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机。
配置Host。
进入云解析DNS控制台。将获取CDH集群配置信息:步骤2中记录的Host地址信息,在云解析DNS的内网DNS解析 (PrivateZone)中进行权威解析。
开通内网DNS解析,详情请参见开通内网DNS解析。
说明如已开通内网DNS解析您可忽略此步骤。
添加内置权威域名,详情请参见添加内置权威域名。
说明本文以在Cloudera Manager页面手动查看获取的主机域名
cdh-header-1-cn-shanghai
为例,对域名cdh-header-1-cn-shanghai
进行权威解析,您可根据自己主机域名配置情况调整该参数。解析的IP为CDH集群所在的ECS实例
私有IP地址
。
设置域名生效范围,详情请参见设置域名生效范围。
说明设置域名生效范围的VPC时,您需选择CDH集群、资源组绑定的VPC。
独享调度资源组
本文以独享调度资源组示例,为您介绍资源组与CDH集群的网络连通配置。
DataWorks的独享调度资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将独享调度资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与独享调度资源组的网络连通。
进入独享资源组网络配置页面。
登录DataWorks控制台。
在左侧导航栏,单击资源组,默认进入资源组列表的独享资源组页签。
单击已购买的独享调度资源组后的网络设置。
绑定VPC。
在专有网络绑定页签,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。
配置Host。
在Host配置页签,单击批量修改,在对话框中配置为上述获取CDH集群配置信息:步骤2中记录的Host地址信息。
后续步骤
完成本文准备工作后,您可开始在DataWorks注册CDH集群进行相关开发操作,详情请参见注册CDH或CDP集群至DataWorks。