本教程以用户画像分析为例,演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。
业务背景
为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。
操作前须知
为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。
注意事项
本实验提供教程所需用户信息数据与网站访问测试数据,您可直接使用。
本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。
本实验使用数据开发(DataStudio)(旧版)进行数据加工。
EMR环境准备
创建EMR集群
本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。在创建EMR集群进行软件配置时,关键参数配置如下:
参数 | 取值 |
地域 | 华东2(上海)。 |
业务场景 | 数据湖。 |
产品版本 | 选择最新版本。 |
可选服务 | 根据实际需求选择组件,其中Hive组件、OSS-HDFS组件在本案例中必选。 |
元数据 | DLF统一元数据。 |
集群存储根路径 | 选择OSS-HDFS实例。如果下拉列表为空,请单击创建OSS-HDFS实例。 |
创建EMR集群的详细操作,请参见创建集群。
对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践。
DataWorks环境准备
在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作。
步骤一:创建工作空间
如果在华东2(上海)区域已有工作空间,可以忽略该步骤,使用已有工作空间。
登录DataWorks控制台,在左上角切换地域至华东2(上海)。
单击左侧导航栏中的工作空间,进入空间列表页面,单击创建工作空间,创建标准模式空间(生产、开发环境隔离),详情请参见创建工作空间。
步骤二:创建Serverless资源组
本教程在数据同步与调度时,需要使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。
购买Serverless资源组。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
单击创建资源组,在资源组购买页面,选择地域和可用区为华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
说明本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。
配置Serverless资源组。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。
为资源组配置公网访问能力。
本教程使用的测试数据需要通过公网获取,而上一步创建的资源组默认不具备公网访问能力,需要为资源组绑定的VPC配置公网NAT网关,添加EIP,使其与公开数据网络打通,从而获取数据。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。
单击创建公网NAT网关。配置相关参数。
参数
取值
所属地域
华东2(上海)。
所属专有网络
选择资源组绑定的VPC和交换机。
您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络。
关联交换机
访问模式
专有网络全通模式(SNAT)。
弹性公网IP实例
新购弹性公网IP。
关联角色创建
首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色。
说明上表中未说明的参数保持默认值即可。
单击立即购买,勾选服务协议后,单击立即开通,完成购买。
更多新增和使用Serverless资源组的操作指导请参见新增和使用Serverless资源组。
步骤三:注册EMR集群并完成资源组初始化
只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。
进入EMR集群注册页面。
进入管理中心页面。
登录DataWorks控制台,切换地域至华东2(上海)后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的集群管理,进入集群管理页面 ,单击注册集群按钮,选择注册集群类型为E-MapReduce。进入注册E-MapReduce集群页面。
注册EMR集群。
在注册E-MapReduce集群页面配置集群信息,关键参数配置信息如下。
参数
取值
集群所属云账号
当前阿里云主账号。
集群类型
数据湖(DataLake)。
默认访问身份
集群账号:hadoop。
传递proxy user信息
传递。
资源组初始化。
在集群管理页面,找到已注册的EMR集群,单击右上角的资源组初始化。
在需要初始化的资源组后面单击初始化。
完成后单击确认。
重要初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。
注册EMR集群的详细操作,请参见注册EMR集群至DataWorks。
后续步骤
现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至OSS,然后通过EMR Hive节点建表查询同步后的数据。详情请参见同步数据。