全部产品
Search
文档中心

大数据开发治理平台 DataWorks:准备环境

更新时间:Feb 19, 2025

本教程以用户画像分析为例,演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。

业务背景

为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。

操作前须知

为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。

注意事项

  • 本实验提供教程所需用户信息数据与网站访问测试数据,您可直接使用。

  • 本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。

  • 本实验使用数据开发(DataStudio)(旧版)进行数据加工。

EMR环境准备

创建EMR集群

本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。在创建EMR集群进行软件配置时,关键参数配置如下:

参数

取值

地域

华东2(上海)

业务场景

数据湖

产品版本

选择最新版本。

可选服务

根据实际需求选择组件,其中Hive组件、OSS-HDFS组件在本案例中必选。

元数据

DLF统一元数据

集群存储根路径

选择OSS-HDFS实例。如果下拉列表为空,请单击创建OSS-HDFS实例

创建EMR集群的详细操作,请参见创建集群

说明

对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践

DataWorks环境准备

在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作

步骤一:创建工作空间

如果在华东2(上海)区域已有工作空间,可以忽略该步骤,使用已有工作空间。

  1. 登录DataWorks控制台,在左上角切换地域至华东2(上海)

  2. 单击左侧导航栏中的工作空间,进入空间列表页面,单击创建工作空间,创建标准模式空间(生产、开发环境隔离),详情请参见创建工作空间

步骤二:创建Serverless资源组

本教程在数据同步与调度时,需要使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。

  1. 购买Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 单击创建资源组,在资源组购买页面,选择地域和可用区华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费

      说明

      本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。

  2. 配置Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。

    3. 为资源组配置公网访问能力。

      本教程使用的测试数据需要通过公网获取,而上一步创建的资源组默认不具备公网访问能力,需要为资源组绑定的VPC配置公网NAT网关,添加EIP,使其与公开数据网络打通,从而获取数据。

      1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。

      2. 单击创建公网NAT网关。配置相关参数。

        参数

        取值

        所属地域

        华东2(上海)。

        所属专有网络

        选择资源组绑定的VPC和交换机。

        您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

        关联交换机

        访问模式

        专有网络全通模式(SNAT)。

        弹性公网IP实例

        新购弹性公网IP。

        关联角色创建

        首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

        说明

        上表中未说明的参数保持默认值即可。

      3. 单击立即购买,勾选服务协议后,单击立即开通,完成购买。

更多新增和使用Serverless资源组的操作指导请参见新增和使用Serverless资源组

步骤三:注册EMR集群并完成资源组初始化

只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。

  1. 进入EMR集群注册页面。

    1. 进入管理中心页面。

      登录DataWorks控制台,切换地域至华东2(上海)后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 单击左侧导航栏的集群管理,进入集群管理页面 ,单击注册集群按钮,选择注册集群类型E-MapReduce。进入注册E-MapReduce集群页面。

  2. 注册EMR集群。

    注册E-MapReduce集群页面配置集群信息,关键参数配置信息如下。

    参数

    取值

    集群所属云账号

    当前阿里云主账号

    集群类型

    数据湖(DataLake)

    默认访问身份

    集群账号:hadoop

    传递proxy user信息

    传递

  3. 资源组初始化。

    1. 集群管理页面,找到已注册的EMR集群,单击右上角的资源组初始化

    2. 在需要初始化的资源组后面单击初始化

    3. 完成后单击确认

    重要

    初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。

注册EMR集群的详细操作,请参见注册EMR集群至DataWorks

后续步骤

现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至OSS,然后通过EMR Hive节点建表查询同步后的数据。详情请参见同步数据