全部产品
Search
文档中心

大数据开发治理平台 DataWorks:绑定计算资源(参加新版数据开发公测)

更新时间:Dec 09, 2024

如果您在创建工作空间时选择了参加数据开发(Data Studio)(新版)公测,则还需为该工作空间创建计算资源,绑定计算资源后,即可在工作空间开发和调度计算资源的相关任务。

前提条件

  • 已创建工作空间,并且创建工作空间时选中了参加数据开发(Data Studio)(新版)公测,详情请参见创建工作空间

    您可以在工作空间列表页,找到目标工作空间,单击操作列的快速进入,区分是否参加了新版数据开发公测:

    未参加新版数据开发公测

    参加新建数据开发公测

    单击操作列的快速进入,选择数据开发,进入数据开发页面。

    未参加新版数据开发公测时,数据开发界面如下:

    image

    DataStudio(数据开发)的更多信息,请参见数据开发概述

    单击操作列的快速进入,选择数据开发(新版),进入数据开发页面。

    参加新版数据开发公测时,数据开发界面如下:

    image

    新版数据开发Data Studio的更多信息,请参见Data Studio概述

  • 已具备相关的计算资源服务,DataWorks绑定计算资源仅是将您已有的计算资源关联至DataWorks,计算资源的存储、数据以及计费均归属于对应计算资源。

  • 开通DataWorks服务时,已自动购买了按量付费的Serverless资源组(不使用不计费),并绑定至默认工作空间,如您在新工作空间完成本文操作,则请将资源组绑定至新工作空间,具体操作,请参见为工作空间绑定资源组

  • 绑定的计算资源,需确保与Serverless资源组的连通性,详情请参见网络连通方案

相关概念

计算资源

计算资源是计算引擎用于执行数据处理和分析任务的资源实例,如MaxCompute项目(Quota组)、Hologres实例等。例如,在大数据处理场景下,使用阿里云MaxCompute时,你可以通过设置Quota组来管理你的计算任务所使用的计算资源量。

一个工作空间支持添加多种计算资源。为工作空间绑定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce、CDH、OpenSearch、Serverless Spark、Serverless StarRocks和全托管 Flink后,即可在工作空间开发和调度计算资源的相关任务。

数据源

数据源用于连接不同的数据存储服务,它包含了连接到该数据库所需的所有信息(如用户名、密码、主机地址等)。在数据开发前,您需要先定义好数据源信息,以便在执行节点任务时,能够通过选择数据源名称来确定数据读取和写入的数据库。一个工作空间支持添加多种数据源实例。

数据目录

数据目录是一个结构化的列表或地图,用来展示一个组织内部所有的数据资产,包括但不限于数据库、表、文件等。对于DataWorks这样的平台而言,数据目录记录了关于这些数据资产的元数据信息。

计算资源、数据源、数据目录之间的关系

三者是独立的对象,但存在关联关系,具体关系如下:

  • 绑定计算资源时,可关联创建出数据源和数据目录。

  • 创建数据源时,可关联创建出数据目录。

  • 创建数据目录时,无法关联创建出数据源或计算资源。

绑定计算资源

DataWorks支持多种方式为工作空间绑定计算资源,您可选择其一创建即可。

创建工作空间时绑定计算资源

完成创建工作空间相关参数配置后,单击创建工作空间,将自动进入绑定计算资源步骤,您可以按需选择您的计算资源,完成绑定操作。

image

DataWorks在选择参与新版数据开发公测后,进入绑定计算资源引导时,支持绑定多种计算资源,具体绑定说明如下:

分类

计算资源

绑定说明

绑定计算资源参数说明

离线计算

MaxCompute

DataWorks无法直连到MaxCompute的Quota上,只能绑定到MaxCompute项目上。绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

MaxCompute

Serverless Spark

绑定Spark工作空间。Spark计算资源无需绑定数据目录。

Serverless Spark

实时查询

Hologres

DataWorks无法直连到Hologres的计算组,需要绑定到Hologres的Database上。绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。

Hologres

Serverless StarRocks

DataWorks无法直连到StarRocks的队列,需要绑定到StarRocks的实例(Instance)。绑定StarRocks计算资源,会同步创建StarRocks的数据源、绑定StarRocks的数据目录。

Serverless StarRocks

全托管

全托管Flink

绑定Flink项目空间。Flink计算资源无需绑定数据目录。

全托管Flink

多模态搜索

OpenSearch

绑定OpenSearch实例。绑定OpenSearch计算资源后,会同步创建OpenSearch数据源。该计算资源无需绑定数据目录。

OpenSearch

工作空间详情页绑定计算资源

如果您在创建工作空间时未立即绑定计算资源,您还可以在工作空间详情页为工作空间绑定计算资源。

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的工作空间,进入工作空间列表页面。

  2. 找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

  3. 在左侧导航栏选择计算资源,单击绑定计算资源,您可以按需选择您的计算资源,然后配置相关参数,参数详情请参见绑定计算资源参考,完成后续绑定操作。

    image

  4. 配置完成后,单击确认按钮保存计算资源。

管理中心绑定计算资源

如果您在创建工作空间时未立即绑定计算资源,您还可以在管理中心为工作空间绑定计算资源。

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  2. 在左侧导航栏单击计算资源

  3. 在计算资源页面,单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数,参数详情可参见:绑定计算资源参考

    image

绑定计算资源参考

MaxCompute

  1. 选择MaxCompute,进入绑定MaxCompute计算资源配置页面,MaxCompute详情可参见:什么是MaxCompute

  2. 配置如下参数。

    参数

    说明

    MaxCompute项目

    选择需要绑定的MaxCompute项目,您也可以在下拉菜单中单击新建,直接创建MaxCompute项目后,选择新创建的MaxCompute项目。

    说明
    • 如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择MaxCompute项目,生产和开发环境不支持选择相同的MaxCompute项目。

    • MaxCompute计算资源计费详情,请参见计费项与计费方式

    • MaxCompute项目创建详情,请参见创建MaxCompute项目

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接MaxCompute计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成MaxCompute计算资源配置。

    说明
    • 绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

    • 您也可以在创建完成后,在数据目录中查看详情,具体请参见查看数据目录

Serverless Spark

  1. 选择Serverless Spark,进入绑定Serverless Spark计算资源的配置页面,Serverless Spark详情可参见:什么是EMR Serverless Spark

  2. 配置如下参数:

    参数

    说明

    Spark工作空间

    选择需要绑定的Spark工作空间,您也可以在下拉菜单中单击新建,前往EMR Serverless Spark控制台进行创建,然后再回到DataWorks空间中选择新创建的Spark工作空间。

    说明
    • 如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择Spark工作空间。

    • 如何创建Spark工作空间,请参见创建Spark工作空间

    角色授权

    为了DataWorks能够正常获取EMR Serverless Spark集群的信息,首次选择Spark工作空间后,请单击添加服务关联角色作为工作空间管理员

    重要

    创建服务关联角色后,请勿在E-MapReduce Serverless Spark工作空间中移除DataWorks服务关联角色AliyunServiceRoleForDataWorksOnEmrAliyunServiceRoleForDataworksEngine的管理员角色。

    默认引擎版本

    在Data Studio中新建EMR Spark任务时,将会默认使用此处配置的引擎版本、消息队列和SQL Compute。如需面向不同任务设置不同的引擎版本、资源队列或SQL Compute,请在Spark任务编辑窗口的高级设置中进行定义。

    默认消息队列

    默认SQL Compute

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号任务责任人

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,完成Serverless Spark计算资源配置。

    说明

    Spark无需绑定数据目录。

Hologres

  1. 选择Hologres,进入绑定Hologres计算资源的配置页面,Hologres详情可参见什么是实时数仓Hologres

  2. 配置如下参数:

    参数

    说明

    Hologres实例

    选择需要绑定的Hologres实例,您也可以在下拉菜单中单击新建,前往Hologres购买页创建,然后再回到DataWorks空间中选择新创建的Hologres实例。

    说明
    • 如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择Hologres实例。

    • 如何创建Hologres实例,请参见购买Hologres

    Hologres计算组

    当前Hologres实例支持配置计算组,需要为其设置计算组实例,详情可以参考计算组管理

    数据库名称

    选择Hologres实例中的数据库,如果未创建数据库,您也可以在下拉菜单中单击新建。Hologres创建数据库相关参数解释,请参见创建数据库

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接Hologres实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成Hologres计算资源配置。

    说明

    Spark无需绑定数据目录。

Serverless StarRocks

  1. 选择Serverless StarRocks,进入绑定Serverless StarRocks计算资源的配置页面,Serverless StarRocks详情可参见:什么是EMR Serverless StarRocks

  2. 配置如下参数:

    参数

    说明

    StarRocks实例

    选择需要绑定的StarRocks实例,您也可以在下拉菜单中单击新建,前往EMR StarRocks控制台创建,然后再回到DataWorks空间中选择新创建的StarRocks实例。

    说明

    数据库名称

    选择StarRocks实例中的数据库。如果未创建数据库,您需要先在StarRocks实例中创建数据库,详情请参见创建数据库

    用户名

    密码

    创建StarRock实例时设置的账号和密码,账号默认为admin

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接StarRocks实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成Serverless StarRocks计算资源配置。

    说明
    • 绑定StarRock计算资源后,会同步创建StarRock数据源、绑定StarRock数据目录。

    • 您也可以在创建完成后,在数据目录中查看详情,具体请参见查看数据目录

全托管Flink

  1. 选择全托管Flink,进入绑定全托管Flink计算资源的配置页面,全托管Flink详情可参见:什么是阿里云实时计算Flink版

  2. 配置如下参数:

    参数

    说明

    Flink工作空间

    选择需要绑定的Flink工作空间,您也可以在下拉菜单中单击新建,前往全托管Flink购买页创建,然后再回到DataWorks空间中选择新创建的Flink工作空间。

    说明

    Flink项目空间

    选择Flink工作空间内的项目空间,工作空间创建完成会创建默认项目空间,您也可以在Flink控制台手动添加其他项目空间后,再在此处选择。创建Flink项目空间,详情可参见:管理项目空间

    默认部署目标

    选择默认部署目标,在Data Studio中新建Flink任务时,将会默认使用此处配置的部署目标。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,完成全托管Flink计算资源配置。

    说明

    Flink无需绑定数据目录。

OpenSearch

  1. 选择OpenSearch,进入绑定OpenSearch计算资源的配置页面,详情请参见:什么是智能开放搜索OpenSearch

  2. 配置如下参数。

    参数

    说明

    OpenSearch实例

    选择需要绑定的OpenSearch实例,您也可以在下拉菜单中单击新建,前往开放搜索购买页创建,然后再回到DataWorks空间中选择新创建的OpenSearch实例。

    说明

    用户名

    密码

    填写创建OpenSearch实例时设置的用户名和密码。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,完成OpenSearch计算资源配置。

    说明

    OpenSearch无需绑定数据目录。

AnalyticDB for MySQL (V3.0)

  1. 选择AnalyticDB for MySQL (V3.0),进入绑定AnalyticDB for MySQL (V3.0)计算资源的配置页面,AnalyticDB for MySQL (V3.0)详情请参见:什么是云原生数据仓库AnalyticDB MySQL版

  2. 配置如下参数:

    参数

    说明

    配置模式

    仅支持阿里云实例模式。

    所属云账号

    仅支持当前阿里云账号。

    地域

    AnalyticDB for MySQL (V3.0)实例所在地域。

    说明

    若选择的地域与当前工作空间地域不一致,则创建数据源后,该数据源不支持在数据开发(DataStudio)绑定,即此类数据源不能用于数据开发或周期性调度任务,仅可用于数据集成模块进行数据同步。

    实例

    选择需要绑定该工作空间的实例。

    说明

    如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择不同的实例或数据库。

    数据库名称

    填写AnalyticDB for MySQL (V3.0)实例中创建的数据库名称,详情可参见:创建数据库

    用户名

    填写拥有数据库权限的用户名。

    密码

    填写用户名密码。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接AnalyticDB for MySQL (V3.0)计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成AnalyticDB for MySQL (V3.0)计算资源配置。

AnalyticDB for PostgreSQL

  1. 选择AnalyticDB for PostgreSQL ,进入绑定AnalyticDB for PostgreSQL计算资源的配置页面,AnalyticDB for PostgreSQL详情请参见AnalyticDB for PostgreSQL产品概述

  2. 配置如下参数:

    参数

    说明

    配置模式

    仅支持阿里云实例模式。

    所属云账号

    仅支持当前阿里云账号。

    地域

    AnalyticDB for PostgreSQL实例所在地域。

    说明

    若选择的地域与当前工作空间地域不一致,则创建数据源后,该数据源不支持在数据开发(Data Studio)中使用,即不能用于数据开发或周期性调度任务,仅可用于数据集成模块进行数据同步。

    实例

    选择需要绑定该工作空间的实例。

    数据库名称

    填写AnalyticDB for PostgreSQL实例中创建的数据库名称,详情请参见:数据库管理

    用户名

    填写拥有数据库权限的用户名。

    密码

    填写用户名密码。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接AnalyticDB for PostgreSQL计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成AnalyticDB for PostgreSQL计算资源配置。

AnalyticDB for Spark

说明

注册AnalyticDB for Spark所使用的阿里云实例为AnalyticDB for MySQL 企业版实例,详情可参见:Spark计算引擎

  1. 选择AnalyticDB for Spark,进入绑定AnalyticDB for Spark计算资源的配置页面。

  2. 配置如下参数:

    参数

    说明

    配置模式

    仅支持阿里云实例模式。

    所属云账号

    仅支持当前阿里云账号。

    地域

    AnalyticDB for MySQL实例所在地域。

    说明

    若选择的地域与当前工作空间地域不一致,则创建数据源后,该数据源不支持在数据开发(Data Studio)中使用,即不能用于数据开发或周期性调度任务,仅可用于数据集成模块进行数据同步。

    实例

    选择需要绑定该工作空间的实例。

    数据库名称

    填写AnalyticDB for MySQL实例中创建的数据库名称,详情可参见:创建数据库

    默认访问身份

    默认任务责任人

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接AnalyticDB for Spark计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成AnalyticDB for Spark计算资源配置。

CDH

  1. 选择CDH ,进入绑定CDH计算资源的配置页面。

  2. 配置如下参数:

    • CDH集群的基本信息

      参数

      说明

      集群版本

      选择注册的集群版本。

      DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接选择,该类集群版本配套的组件版本固定。若该类集群版本不满足您的业务需要,您可选择自定义版本,并按需配置组件版本。

      集群名称

      用于确定当前所注册集群的配置信息来源。可选择其他工作空间已注册的集群或新建集群:

      • 已注册集群:当前所注册集群的配置信息,直接引用其他工作空间已注册集群的配置信息。

      • 新建集群:当前注册集群的配置信息需您自行配置。

      计算资源实例名

      用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    • CDH配置句群链接信息

      参数

      说明

      Hive连接信息

      按照集群版本选择集群Hive版本,并填写HiveServer2的JDBC地址以及Metastore地址。

      Impala连接信息

      按照集群版本选择集群Impala版本,并填写Impala的JDBC地址。

      Spark连接信息

      按照集群版本选择集群Spark版本。

      Yarn连接信息

      按照集群版本选择集群Yarn版本,并填写Yarn.resourcemanager.address地址以及jobhistory.webapp.address地址。

      MapReduce连接信息

      按照集群版本选择集群MapReduce版本。

      Presto

      按照集群版本选择集群Presto版本,并填写JDBC地址。

    • CDH添加集群配置文件

      配置文件

      描述

      应用场景

      Core-Site文件

      包含Hadoop Core库的全局配置。例如,HDFS和MapReduce常用的I/O设置。

      运行Spark或MapReduce任务,需上传该文件。

      Hdfs-Site文件

      包含HDFS的相关配置。例如,数据块大小、备份数量、路径名称等。

      Mapred-Site文件

      用于配置MapReduce相关的参数。例如,配置MapReduce作业的执行方式和调度行为。

      运行MapReduce任务,需上传该文件。

      Yarn-Site文件

      包含了与YARN守护进程相关的所有配置。例如,资源管理器、节点管理器和应用程序运行时的环境配置。

      运行Spark或MapReduce任务,或账号映射类型选择Kerberos时,需上传该文件。

      Hive-Site文件

      包含了用于配置Hive的各项参数。例如,数据库连接信息、Hive Metastore的设置和执行引擎等。

      账号映射类型选择Kerberos时,需上传该文件。

      Spark-Defaults文件

      用于指定Spark作业执行时应用的默认配置。您可通过spark-defaults.conf文件预先设定一系列参数(例如,内存大小、CPU核数),Spark应用程序在运行时将采用该参数配置。

      运行Spark任务,需上传该文件。

      Config.Properties文件

      包含Presto服务器的相关配置。例如,设置Presto集群中协调器节点和工作节点的全局属性。

      使用Presto组件,且账号映射类型选择OPEN LDAP或Kerberos时,需上传该文件。

      Presto.Jks文件

      用于存储安全证书,包括私钥和颁发给应用程序的公钥证书。在Presto数据库查询引擎中,presto.jks文件用于为Presto进程启用SSL/TLS加密通信,确保数据传输的安全。

  3. 单击确认,完成CDH计算资源配置。

ClikcHouse

  1. 选择ClickHouse ,进入绑定ClickHouse计算资源的配置页面。

  2. 配置如下参数:

    配置

    说明

    配置模式

    目前支持通过连接串模式增ClickHouse集群。

    JDBC URL

    连接ClickHouse的JDBC URL信息。您可登录云数据库ClickHouse控制台,获取相关数据库及端口信息。

    用户名

    访问ClickHouse集群的用户名。

    密码

    访问ClickHouse集群的用户密码。

    认证选项

    选择后续访问ClickHouse集群时是否需要SSL认证。开启该认证服务后,ClickHouse数据源不支持用于数据开发或周期性调度任务。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接ClickHouse计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确认,完成ClickHouse计算资源配置。

EMR

  1. 选择EMR ,进入绑定EMR计算资源的配置页面,EMR详情请参见:什么是EMR on ECS

  2. 配置如下参数:

    当前阿里云主账号

    当集群所属云账号选择当前阿里云主账号时,您还需要配置如下参数:

    配置项

    说明

    集群类型

    选择需要注册的EMR集群类型。目前DataWorks可注册的集群类型请参见使用限制

    集群

    选择当前账号下需要注册至DataWorks的EMR集群。

    说明

    若集群类型选择EMR Serverless Spark,您需按照界面指引及参考说明选择相应的E-MapReduce工作空间(即要注册的集群)、默认引擎版本、默认资源队列等信息。

    默认访问身份

    定义在当前工作空间下,使用什么身份访问该EMR集群。

    • 开发环境:可选择使用集群账号hadoop,或任务执行者所映射的集群账号。

    • 生产环境:可选择使用集群账号hadoop,任务责任人、阿里云主账号或阿里云子账号所映射的集群账号。

    说明

    当默认访问身份选择任务责任人、阿里云主账号或阿里云子账号所映射的集群账号时,您可以参考设置集群身份映射手动配置DataWorks租户成员与EMR集群指定账号的映射关系。通过该映射的集群账号在DataWorks执行EMR任务,未配置DataWorks租户成员与集群账号映射的情况下,DataWorks处理策略如下:

    • 若使用RAM用户(子账号)执行任务:我们将默认按照与当前操作人同名的EMR集群系统账号执行任务。若集群开启LDAP或者Kerberos认证,任务执行将失败。

    • 若使用阿里云主账号执行任务:DataWorks任务执行将报错。

    传递Proxy User信息

    用于配置是否传递Proxy User信息。

    说明

    当开启LDAP/Kerberos等认证方式时,集群会为每个普通用户都颁发一个认证凭证,该操作比较麻烦。为方便统一管理用户权限,您可通过某个超级用户(Real User)去代理普通用户(Proxy User)进行权限认证,此时,通过Proxy User访问集群时,实际使用的是超级用户的身份认证信息。您只需添加用户为Proxy User即可。

    • 传递:在EMR集群中运行任务时,根据Proxy User进行数据访问权限的校验及控制。

      • DataStudio(数据开发)、数据分析:将动态传递任务执行者的阿里云账号名称,即Proxy User信息为任务执行者的信息。

      • 运维中心:将固定传递注册集群时配置的默认访问身份的阿里云账号名称,即Proxy User信息作为默认访问身份的信息。

    • 不传递:在EMR集群中运行任务时,根据注册集群时配置的账号认证方式进行数据访问权限的校验及控制。

    不同类型的EMR任务,传递Proxy User信息的方式如下:

    • EMR Kyuubi任务:通过hive.server2.proxy.user配置项传递。

    • EMR Spark任务及非JDBC模式的EMR Spark SQL任务:通过-proxy-user配置项传递。

    配置文件

    当集群类型选择HADOOP时,您可以前往EMR控制台获取配置文件。详情请参见导出和导入服务配置。导出后请根据产品界面要上传的配置文件,修改文件名称。

    此外,您还可以登录EMR集群,通过以下路径获取相关配置文件。

    /etc/ecm/hadoop-conf/core-site.xml
    /etc/ecm/hadoop-conf/hdfs-site.xml
    /etc/ecm/hadoop-conf/mapred-site.xml
    /etc/ecm/hadoop-conf/yarn-site.xml
    /etc/ecm/hive-conf/hive-site.xml
    /etc/ecm/spark-conf/spark-defaults.conf
    /etc/ecm/spark-conf/spark-env.sh

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    其他阿里云主账号

    当集群所属云账号选择其他阿里云主账号时,您还需要配置如下参数:

    配置项

    说明

    对方阿里云主账号UID

    需添加的EMR集群所属的云账号UID。

    对方RAM角色

    访问该EMR集群的RAM角色。该角色需满足如下条件:

    • 对方阿里云主账号中已创建RAM角色。

    • 对方阿里云主账号的RAM角色已授权访问当前账号的DataWorks服务。

    对方EMR集群类型

    选择需要注册的EMR集群类型。目前跨账号注册EMR集群场景下仅支持EMR on ECS:DataLake集群EMR on ECS:Hadoop集群EMR on ECS:自定义集群

    对方EMR集群

    选择该账号下需要注册至DataWorks的EMR集群。

    配置文件

    请在产品界面按照提示配置各项配置文件。获取配置文件详情请参见导出和导入服务配置。导出后请根据产品界面要上传的配置文件,修改文件名称。

    image.png

    此外,您还可以登录EMR集群,通过以下路径获取相关配置文件。

    /etc/ecm/hadoop-conf/core-site.xml
    /etc/ecm/hadoop-conf/hdfs-site.xml
    /etc/ecm/hadoop-conf/mapred-site.xml
    /etc/ecm/hadoop-conf/yarn-site.xml
    /etc/ecm/hive-conf/hive-site.xml
    /etc/ecm/spark-conf/spark-defaults.conf
    /etc/ecm/spark-conf/spark-env.sh

    默认访问身份

    定义在当前工作空间下,用什么身份访问该EMR集群。

    • 开发环境:可选择统一使用集群账号:hadoop,或任务责任人所映射的集群账号。

    • 生产环境:可选择统一使用集群账号:hadoop、任务责任人、阿里云主账号或阿里云子账号所映射的集群账号。

    说明

    当默认访问身份选择任务责任人、阿里云主账号或阿里云子账号所映射的集群账号时,您可以参考设置集群身份映射手动配置DataWorks租户成员与EMR集群指定账号的映射关系。通过该映射的集群账号在DataWorks执行EMR任务,未配置DataWorks租户成员与集群账号映射的情况下,DataWorks处理策略如下:

    • 若使用RAM用户(子账号)执行任务:我们将默认按照与当前操作人同名的EMR集群系统账号执行任务。若集群开启LDAP或者Kerberos认证,任务执行将失败。

    • 若使用阿里云主账号执行任务:DataWorks任务执行将报错。

    传递Proxy User信息

    用于配置是否传递Proxy User信息。

    说明

    当开启LDAP/Kerberos等认证方式时,集群会为每个普通用户都颁发一个认证凭证,该操作比较麻烦。为方便统一管理用户权限,您可通过某个超级用户(Real User)去代理普通用户(Proxy User)进行权限认证,此时,通过Proxy User访问集群时,实际使用的是超级用户的身份认证信息。您只需添加用户为Proxy User即可。

    • 传递:在EMR集群中运行任务时,根据Proxy User进行数据访问权限的校验及控制。

      • DataStudio(数据开发)、数据分析:将动态传递任务执行者的阿里云账号名称,即Proxy User信息为任务执行者的信息。

      • 运维中心:将固定传递注册集群时配置的默认访问身份的阿里云账号名称,即Proxy User信息为默认访问身份的信息。

    • 不传递:在EMR集群中运行任务时,根据注册集群时配置的账号认证方式进行数据访问权限的校验及控制。

    不同类型的EMR任务,传递Proxy User信息的方式如下:

    • EMR Kyuubi任务:通过hive.server2.proxy.user配置项传递。

    • EMR Spark任务及非JDBC模式的EMR Spark SQL任务:通过-proxy-user配置项传递。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,完成EMR计算资源配置。

后续步骤