全部产品
Search
文档中心

大数据开发治理平台 DataWorks:设置全局YARN资源队列

更新时间:Dec 05, 2024

在DataWorks中,您可按照工作空间粒度指定各模块使用的YARN队列,后续各模块将默认使用该队列执行EMR任务。同时,可定义全局YARN资源队列优先级是否高于指定模块内配置的YARN资源队列优先级。本文为您介绍如何设置全局YARN资源队列。

背景信息

YARN是一个分布式的资源管理系统,是Hadoop的核心组件,在Hadoop集群中主要负责资源管理、调度运行及监控作业。关于EMR YARN的详情,请参见YARN调度器

在DataWorks中,您可通过如下方式配置调度节点运行时使用的YARN资源队列:

  • 方式一:配置全局YARN资源队列

    设置工作空间级别某DataWorks功能模块运行EMR任务时使用哪个YARN资源队列,并定义此处配置的YARN资源队列优先级是否高于指定模块内配置的YARN资源队列。详情请参见设置全局YARN资源队列

  • 方式二:配置产品模块内YARN队列

    • 数据开发(DataStudio):对于Hive、Spark节点,可在节点编辑页面右侧导航栏的高级设置,通过queue参数设置单个节点任务的YARN资源队列。

    • 数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)

    • 其他产品模块:暂不支持在模块内单独设置YARN资源队列

使用限制

  • 仅以下角色可配置YARN资源队列:

    • 阿里云主账号。

    • 拥有AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。

    • 拥有空间管理员角色的子账号(RAM用户)

  • 修改YARN全局最大优先级

    通过DataWorks的EMR任务修改YARN优先级时,您需同时在EMR集群的yarn-site.xml文件中添加配置项yarn.cluster.max-application-priority,并设置较大的优先级来覆盖默认值0,否则DataWorks上配置的EMR任务优先级将不生效。

    说明

    修改配置后需重启YARN服务,该配置才会生效。

  • 目前仅支持对数据开发(DataStudio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。

前提条件

已注册EMR集群至DataWorks,详情请参见注册EMR集群至DataWorks

设置全局YARN资源队列

  1. 进入全局YARN资源队列配置页面。

    1. 进入管理中心页面。

      登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 单击左侧导航栏的集群管理,进入集群管理页面

    3. 找到目标E-MapReduce集群,单击YARN资源队列进入全局YARN资源队列配置页面。

      image.png

  2. 设置全局YARN资源队列。

    单击YARN资源队列页面右上角的编辑YARN资源队列,配置各模块的全局YARN资源队列及队列优先级。

    说明

    该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。

    参数

    描述

    资源队列

    配置各模块运行EMR任务时使用的YARN资源队列。您可进入EMR on ECS控制台获取EMR已创建的资源队列。

    全局配置是否优先

    勾选后,表示全局配置将比产品模块内配置优先生效;此时将按照全局配置的YARN资源队列统一运行任务。

    • 全局配置:即在管理中心 > 开源集群 > EMR集群YARN资源队列页面配置的YARN资源队列。

      说明

      目前仅支持对数据开发(DataStudio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。

    • 产品模块内配置:

      • 数据开发(DataStudio):对于Hive、Spark节点,可在节点编辑页面右侧导航栏的高级设置,通过queue参数设置单个节点任务的YARN资源队列。

      • 数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)

      • 其他产品模块:暂不支持在模块内单独设置YARN资源队列

相关文档

设置基线优先级与YARN队列优先级的映射关系