在DataWorks中,您可按照工作空间粒度指定各模块使用的YARN队列,后续各模块将默认使用该队列执行EMR任务。同时,可定义全局YARN资源队列优先级是否高于指定模块内配置的YARN资源队列优先级。本文为您介绍如何设置全局YARN资源队列。
背景信息
YARN是一个分布式的资源管理系统,是Hadoop的核心组件,在Hadoop集群中主要负责资源管理、调度运行及监控作业。关于EMR YARN的详情,请参见YARN调度器。
在DataWorks中,您可通过如下方式配置调度节点运行时使用的YARN资源队列:
方式一:配置全局YARN资源队列
设置工作空间级别某DataWorks功能模块运行EMR任务时使用哪个YARN资源队列,并定义此处配置的YARN资源队列优先级是否高于指定模块内配置的YARN资源队列。详情请参见设置全局YARN资源队列。
方式二:配置产品模块内YARN队列
数据开发(DataStudio):对于Hive、Spark节点,可在节点编辑页面右侧导航栏的高级设置,通过queue参数设置单个节点任务的YARN资源队列。
数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)。
其他产品模块:暂不支持在模块内单独设置YARN资源队列。
使用限制
仅以下角色可配置YARN资源队列:
阿里云主账号。
拥有AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。
拥有空间管理员角色的子账号(RAM用户)。
修改YARN全局最大优先级
通过DataWorks的EMR任务修改YARN优先级时,您需同时在EMR集群的
yarn-site.xml
文件中添加配置项yarn.cluster.max-application-priority
,并设置较大的优先级来覆盖默认值0
,否则DataWorks上配置的EMR任务优先级将不生效。说明修改配置后需重启YARN服务,该配置才会生效。
目前仅支持对数据开发(DataStudio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。
前提条件
已注册EMR集群至DataWorks,详情请参见注册EMR集群至DataWorks。
设置全局YARN资源队列
进入全局YARN资源队列配置页面。
进入管理中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的开源集群,进入集群管理页面。
找到目标E-MapReduce集群,单击YARN资源队列,进入全局YARN资源队列配置页面。
设置全局YARN资源队列。
单击YARN资源队列页面右上角的编辑YARN资源队列,配置各模块的全局YARN资源队列及队列优先级。
说明该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。
参数
描述
资源队列
配置各模块运行EMR任务时使用的YARN资源队列。您可进入EMR on ECS控制台获取EMR已创建的资源队列。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效;此时将按照全局配置的YARN资源队列统一运行任务。
全局配置:即在的YARN资源队列页面配置的YARN资源队列。
说明目前仅支持对数据开发(DataStudio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。
产品模块内配置:
数据开发(DataStudio):对于Hive、Spark节点,可在节点编辑页面右侧导航栏的高级设置,通过queue参数设置单个节点任务的YARN资源队列。
数据质量:可在EMR表的分区规则中,通过运行队列配置单个分区规则的YARN资源队列。详情请参见配置规则:按表(单表)。
其他产品模块:暂不支持在模块内单独设置YARN资源队列。