在DataWorks中,您可按照工作空間粒度指定各模組使用的YARN隊列,後續各模組將預設使用該隊列執行EMR任務。同時,可定義全域YARN資源隊列優先順序是否高於指定模組內配置的YARN資源隊列優先順序。本文為您介紹如何設定全域YARN資源隊列。
背景資訊
YARN是一個分布式的資源管理系統,是Hadoop的核心組件,在Hadoop叢集中主要負責資源管理、調度運行及監控作業。關於EMR YARN的詳情,請參見YARN調度器。
在DataWorks中,您可通過如下方式配置調度節點運行時使用的YARN資源隊列:
方式一:配置全域YARN資源隊列
設定工作空間層級某DataWorks功能模組運行EMR任務時使用哪個YARN資源隊列,並定義此處配置的YARN資源隊列優先順序是否高於指定模組內配置的YARN資源隊列。詳情請參見設定全域YARN資源隊列。
方式二:配置產品模組內YARN隊列
資料開發(DataStudio):對於Hive、Spark節點,可在節點編輯頁面右側導覽列的進階設定,通過queue參數設定單個節點任務的YARN資源隊列。
資料品質:可在EMR表的分區規則中,通過運行隊列配置單個分區規則的YARN資源隊列。詳情請參見配置規則:按表(單表)。
其他產品模組:暫不支援在模組內單獨設定YARN資源隊列。
使用限制
僅以下角色可配置YARN資源隊列:
阿里雲主帳號。
擁有AliyunDataWorksFullAccess許可權的子帳號(RAM使用者)或RAM角色。
擁有空間管理員角色的子帳號(RAM使用者)。
修改YARN全域最大優先順序
通過DataWorks的EMR任務修改YARN優先順序時,您需同時在EMR叢集的
yarn-site.xml
檔案中添加配置項yarn.cluster.max-application-priority
,並設定較大的優先順序來覆蓋預設值0
,否則DataWorks上配置的EMR任務優先順序將不生效。說明修改配置後需重啟YARN服務,該配置才會生效。
目前僅支援對資料開發(DataStudio)、資料品質、資料分析、營運中心模組設定全域YARN資源隊列。
前提條件
登入EMR叢集至DataWorks,詳情請參見註冊EMR叢集至DataWorks。
設定全域YARN資源隊列
進入全域YARN資源隊列配置頁面。
進入管理中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心。
單擊左側導覽列的開源叢集,進入叢集管理頁面。
找到目標E-MapReduce叢集,單擊YARN資源隊列,進入全域YARN資源隊列配置頁面。
設定全域YARN資源隊列。
單擊YARN資源隊列頁面右上方的編輯YARN資源隊列,配置各模組的全域YARN資源隊列及隊列優先順序。
說明該配置為工作空間全域配置,請在配置前確認所使用的工作空間是否正確。
參數
描述
資源隊列
配置各模組運行EMR任務時使用的YARN資源隊列。您可進入EMR on ECS控制台擷取EMR已建立的資源隊列。
全域配置是否優先
勾選後,表示全域配置將比產品模組內配置優先生效;此時將按照全域配置的YARN資源隊列統一運行任務。
全域配置:即在的YARN資源隊列頁面配置的YARN資源隊列。
說明目前僅支援對資料開發(DataStudio)、資料品質、資料分析、營運中心模組設定全域YARN資源隊列。
產品模組內配置:
資料開發(DataStudio):對於Hive、Spark節點,可在節點編輯頁面右側導覽列的進階設定,通過queue參數設定單個節點任務的YARN資源隊列。
資料品質:可在EMR表的分區規則中,通過運行隊列配置單個分區規則的YARN資源隊列。詳情請參見配置規則:按表(單表)。
其他產品模組:暫不支援在模組內單獨設定YARN資源隊列。