全部產品
Search
文件中心

DataWorks:設定全域Spark參數

更新時間:Jun 19, 2024

在DataWorks中,您可按照工作空間粒度指定各模組使用的SPARK參數,後續各模組將預設使用對應SPARK參數執行任務。您可參考Spark官方文檔自訂全域Spark參數,並配置全域Spark參數的優先順序是否高於指定模組內(資料開發、資料分析、營運中心)的SPARK參數。本文為您介紹如何設定全域Spark參數。

背景資訊

Apache Spark是用於進行大規模資料分析的引擎。在DataWorks中,您可通過如下方式配置調度節點運行時使用的Spark參數:

  • 方式一:配置全域Spark參數

    設定工作空間層級某DataWorks功能模組運行EMR任務時使用哪個Spark參數,並定義此處配置的Spark參數優先順序是否高於指定模組內配置的Spark參數。詳情請參見設定全域Spark參數

  • 方式二:配置產品模組內Spark參數

    • 資料開發(DataStudio):對於Hive、Spark節點,可在節點編輯頁面右側導覽列的進階設定,設定單個節點任務設定Spark屬性。

    • 其他產品模組:暫不支援在模組內單獨設定Spark屬性。

使用限制

  • 僅以下角色可配置全域Spark參數:

    • 阿里雲主帳號。

    • 擁有AliyunDataWorksFullAccess許可權的子帳號(RAM使用者)或RAM角色。

    • 擁有空間管理員角色的子帳號(RAM使用者)

  • Spark參數僅針對EMR Spark節點EMR Spark SQL節點EMR Spark Streaming節點生效。

  • 您可在DataWorks的管理中心阿里雲E-MapReduce控制台中更新Spark相關配置,若相同Spark參數在兩者中的配置不同,則通過DataWorks提交的任務將採用DataWorks管理中心中的配置。

  • 目前僅支援對資料開發(DataStudio)、資料品質、資料分析、營運中心模組設定全域Spark參數。

前提條件

登入EMR叢集至DataWorks,詳情請參見註冊EMR叢集至DataWorks

設定全域Spark參數

  1. 進入全域Spark參數配置頁面。

    1. 進入管理中心頁面。

      登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 單擊左側導覽列的開源叢集,進入叢集管理頁面

    3. 找到目標E-MapReduce叢集,單擊SPARK參數進入全域SPARK參數配置頁面。

      image.png

  2. 設定全域Spark參數。

    單擊Spark參數頁面右上方的編輯SPARK參數,配置各模組的全域SPARK參數及優先順序。

    說明

    該配置為工作空間全域配置,請在配置前確認所使用的工作空間是否正確。

    參數

    步驟

    Spark屬性

    配置各模組運行EMR任務時使用的Spark屬性。您可參考Spark ConfigurationsSpark Configurations on Kubernetes配置。

    全域配置是否優先

    勾選後,表示全域配置將比產品模組內配置優先生效;此時將按照全域配置的Spark屬性來統一運行任務。

    • 全域配置:表示在管理中心 > 開源叢集 > EMR叢集SPARK參數頁面配置的Spark屬性。

      說明

      目前僅支援對資料開發(DataStudio)、資料品質、資料分析、營運中心模組設定全域Spark參數。

    • 產品模組內配置:

      • 資料開發(DataStudio):對於Hive、Spark節點,可在節點編輯頁面右側導覽列的進階設定,設定單個節點任務設定Spark屬性。

      • 其他產品模組:暫不支援在模組內單獨設定Spark屬性。