全部產品
Search
文件中心

Data Lake Analytics - Deprecated:建立和執行Spark作業

更新時間:Jul 06, 2024

本文介紹如何在資料湖分析控制台建立和執行Spark作業。

準備事項

  • 您需要在提交作業之前先建立虛擬叢集。

    說明

    建立虛擬叢集時注意選擇引擎類型為Spark

  • 如果您是子帳號登入,需要配置子帳號提交作業的許可權,具體請參考細粒度配置RAM子帳號許可權。由於SparkPi不需要訪問外部資料源,您只需要配置文檔中的前兩個步驟:”DLA子帳號關聯RAM子帳號“和”為子帳號授予訪問DLA的許可權“。

操作步驟

  1. 登入Data Lake Analytics管理主控台

  2. 頁面左上方,選擇DLA所在地區。

  3. 單擊左側導覽列中的Serverless Spark -> 作業管理

  4. 作業編輯頁面,單擊建立工作範本

  5. 建立工作範本頁面,按照頁面提示進行參數配置。

    參數名稱

    參數說明

    檔案名稱

    設定檔案或者檔案夾的名字。檔案名稱不區分大小寫。

    檔案類型

    可以設定為檔案或者檔案夾。

    父級

    設定檔案或者檔案夾的上層目錄。

    • 作業列表相當於根目錄,所有的作業都在作業列表下建立。

    • 您可以在作業列表下建立檔案夾,然後在檔案夾下建立作業;也可以直接在作業列表根目錄下建立作業。

    作業類型

    您可以選擇為SparkJob或SparkSQL。

    • SparkJob:Python/Java/Scala類型的Spark作業,需要填寫JSON配置作業。

    • SparkSQL:SQL類型的Spark配置, 通過set命令配置作業,詳情請就參見Spark SQL

    spark_01

  6. 完成上述參數配置後,單擊確定建立Spark作業。

  7. 建立Spark作業後,您可以根據作業配置指南編寫Spark作業。

  8. Spark作業編寫完成後,您可以進行以下操作:

    • 單擊儲存,儲存Spark作業,便於後續複用作業。

    • 單擊執行,執行Spark作業,作業列表即時顯示作業的執行狀態。

    • 單擊樣本,右側作業編輯框顯示DLA為您提供的SparkPi樣本作業,單擊執行,執行SparkPi樣本。Spark作業

  9. (可選)在作業列表中,查看作業狀態或對作業執行操作。作業列表

    配置

    說明

    作業ID

    Spark任務ID,由系統產生。

    狀態

    Spark任務的運行狀態。

    • STARTING:任務正在提交。

    • RUNNING:任務運行中。

    • SUCCESS:Spark作業執行成功。

    • DEAD:任務出錯,可通過查看日誌進行排錯處理。

    • KILLED:任務被主動終止。

    作業名稱

    建立Spark作業時設定的作業名稱,由name參數指定。

    提交時間

    當前Spark作業的提交時間。

    啟動時間

    當前Spark作業的啟動時間。

    更新時間

    當前Spark作業狀態發生變化時的更新時間。

    期間

    運行當前Spark作業所花費的時間。

    操作

    操作中有5個參數,分別為:

    • 日誌,當前作業的日誌,只擷取最新的300行日誌。

    • SparkUI,當前作業的Spark Job UI 地址,如果Token到期需要單擊重新整理擷取最新的地址。

    • 詳情,當前作業提交時填寫的JSON指令碼。

    • kill,終止當前的作業。

    • 歷史,查看當前作業的作業嘗試列表。

    • 監控,查看當前作業的監控資料。

  10. (可選)單擊作業嘗試列表,查看所有作業的作業嘗試。

    說明
    • 預設情況下,一個作業只會進行一次作業嘗試。如需進行多次作業嘗試,請配置作業重設參數。更多資訊,請參見。

    • 作業嘗試列表中,選中單個作業,單擊操作 > 歷史,可以查看該作業的嘗試列表。

    作業嘗試列表

附錄