全部產品
Search
文件中心

Elastic High Performance Computing:通過控制台提交作業

更新時間:Jul 06, 2024

作業指提交到E-HPC叢集進行高效能運算的基本工作單元,包括Shell指令碼、可執行檔等,具體作業執行順序根據您設定的隊列以及調度器決定。E-HPC管理主控台提供了作業相關的提交作業、停止作業、查看作業狀態等功能,本文介紹如何使用E-HPC管理主控台提交作業。

前提條件

  • 叢集和叢集節點狀態都為運行中

  • 已建立使用者,具體操作,請參見系統管理使用者

  • 已準備好作業檔案。E-HPC支援多種方式匯入作業檔案:

    • 提前登入叢集,通過rsync、scp等遠程傳輸方式將作業匯入到叢集中。

    • 上傳作業資料到OSS,提交作業時選擇OSS Bucket中的作業檔案。

    • 選擇本地儲存的作業檔案或新增作業檔案。

操作步驟

  1. 登入彈性高效能運算控制台

  2. 在頂部功能表列左上方處,選擇地區。

  3. 在左側導覽列,選擇作業效能與效能管理>作業

  4. 作業頁面,選擇待提交作業的叢集。

  5. 單擊提交作業頁簽。

  6. 提交作業地區,完成作業參數配置。

    配置項

    描述

    作業提交模板

    您也可以選擇已配置的工作範本快速提交作業。更多資訊,請參見使用工作範本

    作業名

    該作業的名稱。如需自動下載解壓作業檔案,解壓目錄也以作業名命名。

    作業執行命令

    向調度器提交的作業執行命令,可以是指令檔(如/home/test目錄下的job.pbs),也可以是一段命令文本。有以下兩種情況:

    • 指令檔可執行,填寫相對路徑,如./job.pbs

    • 指令檔沒有可執行許可權,則需要填寫執行命令,如:/opt/mpi/bin/mpirun /home/test/job.pbs。如果是PBS調度器,還需要在命令前加--,如:--/opt/mpi/bin/mpirun /home/test/job.pbs

    調度器隊列

    在建立叢集時,若計算節點已加入了指定的隊列,則需要將作業提交到對應的指定隊列;若沒有指定,則預設將作業提交到調度器的預設隊列中。選擇的隊列應與計算節點相對應,否則作業會執行失敗。

    計算節點數

    用來運行此作業的計算節點數。

    任務數

    每個計算節點運行此作業使用的任務數,即進程數。

    最大記憶體

    每個計算節點運行此作業可使用的最大記憶體,為空白時不限制記憶體大小。

    最大已耗用時間

    作業最長已耗用時間,逾時作業將失敗,為空白時不限制已耗用時間。

    線程數

    每個任務所使用的線程數,為空白時線程數為1。

    GPU數

    每個計算節點運行此作業使用的GPU數。使用該參數時請確認計算節點為GPU執行個體。

    作業優先順序

    作業優先順序,取值範圍0~9,取值越大,優先順序越高。如果叢集的調度原則設定為根據優先順序調度,高優先順序的作業會被優先調度運行。

    在提交了多個作業時,對於需要優先執行的作業,您可以通過設定高優先順序來優先執行。

    啟動job array

    是否啟用調度器的job array功能。job array可自訂選擇執行作業的規則。

    作業隊列長度設定格式X-Y[:Z], 最小值X是第一個索引,最大值Y是最後一個索引,Z表示步長,例如2-7:2, 表示產生的job array包含編號為2,4,6的3個子作業,如果Z不指定的話,預設是1。

    後處理命令

    後處理命令在作業成功執行完成後執行,用於對作業結果做後續處理,如打包上傳OSS等。

    標準輸出路徑

    定義Linux系統的stderr/stdout輸出重新導向路徑,包含輸出檔案名。

    • stdout:標準檔案輸出路徑。

    • stderr:錯誤檔案輸出路徑。

    叢集使用者必須有該路徑的可寫入權限,預設按照調度器設定產生輸出檔案。

    錯誤輸出路徑

    作業變數

    傳遞到作業的運行時變數,可以在作業執行檔案中通過環境變數訪問。

  7. 上傳作業檔案到叢集中。

    • 使用OSS檔案

      E-HPC支援提交作業前置入作業檔案或在E-HPC控制台選擇OSS中的作業檔案。關於如何匯入作業檔案,請參見匯入OSS作業檔案到叢集中。在E-HPC控制台選擇OSS中的作業檔案如下所示:

      1. 使用OSS檔案地區,單擊選擇檔案,在彈出的選擇檔案對話方塊中,選擇作業檔案,單擊確定

      2. 如果作業檔案為zip格式、tar格式或者gzip格式的壓縮包,需開啟下載後解壓,並選擇解壓命令。

        說明

        OSS中的作業檔案或作業檔案壓縮包,都會在作業執行前下載到以作業名命名的目錄中,例如作業名為JobName,那麼作業檔案會被下載到/home/user/JobName目錄下,壓縮包會被下載並解壓到/home/user/JobName目錄下。

    • 編輯作業檔案

      1. 單擊作業檔案編輯頁簽。

      2. 作業檔案編輯地區,單擊瀏覽叢集檔案,輸入集群使用者名稱和密碼,即可以Workbench方式登入叢集。您可以根據業務需要,建立、編輯、刪除作業檔案。

  8. 返回至提交作業地區,單擊頁面右上方的提交作業,在彈出的對話方塊中輸入集群使用者名稱和密碼。將作業提交至叢集,開始執行。

執行結果

提交作業完成後,在作業列表頁即可查看已提交的作業。

單擊該作業操作列的詳情。在彈出的作業資訊面板頁,即可查看作業的詳細資料,包括作業名稱、作業ID、開始時間、最後更新時間、作業運行資訊等。