作業指提交到E-HPC叢集進行高效能運算的基本工作單元,包括Shell指令碼、可執行檔等,具體作業執行順序根據您設定的隊列以及調度器決定。E-HPC管理主控台提供了作業相關的提交作業、停止作業、查看作業狀態等功能,本文介紹如何使用E-HPC管理主控台提交作業。
前提條件
叢集和叢集節點狀態都為運行中。
已建立使用者,具體操作,請參見系統管理使用者。
已準備好作業檔案。E-HPC支援多種方式匯入作業檔案:
提前登入叢集,通過rsync、scp等遠程傳輸方式將作業匯入到叢集中。
上傳作業資料到OSS,提交作業時選擇OSS Bucket中的作業檔案。
選擇本地儲存的作業檔案或新增作業檔案。
操作步驟
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,選擇作業效能與效能管理>作業。
在作業頁面,選擇待提交作業的叢集。
單擊提交作業頁簽。
在提交作業地區,完成作業參數配置。
配置項
描述
作業提交模板
您也可以選擇已配置的工作範本快速提交作業。更多資訊,請參見使用工作範本。
作業名
該作業的名稱。如需自動下載解壓作業檔案,解壓目錄也以作業名命名。
作業執行命令
向調度器提交的作業執行命令,可以是指令檔(如/home/test目錄下的job.pbs),也可以是一段命令文本。有以下兩種情況:
指令檔可執行,填寫相對路徑,如
./job.pbs
。指令檔沒有可執行許可權,則需要填寫執行命令,如:
/opt/mpi/bin/mpirun /home/test/job.pbs
。如果是PBS調度器,還需要在命令前加--
,如:--/opt/mpi/bin/mpirun /home/test/job.pbs
。
調度器隊列
在建立叢集時,若計算節點已加入了指定的隊列,則需要將作業提交到對應的指定隊列;若沒有指定,則預設將作業提交到調度器的預設隊列中。選擇的隊列應與計算節點相對應,否則作業會執行失敗。
計算節點數
用來運行此作業的計算節點數。
任務數
每個計算節點運行此作業使用的任務數,即進程數。
最大記憶體
每個計算節點運行此作業可使用的最大記憶體,為空白時不限制記憶體大小。
最大已耗用時間
作業最長已耗用時間,逾時作業將失敗,為空白時不限制已耗用時間。
線程數
每個任務所使用的線程數,為空白時線程數為1。
GPU數
每個計算節點運行此作業使用的GPU數。使用該參數時請確認計算節點為GPU執行個體。
作業優先順序
作業優先順序,取值範圍0~9,取值越大,優先順序越高。如果叢集的調度原則設定為根據優先順序調度,高優先順序的作業會被優先調度運行。
在提交了多個作業時,對於需要優先執行的作業,您可以通過設定高優先順序來優先執行。
啟動job array
是否啟用調度器的job array功能。job array可自訂選擇執行作業的規則。
作業隊列長度設定格式X-Y[:Z], 最小值X是第一個索引,最大值Y是最後一個索引,Z表示步長,例如2-7:2, 表示產生的job array包含編號為2,4,6的3個子作業,如果Z不指定的話,預設是1。
後處理命令
後處理命令在作業成功執行完成後執行,用於對作業結果做後續處理,如打包上傳OSS等。
標準輸出路徑
定義Linux系統的stderr/stdout輸出重新導向路徑,包含輸出檔案名。
stdout:標準檔案輸出路徑。
stderr:錯誤檔案輸出路徑。
叢集使用者必須有該路徑的可寫入權限,預設按照調度器設定產生輸出檔案。
錯誤輸出路徑
作業變數
傳遞到作業的運行時變數,可以在作業執行檔案中通過環境變數訪問。
上傳作業檔案到叢集中。
使用OSS檔案
E-HPC支援提交作業前置入作業檔案或在E-HPC控制台選擇OSS中的作業檔案。關於如何匯入作業檔案,請參見匯入OSS作業檔案到叢集中。在E-HPC控制台選擇OSS中的作業檔案如下所示:
在使用OSS檔案地區,單擊選擇檔案,在彈出的選擇檔案對話方塊中,選擇作業檔案,單擊確定。
如果作業檔案為zip格式、tar格式或者gzip格式的壓縮包,需開啟下載後解壓,並選擇解壓命令。
說明OSS中的作業檔案或作業檔案壓縮包,都會在作業執行前下載到以作業名命名的目錄中,例如作業名為JobName,那麼作業檔案會被下載到/home/user/JobName目錄下,壓縮包會被下載並解壓到/home/user/JobName目錄下。
編輯作業檔案
單擊作業檔案編輯頁簽。
在作業檔案編輯地區,單擊瀏覽叢集檔案,輸入集群使用者名稱和密碼,即可以Workbench方式登入叢集。您可以根據業務需要,建立、編輯、刪除作業檔案。
返回至提交作業地區,單擊頁面右上方的提交作業,在彈出的對話方塊中輸入集群使用者名稱和密碼。將作業提交至叢集,開始執行。
執行結果
提交作業完成後,在作業列表頁即可查看已提交的作業。
單擊該作業操作列的詳情。在彈出的作業資訊面板頁,即可查看作業的詳細資料,包括作業名稱、作業ID、開始時間、最後更新時間、作業運行資訊等。