本文介紹如何在AI開發控制台提交一個Tensorflow訓練任務和定時任務。
前提條件
- 建立ACK Pro版叢集。
- ACK Pro版叢集已安裝雲原生AI套件的開發控制台和調度組件,且叢集Kubernetes版本不低於1.20。
- 叢集管理員在RAM控制台建立子帳號(即RAM使用者),並為該子帳號分配和關聯配額組。具體操作,請參見步驟一:為使用者配置配額組。
已配置訓練資料或訓練代碼。具體操作,請參見配置訓練資料和代碼。
提交Tensorflow訓練任務
- 登入開發控制台。具體操作,請參見步驟二:登入開發控制台。
在AI開發控制台的左側導覽列中,單擊提交任務。
在基本資料地區:
配置任務名稱、任務類型(預設值為TF單機)、命名空間、執行命令等。
重要命名空間只能選擇為叢集管理員為您分配的命名空間,其他選項可根據需要配置。
可選:開啟Tensorboard開關,可視化查看訓練作業。
可選:開啟定時任務開關,配置定時任務。
定時策略:標準的Crontab運算式。關於如何使用Crontab運算式,請參見how-use-cron-linux。
如果當前訓練任務尚未結束,定時任務的並行策略支援以下三種:
Allow:允許建立新的訓練任務。
Forbid:在訓練任務結束前,禁止建立新的任務。
Replace:建立一個新的訓練任務,替換當前未結束的任務。
記錄數量:叢集中會保留該定時任務建立Tensorflow訓練任務數量,超過該數量,會自動刪除建立時間最早的Tensorflow訓練任務。
在任務資源配置地區,配置模型訓練的執行個體數量和鏡像,以及訓練任務需要的CPU(核心數)(預設值為4)、記憶體(GB)(預設值為8 GB)、GPU(卡數)(預設值為0)。
在進階配置地區,配置K8s對象的中繼資料label、annotation和nodeSelection。
單擊提交任務。
在AI開發控制台的左側導覽列中,單擊工作清單,查看任務的名稱、執行狀況等資訊。