全部產品
Search
文件中心

Container Service for Kubernetes:提交Tensorflow訓練任務和定時任務

更新時間:Jun 19, 2024

本文介紹如何在AI開發控制台提交一個Tensorflow訓練任務和定時任務。

前提條件

提交Tensorflow訓練任務

  1. 登入開發控制台。具體操作,請參見步驟二:登入開發控制台
  2. 在AI開發控制台的左側導覽列中,單擊提交任務

  3. 基本資料地區:

    • 配置任務名稱任務類型(預設值為TF單機)、命名空間執行命令等。

      重要

      命名空間只能選擇為叢集管理員為您分配的命名空間,其他選項可根據需要配置。

    • 可選:開啟Tensorboard開關,可視化查看訓練作業。

    • 可選:開啟定時任務開關,配置定時任務。

      • 定時策略:標準的Crontab運算式。關於如何使用Crontab運算式,請參見how-use-cron-linux

      • 如果當前訓練任務尚未結束,定時任務的並行策略支援以下三種:

        • Allow:允許建立新的訓練任務。

        • Forbid:在訓練任務結束前,禁止建立新的任務。

        • Replace:建立一個新的訓練任務,替換當前未結束的任務。

      • 記錄數量:叢集中會保留該定時任務建立Tensorflow訓練任務數量,超過該數量,會自動刪除建立時間最早的Tensorflow訓練任務。

  4. 任務資源配置地區,配置模型訓練的執行個體數量鏡像,以及訓練任務需要的CPU(核心數)(預設值為4)、記憶體(GB)(預設值為8 GB)、GPU(卡數)(預設值為0)。

  5. 進階配置地區,配置K8s對象的中繼資料labelannotationnodeSelection

  6. 單擊提交任務

  7. 在AI開發控制台的左側導覽列中,單擊工作清單,查看任務的名稱、執行狀況等資訊。