すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:正気チェック

最終更新日:Nov 14, 2024

このトピックでは、Deep Learning Containers (DLC) が提供するサニティチェックの使用方法について説明します。

概要

Platform for AI (PAI) でDLCジョブを実行すると、次の問題が発生する可能性があります。

  • リソース障害により、モデルチェックポイントの読み込みやその他の初期化操作を実行した後、ジョブは失敗します。 ジョブを再度送信する前にトラブルシューティングする必要があります。 このプロセスにより、GPUリソースが無駄になります。

  • モデルのパフォーマンスは、ノードが遅いためにジョブが実行されているときに低下しますが、問題を迅速かつ効果的に見つけることは困難です。 また、便利で信頼性の高いベンチマークがないため、リソースグループ内のインスタンスのGPUコンピューティングパワーと通信パフォーマンスをテストすることも困難です。

上記の問題を処理するために、DLCは、分散トレーニングジョブの実行に使用されるコンピューティングリソースのヘルスステータスとパフォーマンスをチェックするサニティチェック機能を提供します。 DLCジョブを作成するときに、サニティチェックを有効にできます。 システムは、トレーニングに関連するリソースを検出し、障害のあるノードを自動的に分離し、バックグラウンドで自動化されたO&Mプロセスをトリガーします。 正気チェックは、トレーニングジョブの初期段階での失敗を効果的に減らし、ジョブの成功の可能性を高めます。 健全性チェックが完了した後、システムは、関連するGPUの計算能力および通信性能に関するテストレポートを生成する。 レポートを使用して、トレーニングのパフォーマンスを低下させる可能性のある潜在的なリスクを特定して特定し、問題を効率的に処理できます。

制限事項

  • サニティチェックは、中国 (Ulanqab) およびシンガポールリージョンのインテリジェントコンピューティングLINGJUNリソースで実行されるDLCジョブに対してのみ有効にできます。

  • 0を超えるGPUを使用するPyTorchジョブに対してのみ、サニティチェックを有効にできます。

サニティチェックの有効化

PAIコンソールで健全性チェックを有効にする

PAIコンソールでDLCジョブを作成するときは、[フォールトトレランスと診断] セクションで [サニティチェック] を有効にし、関連するパラメーターを設定します。 詳細については、「トレーニングジョブの送信」をご参照ください。 サニティチェックを有効にしてトレーニングジョブを送信すると、システムはヘルスステータスとリソースの可用性を確認し、チェックレポートを提供します。

image.png

次の表に、主要なパラメーターを示します。

パラメーター

説明

チェック時間

  • ジョブの実行前: ジョブがリソースを取得した後、システムはコンピューティングパワーのヘルスステータスを確認し、ジョブを実行します。 デフォルト設定です。

  • フォールトトレランス発生後: システムが失敗したジョブを再開した後、システムは最初に健全性チェックを実行します。

    説明

    このオプションは、自動フォールトトレランス機能を有効にした場合に使用できます。

最大チェック期間 (分)

サニティチェックが実行される最大期間。 デフォルト値: 30分。 サニティチェックが指定された最大チェック時間よりも長い期間実行された場合、設定されたアクションがトリガーされます。

Timeoutアクション

サニティチェックがタイムアウトした後のジョブのステータスを指定します。

  • ジョブの停止 (デフォルト): システムはジョブを停止します。 ジョブのステータスが [Check Failed] に変わります。

  • Suspend Job: システムはジョブを中断します。 ジョブは [チェック] 状態のままで、次の操作で手動による介入またはシステムの指示を待ちます。

その他の設定

このパラメーターはデフォルトで空となります。

チェック結果の表示

正気チェックステータス

DLCジョブは、サニティチェック中に次のいずれかのステータスにある可能性があります。

  • チェック: 計算能力の健全性チェックが進行中です。

  • Check Failed: 問題が検出された場合、またはチェックがタイムアウトした場合、サニティチェックは失敗します。

  • チェックの合格: ジョブがサニティチェックに合格すると、ジョブは実行ステータスになります。

サニティチェックの結果を表示

PAIコンソールで結果を表示

DLCジョブの詳細ページの [イベント] タブで、[正気チェック] をクリックしてチェック結果を表示します。

截屏2024-01-03 18.22.25.png

イベントルールの設定

イベント通知ルールは、PAIワークスペースの [イベント] タブで作成できます。 [イベントタイプ][DLCジョブ] および [自動フォールトトレランス] に設定します。 その他のパラメーターの詳細については、「通知ルールの作成」をご参照ください。 ジョブがサニティチェックに失敗した場合、システムは通知を送信します。

説明

通知の設定の詳細については、「ワークスペース通知」をご参照ください。