このトピックでは、Deep Learning Containers (DLC) が提供するサニティチェックの使用方法について説明します。
概要
Platform for AI (PAI) でDLCジョブを実行すると、次の問題が発生する可能性があります。
リソース障害により、モデルチェックポイントの読み込みやその他の初期化操作を実行した後、ジョブは失敗します。 ジョブを再度送信する前にトラブルシューティングする必要があります。 このプロセスにより、GPUリソースが無駄になります。
モデルのパフォーマンスは、ノードが遅いためにジョブが実行されているときに低下しますが、問題を迅速かつ効果的に見つけることは困難です。 また、便利で信頼性の高いベンチマークがないため、リソースグループ内のインスタンスのGPUコンピューティングパワーと通信パフォーマンスをテストすることも困難です。
上記の問題を処理するために、DLCは、分散トレーニングジョブの実行に使用されるコンピューティングリソースのヘルスステータスとパフォーマンスをチェックするサニティチェック機能を提供します。 DLCジョブを作成するときに、サニティチェックを有効にできます。 システムは、トレーニングに関連するリソースを検出し、障害のあるノードを自動的に分離し、バックグラウンドで自動化されたO&Mプロセスをトリガーします。 正気チェックは、トレーニングジョブの初期段階での失敗を効果的に減らし、ジョブの成功の可能性を高めます。 健全性チェックが完了した後、システムは、関連するGPUの計算能力および通信性能に関するテストレポートを生成する。 レポートを使用して、トレーニングのパフォーマンスを低下させる可能性のある潜在的なリスクを特定して特定し、問題を効率的に処理できます。
制限事項
サニティチェックは、中国 (Ulanqab) およびシンガポールリージョンのインテリジェントコンピューティングLINGJUNリソースで実行されるDLCジョブに対してのみ有効にできます。
0を超えるGPUを使用するPyTorchジョブに対してのみ、サニティチェックを有効にできます。
サニティチェックの有効化
PAIコンソールで健全性チェックを有効にする
PAIコンソールでDLCジョブを作成するときは、[フォールトトレランスと診断] セクションで [サニティチェック] を有効にし、関連するパラメーターを設定します。 詳細については、「トレーニングジョブの送信」をご参照ください。 サニティチェックを有効にしてトレーニングジョブを送信すると、システムはヘルスステータスとリソースの可用性を確認し、チェックレポートを提供します。
次の表に、主要なパラメーターを示します。
パラメーター | 説明 |
チェック時間 |
|
最大チェック期間 (分) | サニティチェックが実行される最大期間。 デフォルト値: 30分。 サニティチェックが指定された最大チェック時間よりも長い期間実行された場合、設定されたアクションがトリガーされます。 |
Timeoutアクション | サニティチェックがタイムアウトした後のジョブのステータスを指定します。
|
その他の設定 | このパラメーターはデフォルトで空となります。 |
チェック結果の表示
正気チェックステータス
DLCジョブは、サニティチェック中に次のいずれかのステータスにある可能性があります。
チェック: 計算能力の健全性チェックが進行中です。
Check Failed: 問題が検出された場合、またはチェックがタイムアウトした場合、サニティチェックは失敗します。
チェックの合格: ジョブがサニティチェックに合格すると、ジョブは実行ステータスになります。
サニティチェックの結果を表示
PAIコンソールで結果を表示
DLCジョブの詳細ページの [イベント] タブで、[正気チェック] をクリックしてチェック結果を表示します。