障害の分離
Platform for AI (PAI) は、リージョンを複数のゾーンに分割します。 各ゾーンは、独自の電源とネットワークを持つ孤立したエリアです。
同じリージョンのゾーンは、低遅延の内部ネットワークを使用して接続されます。 あるゾーンのインシデントが別のゾーンの操作に影響を与えないようにするには、ゾーン間で障害の分離を有効にします。
エラスティックフォールトトレランス
PAIは、ディープラーニングコンテナ (DLC) ジョブの実行を容易にする弾性フォールトトレラントエンジンであるAIMasterを提供します。 DLCジョブにAIMasterを使用すると、AIMasterインスタンスが起動され、他のジョブインスタンスと同時に実行されます。 AIMasterインスタンスはジョブの進行状況を監視し、フォールトトレランスとリソース割り当てを管理します。
正気チェック
DLCのサニティチェック機能を使用すると、DLCジョブの実行に使用されるコンピューティングリソースのヘルスステータスとパフォーマンスを確認できます。 DLCジョブを作成するときに、サニティチェック機能を有効にできます。 サニティチェック機能を有効にすると、システムはジョブに関連するリソースを自動的に検査し、誤動作しているノードを隔離し、バックグラウンドで自動O&Mプロセスをトリガーします。 サニティチェック機能は、早い段階で失敗を減らし、ジョブの成功率を高めることができます。 健全性チェックが完了すると、システムは関連するGPUの計算能力と通信性能に関するテストレポートを提供します。 レポートを使用して、トレーニングパフォーマンスを損なう可能性のある潜在的なリスクを特定できます。これにより、トラブルシューティングの効率が向上します。 詳細については、「サニティチェック」をご参照ください。
インフラストラクチャのモニタリング
CloudMonitorを使用して、セキュリティ防御システムを構築および強化できます。 CloudMonitorは、PAIに次の機能を提供します。
PAIのElastic Algorithm Service (EAS) モジュールの推論モニタリング: 詳細については、「CloudMonitorでのServiceInstanceイベントの表示」をご参照ください。