Alibaba Cloudヘルスステータス
Alibaba Cloudリソースのヘルスステータスを追跡することを推奨します。 このようにして、できるだけ早い機会に例外を処理できます。 詳細については、Alibaba Cloudヘルスステータスをご参照ください。
[Alibaba Cloudヘルスステータス] ページで、異なるリージョンの各サービスのヘルスステータスを確認し、サービス例外に関するReally Simple Syndication (RSS) フィードをサブスクライブできます。
CloudMonitor
CloudMonitor Basicは、Platform for AI (PAI) のリアルタイムモニタリング機能を提供できる無料のサービスです。 CloudMonitor Basicを使用すると、クラウドリソースの運用ステータス、ECS (Elastic Compute Service) のリソース使用量、Webサイトのパフォーマンス、およびビジネスオペレーションの中断を追跡できます。
CloudMonitor Basicのモニタリング機能を使用するには、CloudMonitor Basic for PAIを有効にする必要があります。 詳細については、「クラウドサービスモニタリング」をご参照ください。
重要なメトリックのアラートを一度に有効にする
CloudMonitor Basicを使用すると、複数の重要なPAIメトリクスのアラートを同時に有効にし、アラートシステムを効率的に確立できます。 これにより、クラウドリソースの使用状況とビジネスの運用状況に関する包括的な洞察を得ることができます。 詳細については、「イニシアチブアラート機能の有効化」をご参照ください。
目的のメトリックのカスタムアラートの設定
カスタムダッシュボードを作成して、単一のプラットフォームで監視するすべてのメトリックを管理できます。 詳細については、「カスタムダッシュボードのモニタリングチャートの管理」をご参照ください。
電話、テキストメッセージ、電子メール、DingTalkチャットボット、Alibaba Cloudアプリなど、複数の通知方法を使用して、重要な通知を受信するように各メトリックのアラートルールを設定できます。
アラートブラックリストを作成して、特定のメトリックのアラートをブロックすることもできます。 詳細については、「ブラックリストポリシーの管理」をご参照ください。
クラウド設定
Cloud Configは、すべてのクラウドリソースの構成変更を監視し、クラウドインフラストラクチャの継続的なコンプライアンスを確保するのに役立つ無料の監査サービスです。
リソース構成変更の追跡
Cloud Configは、Alibaba CloudアカウントおよびAlibaba Cloudアカウントによって作成されたRAM (Resource Access Management) ユーザーの操作を監査できます。 デフォルトでは、設定の変更は10分ごとに記録されます。
MLPS 2.0のコンプライアンス事前チェックの有効化
Cloud Configは、MLPS (Multi-Level Protection Scheme) 2.0のベースラインに沿ったルールを使用して、クラウドリソース設定のコンプライアンスを評価します。 数回クリックするだけで、MLPS 2.0のコンプライアンス事前チェックを有効にできます。 システムは、リソースのコンプライアンスを自動的かつ継続的にチェックします。 事前チェックレポートをダウンロードして、検査機関に提出することもできます。
監査データをリアルタイムで照会および分析
リソースの設定変更履歴と非準拠イベントをSimple Log ServiceのLogstoreに送信できます。 これにより、監査データを一元的にクエリおよび分析できます。 詳細については、「Simple Log Serviceのログストアへのリソースデータの配信」をご参照ください。
ActionTrail
ActionTrail for PAIを有効にすると、PAIコンソールへのログインやクラウドリソースへのアクセスなど、Alibaba Cloudアカウントの操作を一元的に監視および記録できます。 これにより、レコードに基づいてセキュリティ分析、侵入検出、リソース変更の追跡、コンプライアンス監査を実行できます。
ActionTrailは、Alibaba cloud管理コンソールを使用し、API操作を呼び出し、開発者ツールを使用して、クラウドサービスアクセスのログを生成できます。 監査イベントの詳細については、「ECSの監査イベント」をご参照ください。
デフォルトでは、ActionTrailは過去90日間のイベントを追跡して保持します。 イベントを長期間保持する必要がある場合は、イベントをSimple Log Service LogstoreまたはObject Storage Service (OSS) バケットに送信するトレイルを作成します。 詳細については、「入門」をご参照ください。
イベントをSimple Log Service LogstoreまたはOSSバケットに送信するトレイルを作成した後、Simple Log ServiceまたはOSSコンソールでイベントを照会または分析できます。 詳細については、「Simple Log ServiceまたはOSSコンソールでのイベントの照会」をご参照ください。
過去のイベントを追跡する必要がある場合は、チケットを起票して必要な権限をリクエストしてください。
ワークスペース通知
PAIは、ワークスペースの通知メカニズムを提供します。 通知ルールを作成して、ディープラーニングコンテナ (DLC) ジョブおよびパイプラインジョブのステータスを監視したり、モデルバージョンの承認ステータスに基づいて関連イベントをトリガーしたりできます。 DingTalk、電話、メールなど、複数の通知方法で通知を受け取ることができます。 詳細については、「ワークスペース通知」をご参照ください。
Tensorboard
Machine Learning DesignerまたはDLCジョブ用のTensorboardを作成して、モデルトレーニングの分析レポートを視覚化して表示できます。 詳細については、以下のトピックをご参照ください。
Machine Learning Designer: TensorBoardを使用して分析レポートを視覚化します。
DLC: Tensorboard。