すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:CloudMonitorでのServiceInstanceイベントの表示

最終更新日:Jul 22, 2024

Elastic Algorithm Service (EAS) は、各EASサービスインスタンスのイベントのモニタリングに役立つように、CloudMonitorでServiceInstanceイベントタイプを定義します。 EASイベントコントローラーは、ServiceInstanceイベントをCloudMonitorにリアルタイムでプッシュします。 CloudMonitorコンソールで、またはAPI操作を呼び出して、ServiceInstanceイベントの表示、イベントのO&Mまたは監査の実行、イベントのアラートルールの設定を行うことができます。 このトピックでは、ServiceInstanceイベントを表示する方法、およびイベントのアラートルールを作成して有効にする方法について説明します。

ServiceInstanceイベントの表示

CloudMonitorコンソール

CloudMonitorコンソールでServiceInstanceイベントを表示するには、次の手順を実行します。

  1. CloudMonitorコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、イベントセンター > Systemイベント.

  3. [イベントモニタリング] タブで、製品選択ドロップダウンリストから [PAI] を選択し、[検索] をクリックしてEASのシステムイベントを表示します。 image

  4. 表示するシステムイベントを見つけて、[操作] 列の [詳細] をクリックします。

    イベントの詳細の例を次の図に示します。 image

    下表に、各パラメーターを説明します。

    パラメーター

    説明

    プロダクト

    サービスのコード。 たとえば、AI向け機械学習プラットフォーム (PAI) のコードは学習です。

    名前

    イベント名。 PAIシステムイベントの詳細については、[サポートされているServiceInstanceイベント] セクションの表の [イベント名] 列をご参照ください。

    レベル

    イベントの重大度。 有効な値:

    • INFO

    • WARN

    • CRITICAL

    ステータス

    イベントのステータス。 PAIシステムイベントのステータスについては、[サポートされているServiceInstanceイベント] セクションの表の [イベントステータス] 列をご参照ください。

    RegionId

    サービスのリージョンID。 たとえば、中国 (上海) リージョンのIDはcn-Shanghaiです。

    ResourceId

    リソースの ID です。 詳細については、「ポリシーの説明」をご参照ください。

    InstanceName

    サービスインスタンスの名前。

    時間

    イベントが発生した時刻。 タイムスタンプはUNIXの時刻形式に従います。 1970年1月1日木曜日00:00:00から経過したミリ秒数です。

    グループID

    EASサービスが属するCloudMonitorアプリケーショングループ。 デフォルトでは、このパラメーターは空です。

    コンテンツ

    イベントの内容。 値はJSON形式です。 詳細については、「Contentパラメーターのフィールド」をご参照ください。

    Contentパラメーターのフィールド

    項目

    説明

    serviceName

    インスタンスのサービス名。

    serviceId

    インスタンスのサービスID。

    serviceGroup

    インスタンスが属するサービスグループ。

    resourceType

    インスタンスが属するリソースグループのタイプ。 有効な値:

    • PublicResource: パブリックリソースグループ。

    • DedicatedResource: 専用リソースグループ。

    instanceType

    インスタンスタイプです。

    cpu

    インスタンスによって使用されるCPUの数。

    メモリ

    インスタンスのメモリー使用率 単位:MB。

    gpu

    インスタンスで使用されているGPUの数。

    gpuMemory

    インスタンスのGPUメモリ使用量。 単位は GB です。

    nvidiaName

    インスタンスで使用されるGPUの名前。

    ロール

    インスタンスのサービスロール。 有効な値:

    • キュー: キューサービス。

    • DataLoader: オフラインサービス。

    • 標準: 標準サービス。

    isBurst

    インスタンスのリソースグループに対してオートスケーリングを有効にするかどうかを指定します。 有効な値:

    • false

    • true

    isSpot

    インスタンスがプリエンプティブルインスタンスかどうかを指定します。 有効な値:

    • false

    • true

    callerUid

    EASサービスのデプロイに使用されるAlibaba CloudアカウントのUID。

    timestamp

    イベントが発生した時刻。 タイムスタンプはUTC形式です。

    restartCount

    インスタンスが再起動された回数。

    exitCode

    インスタンスの終了ステータスコード。 デフォルトでは、このパラメーターは空です。

    status

    インスタンスのステータス。 有効な値については、[サポートされているServiceInstanceイベント] セクションの表の [イベントステータス] 列をご参照ください。

    理由

    イベントが発生した理由。

    メッセージ

    イベントに関する情報。

API操作

APIを呼び出してServiceInstanceイベントを表示することもできます。 詳細については、「DescribeSystemEventAttribute」をご参照ください。

イベントトリガーアラートルールの作成と有効化

CloudMonitorコンソール

  1. システムイベントでトリガーされるアラートルールを作成します。 詳細については、「システムイベントでトリガーされるアラートルールの作成」をご参照ください。 次のパラメータに注意してください。

    • 製品タイプ: PAIを選択します。

    • イベントタイプ: [ServiceInstance] を選択します。 このパラメーターはServiceInstanceにのみ設定できます。 この値は、EASサービスインスタンスに関連するイベントのタイプを指定します。

    • イベントレベル: ビジネス要件に基づいて1つ以上の重要度レベルを選択します。

    • イベント名: 監視するイベントの名前を選択します。 使用可能な名前は、[付録] セクションの表の [イベント名] 列にリストされています。 1つ以上のイベント名を選択できます。

    • キーワードのフィルタリング: イベントのフィルタリングに使用するキーワードと条件を指定します。

    image

  2. システムイベントでトリガーされるアラートルールを有効にします。 詳細については、「システムイベントトリガーのアラートルールの有効化」をご参照ください。

API操作

APIを呼び出して、イベントトリガーのアラートルールを作成して有効にすることもできます。 詳細については、「システムイベントトリガーアラートルールの作成」および「システムイベントトリガーアラートルールの有効化」をご参照ください。

Appendix: サポートされるServiceInstanceイベント

次の表に、サービスインスタンスのライフサイクルに基づいてEASによって定義されるServiceInstanceイベントを示します。

イベントタイプ

イベント名

イベントレベル

イベントステータス

ServiceInstance

EAS:ServiceInstance:Running

INFO

Running

EAS:ServiceInstance:Pending

INFO

Pending

EAS:ServiceInstance:Completed

INFO

Completed

EAS:ServiceInstance:Terminating

INFO

Terminating

EAS:ServiceInstance:Terminated

INFO

Terminated

EAS:ServiceInstance:Unknown

WARN

Unknown

EAS:ServiceInstance:Evicted

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

CRITICAL

Error

EAS:ServiceInstance:Failed

CRITICAL

Failed