すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:CloudMonitor での EAS イベントの表示

最終更新日:Jun 28, 2025

Elastic Algorithm Service (EAS) は、CloudMonitor で 2 種類のイベント (サービスイベントと ServiceInstance イベント) を定義します。EAS イベントコントローラーは、両方のイベントをリアルタイムで CloudMonitor にプッシュします。CloudMonitor コンソールまたは API を使用して、イベントの表示、O&M 操作の実行、イベントの監査、またはイベントのアラート ルールの設定を行うことができます。

EAS イベントの表示

コンソールの使用

CloudMonitor コンソールで EAS イベントを表示するには、次の手順を実行します。

  1. Cloud Monitor コンソール にログインします。

  2. 左側のナビゲーションウィンドウで、[イベントセンター] > [システムイベント] を選択します。

  3. [イベント監視] タブで、製品ドロップダウンリストから [PAI] を選択し、[検索] をクリックします。

    image

  4. ターゲットイベントの [アクション] 列の [詳細] をクリックして、イベントの詳細を表示します。例:image

    パラメーター

    パラメーター

    説明

    製品

    サービスコード。たとえば、Platform for AI (PAI) のコードは learn です。

    名前

    イベント名。「サポートされている EAS イベント」の [名前] 列を参照してください。

    レベル

    イベントレベル。有効な値:

    • INFO

    • WARN

    • CRITICAL

    ステータス

    イベントステータス。「サポートされている EAS イベント」の [ステータス] 列を参照してください。

    RegionId

    サービスのリージョン ID。たとえば、中国 (上海) リージョンの ID は cn-shanghai です。

    ResourceId

    リソース ID。 ポリシーの説明 を参照してください。

    InstanceName

    サービス名またはサービスインスタンス名。

    時間

    イベントが発生した時刻 (UNIX ミリ秒タイムスタンプ)。

    GroupId

    EAS サービスが属する CloudMonitor アプリケーショングループ。デフォルトでは、このパラメーターは空です。

    コンテンツ

    イベントのコアコンテンツ。

    Content パラメーターのフィールド

    パラメーター

    説明

    serviceName

    インスタンスのサービス名。

    serviceId

    インスタンスのサービス ID。

    serviceGroup

    インスタンスが属するサービスグループ。

    resourceType

    インスタンスが属するリソースグループのタイプ。有効な値:

    • PublicResource:パブリックリソースグループ。

    • DedicatedResource:専用リソースグループ。

    instanceType

    インスタンスタイプ。

    cpu

    インスタンスが使用する CPU の数。

    memory

    インスタンスのメモリ使用量。単位:MB。

    gpu

    インスタンスが使用する GPU の数。

    gpuMemory

    インスタンスの GPU メモリ使用量。単位:GB。

    nvidiaName

    インスタンスが使用する GPU の名前。

    role

    インスタンスのサービスロール。有効な値:

    • Queue:キューサービス。

    • DataLoader:オフラインサービス。

    • Standard:標準サービス。

    isBurst

    インスタンスのリソースグループで自動スケーリングが有効になっているかどうかを指定します。有効な値:

    • false

    • true

    isSpot

    インスタンスがプリエンティブルインスタンスかどうかを指定します。有効な値:

    • false

    • true

    callerUid

    EAS サービスのデプロイに使用される Alibaba Cloud アカウントの UID。

    timestamp

    コンテナの最後の起動時刻。

    restartCount

    インスタンスが再起動された回数。

    exitCode

    インスタンスの終了ステータスコード。デフォルトでは、このパラメーターは空です。

    status

    インスタンスのステータス。有効な値については、「サポートされている EAS イベント」の [ステータス] 列を参照してください。

    reason

    イベントが発生した理由。

    message

    イベントメッセージ。

API の使用

詳細については、「DescribeSystemEventAttribute を呼び出して EAS イベントを表示する」をご参照ください。

アラート ルールの作成と有効化

コンソールの使用

  1. システムイベントによってトリガーされるアラート ルールを作成する。次の主要パラメーターを設定します。

    • [製品タイプ][PAI] を選択します。

    • [イベントタイプ][ServiceInstance] または [Service] を選択します。

    • [イベントレベル]:1 つ以上のイベントレベルを選択します。

    • [イベント名]:監視する 1 つ以上のイベント名を選択します。これは、「サポートされている EAS イベント」の [名前] 列です。

    • [キーワードフィルタリング]:サブスクライブされたイベントをフィルタリングするために、イベント情報内のコンテンツと一致するキーワードを設定します。

    image

  2. システムイベントによってトリガーされるアラートのコールバックを設定する (旧)

API の使用

API を使用して、イベントによってトリガーされるアラート ルールを作成 し、ルールを有効にする

よくある質問

サービスインスタンスとは、推論サービスまたはポッドインスタンスのことですか?

サービスイベントタイプは、サービスレベルのイベントを表します。ServiceInstance イベントタイプは、サービスインスタンスレベルのイベントを表します。このコンテキストでは、サービスインスタンスはポッドインスタンスを指します。

付録:サポートされている EAS イベント

EAS は、以下のように サービスレベルのイベントとサービスインスタンスレベルのイベント を定義します。

タイプ

名前

イベントレベル

イベントステータス

ServiceInstance

EAS:ServiceInstance:Running

INFO

Running

EAS:ServiceInstance:Pending

INFO

Pending

EAS:ServiceInstance:Completed

INFO

Completed

EAS:ServiceInstance:Terminating

INFO

Terminating

EAS:ServiceInstance:Terminated

INFO

Terminated

EAS:ServiceInstance:Unknown

WARN

Unknown

EAS:ServiceInstance:Evicted

WARN

Evicted

EAS:ServiceInstance:ErrImagePull

WARN

ErrImagePull

EAS:ServiceInstance:ImagePullBackOff

WARN

ImagePullBackOff

EAS:ServiceInstance:CrashLoopBackOff

CRITICAL

CrashLoopBackOff

EAS:ServiceInstance:Error

CRITICAL

Error

EAS:ServiceInstance:Failed

CRITICAL

Failed

EAS:ServiceInstance:SpotToBeReleased

WARN

SpotToBeReleased

Service

EAS:Service:ReplicasChanged

INFO

ReplicasChanged

EAS:Service:StatusChanged

INFO

StatusChanged

EAS:Service:Unavailable

CRITICAL

Unavailable

EAS:Service:UpdateFailed

CRITICAL

UpdateFailed