PAI AIMasterとLingjunのAIアシスタントは、例外や障害が発生したときにトレーニングジョブを復元するために使用される完全に自動化されたシステムを形成します。 LingjunのAIアシスタントがインストールされ、人工知能の機械学習プラットフォーム (PAI) のジョブモニタリングおよびリカバリ機能が有効になった後、システムは自動的に障害または例外に関する情報を報告し、トレーニングジョブが障害または異常になった場合に障害ノードを分離できます。 このようにして、手動の介入なしにトレーニングジョブをすばやく復元できます。 このトピックでは、LingjunのAIアシスタントを設定する方法について説明します。
前提条件
Container Service for Kubernetes (ACK) が有効化されたLingjunクラスターが作成されます。 詳細については、「ACKを有効にしたLingjunクラスターの作成」をご参照ください。
機能
LingjunのAIアシスタントをインストールし、サービスアカウントのリソースアクセス管理 (RAM) ロール (RRSA) 機能を使用して承認を完了した後、トレーニングジョブを送信するときにPAIのAIMaster自動フォールトトレランスおよびEasyCkpt機能を有効にする必要があります。 障害または例外が発生すると、AIアシスタントは、その基礎となるアラートシステムに基づいてPAIと自動的に対話し、障害または例外に関する情報を報告し、障害または例外が発生したフェーズに基づいて障害または例外を処理する方法を選択します。 LingjunのAIアシスタントは、次の機能を提供します。
例外の収集と報告: LingjunのAIアシスタントは、アラートシステムに基づいてPAIと自動的に対話します。
障害の分離: LingjunのAIアシスタントは、障害のあるノードを自動的に分離します。
例外処理: LingjunのAIアシスタントはPAIをトリガーしてチェックポイントを作成し、アラートが報告されたときにトレーニングジョブをすばやく復元します。
手順
ack-ai-installerコンポーネントをインストールします。
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターを見つけ、クラスターの名前をクリックします。 クラスターの詳細ページで、左側のナビゲーションウィンドウで を選択します。
[アドオン] ページで、[その他] タブをクリックします。 [その他] タブで、ack-ai-installerコンポーネントを見つけ、コンポーネントの右下隅にある [インストール] をクリックします。
表示されるメッセージで、情報を確認し、OK.
クラスターのRRSA機能を有効にします。
クラスターの詳細ページの左側のウィンドウで、[クラスター情報] をクリックします。
クラスターの詳細ページで、[基本情報] タブをクリックします。 [クラスター情報] セクションで、RRSA OIDCの右側にある [RRSAの有効化] をクリックします。 詳細については、「RRSAを使用して異なるポッドに異なるクラウドサービスへのアクセスを許可する」をご参照ください。
表示されたメッセージで、[OK] をクリックします。
ack-pod-identity-webhookコンポーネントをインストールします。 詳細については、「ack-pod-identity-webhook」をご参照ください。
aiph-ack-rrsa-roleという名前のRAMロールを作成します。
Alibaba CloudアカウントによってRAMコンソールにログインします。
左側のナビゲーションウィンドウで、.
ロールページでロールの作成をクリックします。
では、ロールの作成パネル、選択IdP[信頼できるエンティティ] を選択し、次へをクリックします。
では、ロールの設定ステップで、次の表に示すパラメーターを設定し、OKをクリックします。
パラメーター
説明
RAMロール名
RAMロール名フィールドにaiph-ack-rrsa-roleを入力します。
IdPタイプ
このパラメーターをOIDCに設定します。
IdPの選択
IDプロバイダー (IdP) を選択します。 IdPは、ack-rrsa-<cluster_id> 形式で命名される。 <cluster_id> は、クラスターのIDを示します。
条件
oidc:iss: デフォルト値を使用します。
oidc:aud: sts.aliyuncs.comを選択します。
oidc:sub: 条件演算子をStringEqualsに設定します。 値はsystem:serviceaccount:aiph-ops:aiph-manager形式です。
AliyunCSReadOnlyAccessポリシーをアタッチし、LingjunのAIアシスタントが前の手順で作成したRAMロールにAPI操作を呼び出すことを許可するカスタム権限を付与します。 次のサンプルコードは、LingjunのAIアシスタントがAPI操作を呼び出すことを許可するカスタム権限の例を示しています。 カスタムポリシーの作成方法の詳細については、「カスタムポリシーの作成」をご参照ください。 RAMロールに権限を付与する方法の詳細については、「RAMロールに権限を付与する」をご参照ください。
# Note: If you grant the following permission to the RAM role, the AI assistant of Lingjun is authorized to perform automated O&M operations on Lingjun nodes. { "Statement": [ { "Effect": "Allow", "Action": [ "eflo:*" ], "Resource": [ "acs:eflo:*" ] }, { "Effect": "Allow", "Action": "cms:DescribeSystemEventAttribute", "Resource": "acs:cms:*" } ], "Version": "1" }
次に何をすべきか
LingjunのAIアシスタントを設定した後、トレーニングジョブを送信するときに、PAIEasyCkpt機能を有効にする必要があります。 このようにして、障害または例外が発生した場合、システムはトレーニングジョブを迅速に復元できます。