クラウドネイティブ AI スイートは、ACK Pro マネージドクラスター、ACK Serverless クラスター (Pro 版)、および ACK Edge クラスター (Pro 版) にインストールできます。 クラスターのバージョンは 1.18 以降である必要があります。 このトピックでは、クラウドネイティブ AI スイートのインストール方法、およびクラウドネイティブ AI の運用コンソールと開発コンソールのインストールと設定方法について説明します。
前提条件
ACK Pro マネージドクラスター、ACK Serverless クラスター (Pro 版)、または ACK Edge クラスター (Pro 版) が作成されていること。 クラスターのバージョンは 1.18 以降である必要があります。 詳細については、「ACK Pro マネージドクラスターの作成」、「ACK Serverless Pro クラスターの作成」、および「ACK Edge Pro クラスターの作成」をご参照ください。
クラウドネイティブ AI 運用コンソールをインストールして設定するには、クラスターを作成するときに [コンポーネント設定] ページで [モニタリングプラグイン] と [Simple Log Service] を選択するか、既存のクラスターの [運用管理] ページで [Prometheus モニタリング] と [Logtail] コンポーネントをインストールする必要があります。 詳細については、「Alibaba Cloud Prometheus を使用したモニタリング」および「ACK クラスターからのコンテナログの収集」をご参照ください。
クラウドネイティブ AI スイートのデプロイ
ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、目的のクラスターを見つけて、その名前をクリックします。 左側のペインで、 を選択します。
[クラウドネイティブ AI スイート] ページで、[デプロイ] をクリックします。 デプロイページで、必要なコンポーネントを選択します。
次の表に、コンソールの設定、コンポーネント、およびさまざまなクラスタータイプでのコンポーネントのサポートを示します。
コンソールでの設定
コンポーネント設定
サポートされているクラスター
設定項目
説明
コンポーネント名と説明
名前空間
ACK Pro マネージドクラスター
ACK Serverless Pro クラスター
ACK Edge Pro クラスター
伸縮性
伸縮性コントローラー機能を有効にするかどうかを指定します。 詳細については、「Kubernetes でモデルトレーニングジョブを実行する」および「コンテナ化された伸縮自在な推論」をご参照ください。
ack-alibaba-cloud-metrics-adapter、Auto Scaling コンポーネント。
kube-system



データアクセスアクセラレーション
[Fluid] 機能を有効にするかどうかを指定します。 詳細については、「伸縮自在なデータセット」をご参照ください。
ack-fluid、データキャッシュアクセラレーションコンポーネント。
fluid-system



スケジューリング
[スケジューリングポリシー拡張 (バッチタスクスケジューリング、GPU 共有、トポロジー対応 GPU スケジューリング)] 機能を有効にするかどうかを指定します。 [高度な設定] をクリックしてパラメーターをカスタマイズします。
ack-ai-installer、スケジューリングコンポーネント。
kube-system



Kube Queue 機能を有効にするかどうかを指定します。 詳細については、「ack-kube-queue を使用して AI/ML ワークロードを管理する」をご参照ください。
ack-kube-queue、拡張 Kubernetes タスクキュースケジューリングコンポーネント。
kube-queue



エコシステムツール
Kubeflow、Arena: Arena コマンドラインインターフェイス (CLI) を使用するには、Arena を選択します。 Arena クライアントを別途インストールして設定する必要もあります。 インストール後、Arena CLI を使用してさまざまな Kubeflow トレーニングオペレーターを統合できます。 [高度な設定] をクリックしてパラメーターをカスタマイズします。
[Kube Queue]、[コンソール]、[ワークフロー] を選択すると、Arena が自動的に選択されます。 詳細については、「Arena クライアントの設定」をご参照ください。
ack-arena (エコシステムツール)、機械学習 CLI。
kube-system



コンソール: 軽量の Platform for AI (PAI) プラットフォームをデプロイします。 [高度な設定] をクリックしてパラメーターをカスタマイズします。
ack-pai、軽量の Platform for AI (PAI) プラットフォーム。 推奨。
このコンポーネントをインストールすると、PAI プラットフォームの深く最適化されたアルゴリズム、エンジン、ベストプラクティスを直接使用できます。 さらに、Data Science Workshop (DSW)、Deep Learning Containers (DLC)、Elastic Algorithm Service (EAS) などのサービスは、AI モデルの開発、トレーニング、推論に優れた伸縮性と効率性をもたらします。 これにより、トレーニングと推論のパフォーマンスが大幅に最適化され、AI 開発の障壁が低くなります。
pai-system



コンソール: AI スイートコンソール。
説明Alibaba Cloud が提供する AI コンソール (開発コンソールと O&M コンソールを含む) は、2025 年 1 月 22 日からホワイトリストに登録されたユーザーに提供されます。 公式 Web サイトの AI コンソール に関連するドキュメントは、ホワイトリストに登録されたユーザーにのみ適用されます。 この日より前に開発コンソールまたは O&M コンソールをすでにデプロイしている場合、使用には影響しません。 ホワイトリストに登録されていないユーザーは、オープンソースコミュニティの指示に従って AI コンソール をインストールおよび設定できます。 オープンソース設定の詳細については、「オープンソース AI コンソール」をご参照ください。
ack-ai-dashboard (エコシステムツール)、可視化された O&M コンソール。
kube-ai



ack-ai-dev-console (エコシステムツール)、ディープラーニング開発コンソール。
kube-ai



コンソールデータストレージ
[インタラクションモード] を [コンソール] に設定した後、[コンソールデータストレージ] を [プリインストールされた MySQL] または [ApsaraDB RDS] に設定します。 設定の詳細については、「クラウドネイティブ AI コンソールのインストールと設定」をご参照ください。
ack-mysql、MySQL データベースコンポーネント。
kube-ai



Kubeflow Pipelines
[Kubeflow Pipelines] を選択した後、[ワークフローデータストレージ] を [プリインストールされた MinIO] または [OSS] に設定できます。 設定の詳細については、「ワークフローのインストールと設定」をご参照ください。
ack-ai-pipeline (エコシステムツール)、エンドツーエンドの機械学習ワークフローを構築するためのプラットフォーム。
kube-ai



モニタリング
[Arena モニタリング] をインストールするかどうかを指定します。 詳細については、「クラウドネイティブ AI ダッシュボードの使用」をご参照ください。
ack-arena-exporter、クラスターモニタリングコンポーネント。
kube-ai



ページの下部にある [クラウドネイティブ AI スイートのデプロイ] をクリックします。 環境と依存関係のチェックが開始され、チェックに合格すると、選択したコンポーネントが自動的にデプロイされます。
コンポーネントがインストールされると、コンポーネントリストページで次の情報を表示できます。
現在のクラスターにインストールされているコンポーネントの名前やバージョンなどの情報を表示したり、[デプロイ] や [アンインストール] の操作を実行したりできます。
インストールされているコンポーネントの新しいバージョンが利用可能な場合は、[アップグレード] 操作を実行することもできます。
クラウドネイティブ AI 運用コンソール (ack-ai-dashboard) とクラウドネイティブ AI 開発コンソール (ack-ai-dev-console) コンポーネントをインストールすると、[クラウドネイティブ AI スイート] ページが表示されます。 ページの左上隅にある [運用コンソール] または [開発コンソール] をクリックして、対応するコンソールに移動できます。

インストールが完了すると、[クラウドネイティブ AI スイート] ページの左上隅に [運用コンソール] と [開発コンソール] ボタンがあります。 いずれかのボタンをクリックして、対応するコンソールに移動します。
クラウドネイティブ AI コンソールのインストールと設定
Alibaba Cloud が提供する AI コンソール (開発コンソールと運用コンソールを含む) は、2025 年 1 月 22 日からホワイトリストに登録されたユーザーのみが利用できます。 この日より前に開発コンソールまたは運用コンソールをデプロイした場合、使用には影響しません。 ホワイトリストに登録されていないユーザーは、オープンソースコミュニティから AI スイートコンソールをインストールして設定できます。 オープンソース設定の詳細については、「オープンソース AI コンソール」をご参照ください。
クラウドネイティブ AI スイートのデプロイページの [インタラクションメソッド] セクションで、[サンプルコンソール] を選択します。 [プロンプト] ダイアログボックスが表示されます。
カスタムポリシーを作成し、RAM ロールに権限を付与します。
カスタムポリシーを作成します。
RAM コンソールにログインし、左側のナビゲーションウィンドウで [権限管理] > [アクセスポリシー] を選択します。
[ポリシーの作成] をクリックします。
[スクリプトエディター] タブで、次のポリシー情報を追加し、[OK] をクリックします。 次に、名前テキストボックスに、
k8sWorkerRolePolicy-{ClusterID}形式でカスタムポリシーの名前を入力し、[OK] をクリックします。{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "cs:*", "log:GetProject", "log:GetLogStore", "log:GetConfig", "log:GetMachineGroup", "log:GetAppliedMachineGroups", "log:GetAppliedConfigs", "log:GetIndex", "log:GetSavedSearch", "log:GetDashboard", "log:GetJob", "ecs:DescribeInstances", "ecs:DescribeSpotPriceHistory", "ecs:DescribePrice", "eci:DescribeContainerGroups", "eci:DescribeContainerGroupPrice", "log:GetLogStoreLogs", "ims:CreateApplication", "ims:UpdateApplication", "ims:GetApplication", "ims:ListApplications", "ims:DeleteApplication", "ims:CreateAppSecret", "ims:GetAppSecret", "ims:ListAppSecretIds", "ims:ListUsers" ], "Resource": "*" } ] }
ターゲット ACK クラスターの RAM ロールに権限を付与します。
Resource Access Management (RAM) コンソールにログインします。 左側のナビゲーションウィンドウで、[ID 管理] > [ロール] を選択します。
検索ボックスに、
KubernetesWorkerRole-{ClusterID}形式でターゲットロール名を入力します。 ロールを見つけて、[操作] 列の [権限の追加] をクリックします。[権限の追加] パネルで、検索ボックスに作成したカスタムポリシーの名前を入力します。 ポリシー名は
k8sWorkerRolePolicy-{ClusterID}形式である必要があります。ポリシーを選択し、[承認の追加を確認] をクリックします。
ACK コンソールの [プロンプト] ダイアログボックスに戻り、[権限チェック] をクリックします。 権限付与が成功すると、ステータスが [承認済み] に変わり、[OK] ボタンが利用可能になります。 その後、ステップ 3 に進むことができます。

[運用コンソールアクセス方法] と [開発コンソールアクセス方法] を選択し、[OK] をクリックします。
サービスにアクセスするには、[プライベート IP]、[プライベートドメイン名]、または [パブリックドメイン名] を使用できます。
本番環境では、プライベート IP アドレスまたはプライベートドメイン名を使用します。
パブリックドメイン名の使用は、テスト目的でのみ推奨されます。 パブリックドメイン名を使用する場合は、パブリックドメイン名とクラスターの NGINX Ingress SLB インスタンスのパブリック IP アドレスとの間のマッピングをローカルホストファイルに追加する必要があります。
説明プライベートネットワーク経由でコンソールにアクセスする場合は、[プロンプト] ダイアログボックスで [プライベート IP] を選択します。
プライベートドメイン名またはプライベート IP アドレスを使用してコンソールにアクセスする方法の詳細については、「AI 運用コンソールへのアクセス」をご参照ください。
[コンソールデータストレージ] メソッドを選択します。
[サンプルコンソール] を選択すると、デプロイページの [インタラクションメソッド] セクションに [コンソールデータストレージ] オプションが表示されます。 その後、データストレージメソッドを選択できます。

クラスター組み込み MySQL
データストレージに Alibaba Cloud RDS を選択しない場合、デフォルトでクラスター内の組み込み MySQL データベースが使用されます。 安定性とサービスレベルアグリーメント (SLA) の懸念から、この方法はテスト目的でのみ推奨され、本番環境には適していません。 この方法では、コンポーネントがインストールされるたびに新しい課金対象ディスクが作成されます。 これらのディスクリソースを管理および解放する必要があります。
重要クラスターに障害が発生したり、ストレージが失われたりすると、データが失われる可能性があります。
クラウドネイティブ AI スイートは、ディスクの StorageClass を使用して、MySQL データベースの永続ストレージとしてディスクバックエンドを持つ PersistentVolumeClaim (PVC) を作成します。 ACK クラスターは、新しい 120 GB のディスクを作成してアタッチします。 このディスクは課金対象です。 このディスクのライフサイクルは ACK によって管理されません。 ディスクリソースを管理し、不要になった場合は削除する必要があります。 ディスクの解放方法の詳細については、「ディスクの解放」をご参照ください。
Alibaba Cloud RDS
説明RDS の使用時に接続エラーが発生した場合は、「インスタンス接続の失敗のトラブルシューティング」をご参照ください。
データストレージメソッドを変更する場合は、クラウドネイティブ AI スイートをアンインストールしてから再インストールする必要があります。 クラスターに
kubeai-rdsという名前の Secret が存在する場合は、kubectl を使用して削除します。
RDS インスタンスを購入し、データベースとアカウントを作成します。 詳細については、「ApsaraDB RDS のクイックスタート」をご参照ください。 RDS の課金の詳細については、「課金の概要」をご参照ください。
ページの下部にある [クラウドネイティブ AI スイートのデプロイ] をクリックします。
ターゲットクラスターの名前をクリックします。 ナビゲーションウィンドウで、[設定管理] > [シークレット] を選択します。
ページ上部の [名前空間] ドロップダウンリストから、
kube-aiを選択します。ページの右上隅にある [YAML から作成] をクリックします。
次の YAML テンプレートを入力して、
kubeai-rdsという名前の Secret を作成します。apiVersion: v1 kind: Secret metadata: name: kubeai-rds namespace: kube-ai type: Opaque stringData: MYSQL_HOST: "RDS URL" MYSQL_DB_NAME: "データベース名" MYSQL_USER: "データベースのユーザー名" MYSQL_PASSWORD: "データベースのパスワード"パラメーター
説明
name
シークレットの名前。
namespace
クラスターの名前空間の名前。
MYSQL_HOST
MYSQL_DB_NAME
MYSQL_USER
MYSQL_PASSWORD
ApsaraDB RDS for MySQL のパラメーター。 詳細については、「(非推奨、'ステップ 1' にリダイレクト) ApsaraDB RDS for MySQL インスタンスをすばやく作成する」および「(非推奨、'ステップ 1' にリダイレクト) データベースとアカウントを作成する」をご参照ください。
ワークフローのインストールと設定
ワークフローエンジンとして [Kubeflow Pipelines] を選択した場合は、[ワークフローデータストレージ] メソッドも選択する必要があります。

クラスター内部 MinIO
データストレージに Alibaba Cloud OSS を選択しない場合、デフォルトでクラスター内の組み込み MinIO が使用されます。 安定性と SLA の懸念から、この方法はテスト目的でのみ推奨され、本番環境には適していません。 この方法では、コンポーネントがインストールされるたびに新しい課金対象ディスクが作成されます。 これらのディスクリソースを管理および解放する必要があります。
クラスターに障害が発生したり、ストレージが失われたりすると、データが失われる可能性があります。
クラウドネイティブ AI スイートは、ディスクの StorageClass を使用して、MinIO の永続ストレージとしてディスクバックエンドを持つ PVC を作成します。 ACK クラスターは、新しい 20 GB のディスクを作成してアタッチします。 このディスクは課金対象です。 このディスクのライフサイクルは ACK によって管理されません。 ディスクリソースを管理し、不要になった場合は削除する必要があります。 ディスクの解放方法の詳細については、「ディスクの解放」をご参照ください。
Alibaba Cloud OSS
クラスターに kube-ai 名前空間が存在しない場合は、作成します。
kubectl create ns kube-aiクラウドネイティブ AI スイートから Kubeflow Pipelines をインストールする前に、Container Service コンソールに移動し、ターゲットクラスターの名前をクリックしてから、左側のナビゲーションウィンドウで [設定管理] > [シークレット] を選択します。
ページ上部の [名前空間] ドロップダウンリストから kube-ai を選択します。
ページの右上隅にある [YAML から作成] をクリックします。
次の YAML テンプレートを入力し、[作成] をクリックします。 クラスターは YAML ファイルを自動的にデプロイして、
kubeai-ossという名前の Secret を生成します。apiVersion: v1 kind: Secret metadata: name: kubeai-oss namespace: kube-ai type: Opaque stringData: ENDPOINT: "https://oss-cn-beijing.aliyuncs.com" ACCESS_KEY_ID: "****" ACCESS_KEY_SECRET: "****"パラメーター
説明
name
シークレットの名前。
namespace
クラスターの名前空間の名前。
説明namespace: kube-ai は、クラウドネイティブ AI スイートをデプロイするときに自動的に作成されます。 別途作成する必要はありません。
ENDPOINT
OSS のエンドポイント。 この例では、中国 (北京) リージョンのエンドポイントを使用しています。 エンドポイントの詳細については、「OSS リージョンとエンドポイント」をご参照ください。
ACCESS_KEY_ID
ACCESS_KEY_SECRET
アカウントの AccessKey ペア。 AccessKey ペアを取得するには、「AccessKey の作成」をご参照ください。
重要データセキュリティを確保するために、Resource Access Management (RAM) ユーザーの AccessKey (AK) を使用することを推奨します。 RAM ユーザーとしてログオンする前に、RAM ユーザーに
AliyunOSSFullAccess権限を付与する必要があります。Secret を作成した後、OSS コンソールで
mlpipeline-<clusterid>という名前のバケットが自動的に作成されるのを待ちます。 バケットの作成は、ワークフローデータストレージメソッドとして Alibaba Cloud OSS が正常に設定されたことを示します。 OSS の課金の詳細については、「課金の概要」をご参照ください。最後に、クラウドネイティブ AI スイートから Kubeflow Pipelines コンポーネントをインストールします。
