すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:AI スイートのインストール

最終更新日:Nov 09, 2025

クラウドネイティブ AI スイートは、ACK Pro マネージドクラスター、ACK Serverless クラスター (Pro 版)、および ACK Edge クラスター (Pro 版) にインストールできます。 クラスターのバージョンは 1.18 以降である必要があります。 このトピックでは、クラウドネイティブ AI スイートのインストール方法、およびクラウドネイティブ AI の運用コンソールと開発コンソールのインストールと設定方法について説明します。

前提条件

クラウドネイティブ AI スイートのデプロイ

  1. ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけて、その名前をクリックします。 左側のペインで、[アプリケーション] > [クラウドネイティブ AI スイート] を選択します。

  3. [クラウドネイティブ AI スイート] ページで、[デプロイ] をクリックします。 デプロイページで、必要なコンポーネントを選択します。

    次の表に、コンソールの設定、コンポーネント、およびさまざまなクラスタータイプでのコンポーネントのサポートを示します。

    コンソールでの設定

    コンポーネント設定

    サポートされているクラスター

    設定項目

    説明

    コンポーネント名と説明

    名前空間

    ACK Pro マネージドクラスター

    ACK Serverless Pro クラスター

    ACK Edge Pro クラスター

    伸縮性

    伸縮性コントローラー機能を有効にするかどうかを指定します。 詳細については、「Kubernetes でモデルトレーニングジョブを実行する」および「コンテナ化された伸縮自在な推論」をご参照ください。

    ack-alibaba-cloud-metrics-adapter、Auto Scaling コンポーネント。

    kube-system

    对

    错

    对

    データアクセスアクセラレーション

    [Fluid] 機能を有効にするかどうかを指定します。 詳細については、「伸縮自在なデータセット」をご参照ください。

    ack-fluid、データキャッシュアクセラレーションコンポーネント。

    fluid-system

    对

    对

    对

    スケジューリング

    [スケジューリングポリシー拡張 (バッチタスクスケジューリング、GPU 共有、トポロジー対応 GPU スケジューリング)] 機能を有効にするかどうかを指定します。 [高度な設定] をクリックしてパラメーターをカスタマイズします。

    ack-ai-installer、スケジューリングコンポーネント。

    kube-system

    对

    错

    对

    Kube Queue 機能を有効にするかどうかを指定します。 詳細については、「ack-kube-queue を使用して AI/ML ワークロードを管理する」をご参照ください。

    ack-kube-queue、拡張 Kubernetes タスクキュースケジューリングコンポーネント。

    kube-queue

    对

    对

    对

    エコシステムツール

    Kubeflow、Arena: Arena コマンドラインインターフェイス (CLI) を使用するには、Arena を選択します。 Arena クライアントを別途インストールして設定する必要もあります。 インストール後、Arena CLI を使用してさまざまな Kubeflow トレーニングオペレーターを統合できます。 [高度な設定] をクリックしてパラメーターをカスタマイズします。

    [Kube Queue][コンソール][ワークフロー] を選択すると、Arena が自動的に選択されます。 詳細については、「Arena クライアントの設定」をご参照ください。

    ack-arena (エコシステムツール)、機械学習 CLI。

    kube-system

    对

    对

    对

    コンソール: 軽量の Platform for AI (PAI) プラットフォームをデプロイします。 [高度な設定] をクリックしてパラメーターをカスタマイズします。

    ack-pai、軽量の Platform for AI (PAI) プラットフォーム。 推奨。

    このコンポーネントをインストールすると、PAI プラットフォームの深く最適化されたアルゴリズム、エンジン、ベストプラクティスを直接使用できます。 さらに、Data Science Workshop (DSW)、Deep Learning Containers (DLC)、Elastic Algorithm Service (EAS) などのサービスは、AI モデルの開発、トレーニング、推論に優れた伸縮性と効率性をもたらします。 これにより、トレーニングと推論のパフォーマンスが大幅に最適化され、AI 開発の障壁が低くなります。

    pai-system

    对

    错

    对

    コンソール: AI スイートコンソール。

    説明

    Alibaba Cloud が提供する AI コンソール (開発コンソールと O&M コンソールを含む) は、2025 年 1 月 22 日からホワイトリストに登録されたユーザーに提供されます。 公式 Web サイトの AI コンソール に関連するドキュメントは、ホワイトリストに登録されたユーザーにのみ適用されます。 この日より前に開発コンソールまたは O&M コンソールをすでにデプロイしている場合、使用には影響しません。 ホワイトリストに登録されていないユーザーは、オープンソースコミュニティの指示に従って AI コンソール をインストールおよび設定できます。 オープンソース設定の詳細については、「オープンソース AI コンソール」をご参照ください。

    ack-ai-dashboard (エコシステムツール)、可視化された O&M コンソール。

    kube-ai

    对

    错

    对

    ack-ai-dev-console (エコシステムツール)、ディープラーニング開発コンソール。

    kube-ai

    对

    错

    对

    コンソールデータストレージ

    [インタラクションモード][コンソール] に設定した後、[コンソールデータストレージ][プリインストールされた MySQL] または [ApsaraDB RDS] に設定します。 設定の詳細については、「クラウドネイティブ AI コンソールのインストールと設定」をご参照ください。

    ack-mysql、MySQL データベースコンポーネント。

    kube-ai

    对

    错

    对

    Kubeflow Pipelines

    [Kubeflow Pipelines] を選択した後、[ワークフローデータストレージ][プリインストールされた MinIO] または [OSS] に設定できます。 設定の詳細については、「ワークフローのインストールと設定」をご参照ください。

    ack-ai-pipeline (エコシステムツール)、エンドツーエンドの機械学習ワークフローを構築するためのプラットフォーム。

    kube-ai

    对

    错

    对

    モニタリング

    [Arena モニタリング] をインストールするかどうかを指定します。 詳細については、「クラウドネイティブ AI ダッシュボードの使用」をご参照ください。

    ack-arena-exporter、クラスターモニタリングコンポーネント。

    kube-ai

    对

    错

    对

  4. ページの下部にある [クラウドネイティブ AI スイートのデプロイ] をクリックします。 環境と依存関係のチェックが開始され、チェックに合格すると、選択したコンポーネントが自動的にデプロイされます。

    コンポーネントがインストールされると、コンポーネントリストページで次の情報を表示できます。

    • 現在のクラスターにインストールされているコンポーネントの名前やバージョンなどの情報を表示したり、[デプロイ][アンインストール] の操作を実行したりできます。

    • インストールされているコンポーネントの新しいバージョンが利用可能な場合は、[アップグレード] 操作を実行することもできます。

    • クラウドネイティブ AI 運用コンソール (ack-ai-dashboard) とクラウドネイティブ AI 開発コンソール (ack-ai-dev-console) コンポーネントをインストールすると、[クラウドネイティブ AI スイート] ページが表示されます。 ページの左上隅にある [運用コンソール] または [開発コンソール] をクリックして、対応するコンソールに移動できます。Console

  5. インストールが完了すると、[クラウドネイティブ AI スイート] ページの左上隅に [運用コンソール][開発コンソール] ボタンがあります。 いずれかのボタンをクリックして、対応するコンソールに移動します。

クラウドネイティブ AI コンソールのインストールと設定

説明

Alibaba Cloud が提供する AI コンソール (開発コンソールと運用コンソールを含む) は、2025 年 1 月 22 日からホワイトリストに登録されたユーザーのみが利用できます。 この日より前に開発コンソールまたは運用コンソールをデプロイした場合、使用には影響しません。 ホワイトリストに登録されていないユーザーは、オープンソースコミュニティから AI スイートコンソールをインストールして設定できます。 オープンソース設定の詳細については、「オープンソース AI コンソール」をご参照ください。

  1. クラウドネイティブ AI スイートのデプロイページの [インタラクションメソッド] セクションで、[サンプルコンソール] を選択します。 [プロンプト] ダイアログボックスが表示されます。

    • 権限付与ステータスが [承認済み] の場合は、ステップ 3 に進みます。

    • 権限付与ステータスが赤字で [未承認] と表示され、[確認] ボタンが利用できない場合は、ステップ 2 を実行します。

      提示框

  2. カスタムポリシーを作成し、RAM ロールに権限を付与します。

    1. カスタムポリシーを作成します。

      1. RAM コンソールにログインし、左側のナビゲーションウィンドウで [権限管理] > [アクセスポリシー] を選択します。

      2. [ポリシーの作成] をクリックします。

      3. [スクリプトエディター] タブで、次のポリシー情報を追加し、[OK] をクリックします。 次に、名前テキストボックスに、k8sWorkerRolePolicy-{ClusterID} 形式でカスタムポリシーの名前を入力し、[OK] をクリックします。

         {
            "Version": "1",
            "Statement": [
                {
                    "Effect": "Allow",
                    "Action": [
                        "cs:*",
                        "log:GetProject",
                        "log:GetLogStore",
                        "log:GetConfig",
                        "log:GetMachineGroup",
                        "log:GetAppliedMachineGroups",
                        "log:GetAppliedConfigs",
                        "log:GetIndex",
                        "log:GetSavedSearch",
                        "log:GetDashboard",
                        "log:GetJob",
                        "ecs:DescribeInstances",
                        "ecs:DescribeSpotPriceHistory",
                        "ecs:DescribePrice",
                        "eci:DescribeContainerGroups",
                        "eci:DescribeContainerGroupPrice",
                        "log:GetLogStoreLogs",
                        "ims:CreateApplication",
                        "ims:UpdateApplication",
                        "ims:GetApplication",
                        "ims:ListApplications",
                        "ims:DeleteApplication",
                        "ims:CreateAppSecret",
                        "ims:GetAppSecret",
                        "ims:ListAppSecretIds",
                        "ims:ListUsers"
                    ],
                    "Resource": "*"
                }
            ]
        }
    2. ターゲット ACK クラスターの RAM ロールに権限を付与します。

      1. Resource Access Management (RAM) コンソールにログインします。 左側のナビゲーションウィンドウで、[ID 管理] > [ロール] を選択します。

      2. 検索ボックスに、KubernetesWorkerRole-{ClusterID} 形式でターゲットロール名を入力します。 ロールを見つけて、[操作] 列の [権限の追加] をクリックします。

      3. [権限の追加] パネルで、検索ボックスに作成したカスタムポリシーの名前を入力します。 ポリシー名は k8sWorkerRolePolicy-{ClusterID} 形式である必要があります。

      4. ポリシーを選択し、[承認の追加を確認] をクリックします。

    3. ACK コンソールの [プロンプト] ダイアログボックスに戻り、[権限チェック] をクリックします。 権限付与が成功すると、ステータスが [承認済み] に変わり、[OK] ボタンが利用可能になります。 その後、ステップ 3 に進むことができます。

      已授权

  3. [運用コンソールアクセス方法][開発コンソールアクセス方法] を選択し、[OK] をクリックします。

    サービスにアクセスするには、[プライベート IP][プライベートドメイン名]、または [パブリックドメイン名] を使用できます。

    • 本番環境では、プライベート IP アドレスまたはプライベートドメイン名を使用します。

    • パブリックドメイン名の使用は、テスト目的でのみ推奨されます。 パブリックドメイン名を使用する場合は、パブリックドメイン名とクラスターの NGINX Ingress SLB インスタンスのパブリック IP アドレスとの間のマッピングをローカルホストファイルに追加する必要があります。

    説明
    • プライベートネットワーク経由でコンソールにアクセスする場合は、[プロンプト] ダイアログボックスで [プライベート IP] を選択します。

    • プライベートドメイン名またはプライベート IP アドレスを使用してコンソールにアクセスする方法の詳細については、「AI 運用コンソールへのアクセス」をご参照ください。

  4. [コンソールデータストレージ] メソッドを選択します。

    [サンプルコンソール] を選択すると、デプロイページの [インタラクションメソッド] セクションに [コンソールデータストレージ] オプションが表示されます。 その後、データストレージメソッドを選択できます。

    image

    クラスター組み込み MySQL

    データストレージに Alibaba Cloud RDS を選択しない場合、デフォルトでクラスター内の組み込み MySQL データベースが使用されます。 安定性とサービスレベルアグリーメント (SLA) の懸念から、この方法はテスト目的でのみ推奨され、本番環境には適していません。 この方法では、コンポーネントがインストールされるたびに新しい課金対象ディスクが作成されます。 これらのディスクリソースを管理および解放する必要があります。

    重要

    クラスターに障害が発生したり、ストレージが失われたりすると、データが失われる可能性があります。

    クラウドネイティブ AI スイートは、ディスクの StorageClass を使用して、MySQL データベースの永続ストレージとしてディスクバックエンドを持つ PersistentVolumeClaim (PVC) を作成します。 ACK クラスターは、新しい 120 GB のディスクを作成してアタッチします。 このディスクは課金対象です。 このディスクのライフサイクルは ACK によって管理されません。 ディスクリソースを管理し、不要になった場合は削除する必要があります。 ディスクの解放方法の詳細については、「ディスクの解放」をご参照ください。

    Alibaba Cloud RDS

    説明
    • RDS の使用時に接続エラーが発生した場合は、「インスタンス接続の失敗のトラブルシューティング」をご参照ください。

    • データストレージメソッドを変更する場合は、クラウドネイティブ AI スイートをアンインストールしてから再インストールする必要があります。 クラスターに kubeai-rds という名前の Secret が存在する場合は、kubectl を使用して削除します。

    1. RDS インスタンスを購入し、データベースとアカウントを作成します。 詳細については、「ApsaraDB RDS のクイックスタート」をご参照ください。 RDS の課金の詳細については、「課金の概要」をご参照ください。

    2. ページの下部にある [クラウドネイティブ AI スイートのデプロイ] をクリックします。

    3. ターゲットクラスターの名前をクリックします。 ナビゲーションウィンドウで、[設定管理] > [シークレット] を選択します。

    4. ページ上部の [名前空間] ドロップダウンリストから、kube-ai を選択します。

    5. ページの右上隅にある [YAML から作成] をクリックします。

    6. 次の YAML テンプレートを入力して、kubeai-rds という名前の Secret を作成します。

      apiVersion: v1
      kind: Secret
      metadata:
        name: kubeai-rds
        namespace: kube-ai
      type: Opaque
      stringData:
        MYSQL_HOST: "RDS URL"
        MYSQL_DB_NAME: "データベース名"
        MYSQL_USER: "データベースのユーザー名"
        MYSQL_PASSWORD: "データベースのパスワード"

      パラメーター

      説明

      name

      シークレットの名前。

      namespace

      クラスターの名前空間の名前。

      • MYSQL_HOST

      • MYSQL_DB_NAME

      • MYSQL_USER

      • MYSQL_PASSWORD

      ApsaraDB RDS for MySQL のパラメーター。 詳細については、「(非推奨、'ステップ 1' にリダイレクト) ApsaraDB RDS for MySQL インスタンスをすばやく作成する」および「(非推奨、'ステップ 1' にリダイレクト) データベースとアカウントを作成する」をご参照ください。

ワークフローのインストールと設定

ワークフローエンジンとして [Kubeflow Pipelines] を選択した場合は、[ワークフローデータストレージ] メソッドも選択する必要があります。

image

クラスター内部 MinIO

データストレージに Alibaba Cloud OSS を選択しない場合、デフォルトでクラスター内の組み込み MinIO が使用されます。 安定性と SLA の懸念から、この方法はテスト目的でのみ推奨され、本番環境には適していません。 この方法では、コンポーネントがインストールされるたびに新しい課金対象ディスクが作成されます。 これらのディスクリソースを管理および解放する必要があります。

重要

クラスターに障害が発生したり、ストレージが失われたりすると、データが失われる可能性があります。

クラウドネイティブ AI スイートは、ディスクの StorageClass を使用して、MinIO の永続ストレージとしてディスクバックエンドを持つ PVC を作成します。 ACK クラスターは、新しい 20 GB のディスクを作成してアタッチします。 このディスクは課金対象です。 このディスクのライフサイクルは ACK によって管理されません。 ディスクリソースを管理し、不要になった場合は削除する必要があります。 ディスクの解放方法の詳細については、「ディスクの解放」をご参照ください。

Alibaba Cloud OSS

  1. クラスターに kube-ai 名前空間が存在しない場合は、作成します。

    kubectl create ns kube-ai
  2. クラウドネイティブ AI スイートから Kubeflow Pipelines をインストールする前に、Container Service コンソールに移動し、ターゲットクラスターの名前をクリックしてから、左側のナビゲーションウィンドウで [設定管理] > [シークレット] を選択します。

  3. ページ上部の [名前空間] ドロップダウンリストから kube-ai を選択します。

  4. ページの右上隅にある [YAML から作成] をクリックします。

  5. 次の YAML テンプレートを入力し、[作成] をクリックします。 クラスターは YAML ファイルを自動的にデプロイして、kubeai-oss という名前の Secret を生成します。

    apiVersion: v1
    kind: Secret
    metadata:
      name: kubeai-oss
      namespace: kube-ai
    type: Opaque
    stringData:
      ENDPOINT: "https://oss-cn-beijing.aliyuncs.com"   
      ACCESS_KEY_ID: "****"     
      ACCESS_KEY_SECRET: "****"  

    パラメーター

    説明

    name

    シークレットの名前。

    namespace

    クラスターの名前空間の名前。

    説明

    namespace: kube-ai は、クラウドネイティブ AI スイートをデプロイするときに自動的に作成されます。 別途作成する必要はありません。

    ENDPOINT

    OSS のエンドポイント。 この例では、中国 (北京) リージョンのエンドポイントを使用しています。 エンドポイントの詳細については、「OSS リージョンとエンドポイント」をご参照ください。

    • ACCESS_KEY_ID

    • ACCESS_KEY_SECRET

    アカウントの AccessKey ペア。 AccessKey ペアを取得するには、「AccessKey の作成」をご参照ください。

    重要

    データセキュリティを確保するために、Resource Access Management (RAM) ユーザーの AccessKey (AK) を使用することを推奨します。 RAM ユーザーとしてログオンする前に、RAM ユーザーに AliyunOSSFullAccess 権限を付与する必要があります。

  6. Secret を作成した後、OSS コンソールmlpipeline-<clusterid> という名前のバケットが自動的に作成されるのを待ちます。 バケットの作成は、ワークフローデータストレージメソッドとして Alibaba Cloud OSS が正常に設定されたことを示します。 OSS の課金の詳細については、「課金の概要」をご参照ください。

  7. 最後に、クラウドネイティブ AI スイートから Kubeflow Pipelines コンポーネントをインストールします。