すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:クラウドネイティブ AI スイートの概要

最終更新日:Jun 17, 2025

クラウドネイティブ AI スイートは、クラウドネイティブ AI 技術と製品を搭載した Container Service for Kubernetes(ACK)ソリューションです。 クラウドネイティブ AI スイートは、クラウドネイティブアーキテクチャと技術を最大限に活用して、ACK で AI 支援の本番システムを迅速に開発するのに役立ちます。 また、クラウドネイティブ AI スイートは、AI または機械学習アプリケーションとシステムのフルスタック最適化も提供します。 このトピックでは、クラウドネイティブ AI スイートのアーキテクチャ、主な機能、および使用シナリオについて説明します。 また、クラウドネイティブ AI スイートの使用方法についても説明します。

アーキテクチャ

クラウドネイティブ AI スイートは、Container Service for Kubernetes(ACK)をベースとして使用します。 異種リソースを一元管理し、主要コンポーネントの実行、リソースの管理と保守、AI ジョブのスケジューリングとスケーリング、データアクセスの高速化、ワークフローのオーケストレーション、ビッグデータサービスの統合、AI ジョブのライフサイクル管理、AI アーティファクトの管理、および O&M タスクの実行のための標準 Kubernetes クラスターと API を提供します。 また、クラウドネイティブ AI スイートは AI DevOps も最適化します。 AI データセット管理をサポートし、AI モデルの開発、トレーニング、評価、および推論サービスとしてのモデルのデプロイを可能にします。

主要コンポーネントは、CLI、さまざまなプログラミング言語用の SDK、およびコンソールを介して使用できます。 これらのコンポーネントとツールの助けを借りて、必要に応じて AI 本番システムを構築、拡張、またはカスタマイズできます。 また、クラウドネイティブ AI スイートでは、同じコンポーネントとツールを使用して、Alibaba Cloud AI サービス、オープンソース AI フレームワーク、およびサードパーティ AI 機能を統合することもできます。

さらに、クラウドネイティブ AI スイートは Platform for AI とのシームレスな統合をサポートし、高性能で柔軟なワンストップ AI プラットフォームの開発を支援します。 PAI が提供する Data Science Workshop(DSW)、Deep Learning Containers(DLC)、Elastic Algorithm Service(EAS)などのサービスを使用できます。 ACK は、前述のサービスの AI モデルの開発、トレーニング、および推論の柔軟性と効率を大幅に向上させることができます。 また、クラウドネイティブ AI スイートでは、数回クリックするだけで Lightweight Platform for AI を ACK クラスターにデプロイできるため、AI 開発がはるかに容易になります。 長年の経験に基づいて PAI によって最適化されたアルゴリズムとエンジンをコンテナ化アプリケーションに統合して、モデルのトレーニングと推論を大幅に高速化できます。 Platform for AI の詳細については、「Platform for AI とは」をご参照ください。

次の図は、クラウドネイティブ AI スイートのアーキテクチャを示しています。

image

主な機能

クラウドネイティブ AI スイートは Kubernetes をベースとして使用し、AI および機械学習アプリケーションとシステムのフルスタックサポートと最適化を提供します。 次の表に、クラウドネイティブ AI スイートが提供する主な機能を示します。 次の表に、クラウドネイティブ AI スイートが提供する主な機能を示します。

機能

説明

参照

異種リソースの一元管理

  • 異種リソースのサポート: ACK でサポートされているリソースに加えて、クラウドネイティブ AI スイートは、NVIDIA GPU、NPU、FPGA、VPU、RDMA などの異種リソースもサポートしています。 クラウドネイティブ AI スイートを使用して、これらのリソースをまとめてスケジューリング、管理、および保守できます。

  • 監視と保守: クラウドネイティブ AI スイートは、GPU を多次元的に監視し、GPU の割り当て、使用状況、およびヘルスステータスに関する視覚化された情報を表示します。

  • リソース使用率の向上: クラウドネイティブ AI スイートは、GPU 共有、GPU メモリ分離、およびトポロジー対応 GPU スケジューリングをサポートしており、リソース使用率の向上に役立ちます。

AI ジョブ スケジューリング

  • 複数のスケジューリングポリシー: ACK スケジューラは、AI 分散トレーニングジョブなどのバッチジョブ用に Kubernetes ネイティブスケジューリングフレームワークを拡張します。 ギャングスケジューリング(コスケジューリング)、先入れ先出し(FIFO)スケジューリング、容量スケジューリング、公平な共有、ビンパッキングとスプレッドなど、さまざまなバッチスケジューリングポリシーがサポートされています。

  • ジョブキュー: クラウドネイティブ AI スイートは、優先順位ベースのジョブキューを提供し、ジョブの優先順位をカスタマイズし、テナントの弾力的なクォータを構成できるようにします。

  • ワークフロー オーケストレーション: Kubeflow Pipelines または Argo ワークフローを統合して、複雑な AI ジョブのワークフローを調整できます。

Elastic スケジューリング

分散ディープラーニングジョブの Elastic スケジューリング: クラウドネイティブ AI スイートは、モデルのトレーニングとモデルの精度に影響を与えることなく、ワーカーの数とノードの数を動的にスケーリングします。 クラウドネイティブ AI スイートは、クラスターにアイドルリソースがある場合はトレーニングを高速化するためにワーカーを追加し、クラスターが十分なリソースを提供できない場合はワーカーを解放します。 これにより、モデルのトレーニングがリソース不足の影響を受けないようにします。 このモードは、クラスターの全体的なリソース使用率を大幅に向上させ、ノード障害を回避するのに役立ちます。 また、このモードは、ジョブの起動待ち時間を短縮します。

Kubernetes ベースの Elastic トレーニング

AI データ オーケストレーションとアクセラレーション

Fluid: データセットの概念を導入します。 トレーニングジョブにデータ抽象化を提供し、データセットの管理、アクセス制御の実施、データアクセスの高速化を支援するデータ オーケストレーションおよびアクセラレーションプラットフォームを提供します。 ack-fluid は、さまざまなストレージサービスからデータを取り込み、同じデータセットに集約できます。 また、ack-fluid をハイブリッドクラウド環境のクラウド上またはオンプレミスのストレージサービスに接続して、データを管理し、データアクセスを高速化することもできます。 さらに、ack-fluid を拡張して、さまざまな分散キャッシュサービスをサポートできます。 各データセットのキャッシュサービスを構成し、データセットのウォームアップ、キャッシュ容量の監視、Elastic スケーリングなどの機能を使用して、トレーニングジョブのリモートデータ取り込みのオーバーヘッドを大幅に削減し、GPU コンピューティングの効率を向上させることができます。

AI ジョブ ライフサイクル管理

  • Arena: リソーススケジューリング、環境構成、監視などの複雑な詳細を抽象化しながら、データ管理、モデル開発、トレーニング、推論サービスデプロイメントなどの主要な側面を網羅した簡素化された AI 本番プロセス。 Arena は、TensorFlow や PyTorch などの主流の AI 技術スタックと互換性があります。 また、さらなる開発のために多言語 SDK もサポートしています。 ack-arena は、ジョブ管理ツール Arena での操作を簡素化するために最適化されています。 数回クリックするだけで、Container Service for Kubernetes(ACK)コンソールに ack-arena をインストールして、Arena を ACK クラスターに効率的にデプロイできます。

  • 視覚化された O&M: 使いやすいダッシュボードと開発者コンソールを提供し、クラスターのステータスを表示し、トレーニングジョブをすばやく送信できるようにします。

使用シナリオ

クラウドネイティブ AI スイートは、異種リソースの使用率を継続的に向上させ、AI ジョブなどの異種ワークロードを効率的に処理するのに適しています。使用场景..png

シナリオ 1: 異種リソースの使用率を継続的に向上させる

クラウドネイティブ AI スイートは、クラウド内の異種リソースの抽象化を提供します。これには、コンピューティングリソース(CPU、GPU、NPU、VPU、FPGA など)、ストレージリソース(OSS、NAS、CPFS、HDFS)、およびネットワークリソース(TCP および RDMA)が含まれます。 クラウドネイティブ AI スイートを使用して、これらのリソースを一元管理、保守、および割り当て、リソーススケーリングとソフトウェア/ハードウェアの最適化に基づいてリソース使用率を継続的に向上させることができます。

シナリオ 2: AI ジョブなどの異種ワークロードを効率的に処理する

クラウドネイティブ AI スイートは、TensorFlow、PyTorch、DeepSpeed、Horovod、Spark、Flink、Kubeflow、Kserve、vLLM、Triton Inference Server などの主流のオープンソースエンジンと互換性があり、セルフマネージドエンジンとランタイムもサポートしています。 また、クラウドネイティブ AI スイートは、パフォーマンス、効率、コストの面でトレーニングジョブを継続的に最適化し、開発と保守のユーザーエクスペリエンスを最適化し、エンジニアリング効率を向上させます。 また、クラウドネイティブ AI スイートは、パフォーマンス、効率、コストの面でトレーニングジョブを継続的に最適化し、開発と保守のユーザーエクスペリエンスを最適化し、エンジニアリング効率を向上させます。

ユーザーロール

クラウドネイティブ AI スイートは、次のユーザーロールを定義します。

ロール

説明

O&M 管理者

AI インフラストラクチャの構築と日々の管理を担当します。 詳細については、「クラウドネイティブ AI スイートのデプロイ」、「ユーザーを管理する」、「Elastic クォータグループを管理する」、および「データセットの管理」をご参照ください。

アルゴリズムエンジニアとデータサイエンティスト

クラウドネイティブ AI スイートを使用してジョブを管理します。 詳細については、「Kubernetes でのモデル学習ジョブの実行」、「MLflow Model Registry でモデルを管理する」、および「モデルを分析および最適化する」をご参照ください。

クラウドネイティブ AI スイートを使用する

次の図の手順に従って、想定するユーザーロールに基づいてクラウドネイティブ AI スイートを使用します。

使用流程..png

ステップ

説明

コンソール

1. 準備

(O&M 管理者)

Alibaba Cloud アカウントを作成する

Alibaba Cloud アカウントを作成し、実名登録を完了します。 詳細については、「Alibaba Cloud アカウントの作成」をご参照ください。

Alibaba Cloud サインアップページ

ACK クラスターを作成する

ACK をアクティブ化し、ACK クラスターを作成します。 次のクラスター構成を使用することをお勧めします。 詳細については、「ACK マネージドクラスターを作成する」をご参照ください。

  • クラスタータイプ: ACK Pro クラスター、ACK Serverless Pro クラスター、または ACK Edge Pro クラスター

  • Kubernetes バージョン: 1.18 以降。

  • リージョン: ACK をアクティブ化したリージョン。

ACK コンソール

(オプション) クラスターの依存関係を構成し、依存クラウド リソースを作成する

  • AI ダッシュボードと AI 開発者コンソールをインストールして構成する:

    • Prometheus エージェントと Logtail を ACK クラスターにインストールします。

    • Resource Access Management (RAM) コンソールでクラスターのポリシーを作成します。 詳細については、「認証」をご参照ください。

    • 内部ドメイン名またはパブリックドメイン名を使用して AI ダッシュボードと AI 開発者コンソールにアクセスする場合は、NGINX Ingress コントローラーをインストールし、コントローラーの内部アクセスまたはインターネットアクセスを有効にします。

    • プリインストール済みの MySQL データベースをストレージとして使用する場合は、クラスター内のノードに企業向け SSD(ESSD)が接続されていることを確認してください。

    • ApsaraDB RDS データベースをストレージとして使用する場合は、ApsaraDB RDS インスタンスを購入し、kube-ai 名前空間に kubeai-rds という名前の Secret を作成する必要があります。

    詳細については、「AI ダッシュボードと AI 開発者コンソールをインストールして構成する」をご参照ください。

  • Kubeflow Pipelines をインストールして構成する:

2. システムと環境

(O&M 管理者)

クラウドネイティブ AI スイートをアクティブ化してインストールする

  1. 有効化ページにアクセスして、クラウドネイティブ AI スイートをアクティブ化します。

  2. クラウドネイティブ AI スイートと関連コンポーネントをインストールします。 詳細については、「クラウドネイティブ AI スイートのデプロイ」をご参照ください。 クラウドネイティブ AI スイートのインストールに使用されるコンポーネントの詳細については、「コンポーネントの紹介とリリースノート」をご参照ください。

ACK コンソール

ユーザーとクォータを管理する

  1. クォータノードを追加し、リソースクォータを設定します。

  2. ユーザーとユーザーグループを作成し、リソースを割り当て、クォータグループを関連付けます。

    詳細については、「ユーザーを管理する」、「ユーザーグループを管理する」、および「Elastic クォータグループを管理する」をご参照ください。

  3. 新しく作成されたユーザーの kubeconfig ファイルとログオントークンを生成します。 詳細については、「新しく作成されたユーザーの kubeconfig ファイルとログオントークンを生成する」をご参照ください。

AI ダッシュボード と kubectl

説明

Alibaba Cloud が提供する AI コンソール(AI ダッシュボードと AI 開発者コンソールを含む)は、2025 年 1 月 22 日からホワイトリストメカニズムを通じて段階的にロールアウトされました。

  • 既存のデプロイ: この日付より前に AI ダッシュボードまたは AI 開発者コンソールをすでにデプロイしている場合、現在の使用状況は影響を受けません。

  • 新規インストール: ホワイトリストに登録されていないユーザーは、オープンソースコミュニティを通じて AI コンソールをインストールおよび構成できます。 詳細なオープンソース構成手順については、「オープンソース AI コンソール」を参照してください。

データを準備する

  1. データセットを作成します。

  2. (オプション) データセットを高速化します。 詳細については、「Elastic データセット」をご参照ください。

(アルゴリズムエンジニアとデータサイエンティスト)

クラウドネイティブ AI スイートを使用すると、アルゴリズムエンジニアとデータサイエンティストは、Arena、Web コンソール、および AI 開発者コンソールを使用して、モデルの開発、モデルのトレーニング、推論サービスのデプロイ、およびジョブの管理を行うことができます。

  • CLI またはコンソールを使用する

    Arena CLI または AI 開発者コンソールをインストールします。 詳細については、「Arena クライアントを構成する」および「AI ダッシュボードと AI 開発者コンソールをインストールして構成する」をご参照ください。

    説明

    Alibaba Cloud が提供する AI コンソール(AI ダッシュボードと AI 開発者コンソールを含む)は、2025 年 1 月 22 日からホワイトリストメカニズムを通じて段階的にロールアウトされました。

    • 既存のデプロイ: この日付より前に AI ダッシュボードまたは AI 開発者コンソールをすでにデプロイしている場合、現在の使用状況は影響を受けません。

    • 新規インストール: ホワイトリストに登録されていないユーザーは、オープンソースコミュニティを通じて AI コンソールをインストールおよび構成できます。 詳細なオープンソース構成手順については、「オープンソース AI コンソール」を参照してください。

  • Lightweight Platform for AI を使用する

ACK コンソール

3. モデルのトレーニングとデプロイ

(アルゴリズムエンジニアとデータサイエンティスト)

Arena または AI 開発者コンソールを使用する場合、次の手順を実行してモデルをトレーニングおよびデプロイできます。

モデルを開発する

  1. Jupyter Notebook を作成して使用します。 詳細については、「Jupyter Notebook を作成して使用する」をご参照ください。

  2. Jupyter Notebook を使用してモデルを開発およびテストします。

  3. Jupyter Notebook を使用してコードを Git リポジトリに送信します。

モデルをトレーニングする

  1. AI 開発者コンソールまたは Arena を使用して、トレーニングジョブを送信します。

  2. ジョブのログまたは TensorBoard データを表示します。

    詳細については、「モデルのトレーニング」をご参照ください。

モデルを管理する

  1. モデルを作成し、トレーニングジョブに関連付けます。

  2. AI 開発者コンソールまたは Arena CLI を使用してモデルを管理します。 詳細については、「MLflow Model Registry でモデルを管理する」をご参照ください。

モデルをデプロイする

モデルを推論サービスとしてデプロイします。 詳細については、「AI サービスのデプロイ」をご参照ください。

AI 開発者コンソール と Arena

Lightweight Platform for AI を使用して、モデルを開発、トレーニング、およびデプロイします。

該当なし

4. 監視と保守

(O&M 管理者)

リソースを監視および保守する

クラスター、ノード、トレーニングジョブ、リソースクォータなど、さまざまなリソースのダッシュボードを表示します。 詳細については、「クラウドネイティブ AI ダッシュボードを使用する」をご参照ください。

AI ダッシュボード

クォータを管理する

  • クォータグループとクォータグループ内のリソースを作成、クエリ、更新、および削除します。

  • リソースタイプを変更します。

    詳細については、「Elastic クォータグループを管理する」をご参照ください。

ユーザーを管理する

ユーザーまたはユーザーグループを作成、クエリ、更新、および削除します。 詳細については、「ユーザーを管理する」および「ユーザーグループを管理する」をご参照ください。

データセットを管理する

  • データセットとデータを作成、クエリ、更新、および削除します。 詳細については、「データセットの管理」をご参照ください。

  • データセットを高速化します。 詳細については、「Elastic データセット」をご参照ください。

Elastic ジョブを管理する

Elastic ジョブとジョブの詳細を表示します。 詳細については、「Elastic ジョブを表示する」をご参照ください。

5. 請求と支払い

(O&M 管理者)

20246600:00:00 (UTC + 08:00) から、クラウドネイティブ AI スイートは無料です。詳細については、「クラウドネイティブ AI スイートの課金」をご参照ください。

費用とコスト

毎日請求書を生成する

  • 請求書をクエリします。

  • 請求の詳細をクエリします。

  • リソース使用状況の詳細をクエリします。

  • サービスの使用状況と価格をクエリします。

    詳細については、「クラウドネイティブ AI スイートの請求」をご参照ください。

請求ルール

詳細については、「クラウドネイティブ AI スイートの請求」をご参照ください。

参照

参照

説明

いくつかの実践を通じて、クラウドネイティブ AI スイートを開発および O&M 作業に迅速に適用するのに役立ちます。

リリースノート

クラウドネイティブ AI スイートのリリースノートについて説明します。