クラウドネイティブ AI スイートは、クラウドネイティブ AI 技術と製品を搭載した Container Service for Kubernetes(ACK)ソリューションです。 クラウドネイティブ AI スイートは、クラウドネイティブアーキテクチャと技術を最大限に活用して、ACK で AI 支援の本番システムを迅速に開発するのに役立ちます。 また、クラウドネイティブ AI スイートは、AI または機械学習アプリケーションとシステムのフルスタック最適化も提供します。 このトピックでは、クラウドネイティブ AI スイートのアーキテクチャ、主な機能、および使用シナリオについて説明します。 また、クラウドネイティブ AI スイートの使用方法についても説明します。
アーキテクチャ
クラウドネイティブ AI スイートは、Container Service for Kubernetes(ACK)をベースとして使用します。 異種リソースを一元管理し、主要コンポーネントの実行、リソースの管理と保守、AI ジョブのスケジューリングとスケーリング、データアクセスの高速化、ワークフローのオーケストレーション、ビッグデータサービスの統合、AI ジョブのライフサイクル管理、AI アーティファクトの管理、および O&M タスクの実行のための標準 Kubernetes クラスターと API を提供します。 また、クラウドネイティブ AI スイートは AI DevOps も最適化します。 AI データセット管理をサポートし、AI モデルの開発、トレーニング、評価、および推論サービスとしてのモデルのデプロイを可能にします。
主要コンポーネントは、CLI、さまざまなプログラミング言語用の SDK、およびコンソールを介して使用できます。 これらのコンポーネントとツールの助けを借りて、必要に応じて AI 本番システムを構築、拡張、またはカスタマイズできます。 また、クラウドネイティブ AI スイートでは、同じコンポーネントとツールを使用して、Alibaba Cloud AI サービス、オープンソース AI フレームワーク、およびサードパーティ AI 機能を統合することもできます。
さらに、クラウドネイティブ AI スイートは Platform for AI とのシームレスな統合をサポートし、高性能で柔軟なワンストップ AI プラットフォームの開発を支援します。 PAI が提供する Data Science Workshop(DSW)、Deep Learning Containers(DLC)、Elastic Algorithm Service(EAS)などのサービスを使用できます。 ACK は、前述のサービスの AI モデルの開発、トレーニング、および推論の柔軟性と効率を大幅に向上させることができます。 また、クラウドネイティブ AI スイートでは、数回クリックするだけで Lightweight Platform for AI を ACK クラスターにデプロイできるため、AI 開発がはるかに容易になります。 長年の経験に基づいて PAI によって最適化されたアルゴリズムとエンジンをコンテナ化アプリケーションに統合して、モデルのトレーニングと推論を大幅に高速化できます。 Platform for AI の詳細については、「Platform for AI とは」をご参照ください。
次の図は、クラウドネイティブ AI スイートのアーキテクチャを示しています。
主な機能
クラウドネイティブ AI スイートは Kubernetes をベースとして使用し、AI および機械学習アプリケーションとシステムのフルスタックサポートと最適化を提供します。 次の表に、クラウドネイティブ AI スイートが提供する主な機能を示します。 次の表に、クラウドネイティブ AI スイートが提供する主な機能を示します。
機能 | 説明 | 参照 |
異種リソースの一元管理 |
| |
AI ジョブ スケジューリング |
| |
Elastic スケジューリング | 分散ディープラーニングジョブの Elastic スケジューリング: クラウドネイティブ AI スイートは、モデルのトレーニングとモデルの精度に影響を与えることなく、ワーカーの数とノードの数を動的にスケーリングします。 クラウドネイティブ AI スイートは、クラスターにアイドルリソースがある場合はトレーニングを高速化するためにワーカーを追加し、クラスターが十分なリソースを提供できない場合はワーカーを解放します。 これにより、モデルのトレーニングがリソース不足の影響を受けないようにします。 このモードは、クラスターの全体的なリソース使用率を大幅に向上させ、ノード障害を回避するのに役立ちます。 また、このモードは、ジョブの起動待ち時間を短縮します。 | |
AI データ オーケストレーションとアクセラレーション | Fluid: データセットの概念を導入します。 トレーニングジョブにデータ抽象化を提供し、データセットの管理、アクセス制御の実施、データアクセスの高速化を支援するデータ オーケストレーションおよびアクセラレーションプラットフォームを提供します。 ack-fluid は、さまざまなストレージサービスからデータを取り込み、同じデータセットに集約できます。 また、ack-fluid をハイブリッドクラウド環境のクラウド上またはオンプレミスのストレージサービスに接続して、データを管理し、データアクセスを高速化することもできます。 さらに、ack-fluid を拡張して、さまざまな分散キャッシュサービスをサポートできます。 各データセットのキャッシュサービスを構成し、データセットのウォームアップ、キャッシュ容量の監視、Elastic スケーリングなどの機能を使用して、トレーニングジョブのリモートデータ取り込みのオーバーヘッドを大幅に削減し、GPU コンピューティングの効率を向上させることができます。 | |
AI ジョブ ライフサイクル管理 |
|
使用シナリオ
クラウドネイティブ AI スイートは、異種リソースの使用率を継続的に向上させ、AI ジョブなどの異種ワークロードを効率的に処理するのに適しています。
シナリオ 1: 異種リソースの使用率を継続的に向上させる
クラウドネイティブ AI スイートは、クラウド内の異種リソースの抽象化を提供します。これには、コンピューティングリソース(CPU、GPU、NPU、VPU、FPGA など)、ストレージリソース(OSS、NAS、CPFS、HDFS)、およびネットワークリソース(TCP および RDMA)が含まれます。 クラウドネイティブ AI スイートを使用して、これらのリソースを一元管理、保守、および割り当て、リソーススケーリングとソフトウェア/ハードウェアの最適化に基づいてリソース使用率を継続的に向上させることができます。
シナリオ 2: AI ジョブなどの異種ワークロードを効率的に処理する
クラウドネイティブ AI スイートは、TensorFlow、PyTorch、DeepSpeed、Horovod、Spark、Flink、Kubeflow、Kserve、vLLM、Triton Inference Server などの主流のオープンソースエンジンと互換性があり、セルフマネージドエンジンとランタイムもサポートしています。 また、クラウドネイティブ AI スイートは、パフォーマンス、効率、コストの面でトレーニングジョブを継続的に最適化し、開発と保守のユーザーエクスペリエンスを最適化し、エンジニアリング効率を向上させます。 また、クラウドネイティブ AI スイートは、パフォーマンス、効率、コストの面でトレーニングジョブを継続的に最適化し、開発と保守のユーザーエクスペリエンスを最適化し、エンジニアリング効率を向上させます。
ユーザーロール
クラウドネイティブ AI スイートは、次のユーザーロールを定義します。
ロール | 説明 |
O&M 管理者 | AI インフラストラクチャの構築と日々の管理を担当します。 詳細については、「クラウドネイティブ AI スイートのデプロイ」、「ユーザーを管理する」、「Elastic クォータグループを管理する」、および「データセットの管理」をご参照ください。 |
アルゴリズムエンジニアとデータサイエンティスト | クラウドネイティブ AI スイートを使用してジョブを管理します。 詳細については、「Kubernetes でのモデル学習ジョブの実行」、「MLflow Model Registry でモデルを管理する」、および「モデルを分析および最適化する」をご参照ください。 |
クラウドネイティブ AI スイートを使用する
次の図の手順に従って、想定するユーザーロールに基づいてクラウドネイティブ AI スイートを使用します。

ステップ | 説明 | コンソール |
1. 準備 (O&M 管理者) | Alibaba Cloud アカウントを作成する Alibaba Cloud アカウントを作成し、実名登録を完了します。 詳細については、「Alibaba Cloud アカウントの作成」をご参照ください。 | |
ACK クラスターを作成する ACK をアクティブ化し、ACK クラスターを作成します。 次のクラスター構成を使用することをお勧めします。 詳細については、「ACK マネージドクラスターを作成する」をご参照ください。
| ||
(オプション) クラスターの依存関係を構成し、依存クラウド リソースを作成する
| ||
2. システムと環境 (O&M 管理者) | クラウドネイティブ AI スイートをアクティブ化してインストールする
| |
ユーザーとクォータを管理する
| AI ダッシュボード と kubectl 説明 Alibaba Cloud が提供する AI コンソール(AI ダッシュボードと AI 開発者コンソールを含む)は、2025 年 1 月 22 日からホワイトリストメカニズムを通じて段階的にロールアウトされました。
| |
データを準備する
| ||
(アルゴリズムエンジニアとデータサイエンティスト) | クラウドネイティブ AI スイートを使用すると、アルゴリズムエンジニアとデータサイエンティストは、Arena、Web コンソール、および AI 開発者コンソールを使用して、モデルの開発、モデルのトレーニング、推論サービスのデプロイ、およびジョブの管理を行うことができます。
| |
3. モデルのトレーニングとデプロイ (アルゴリズムエンジニアとデータサイエンティスト) | Arena または AI 開発者コンソールを使用する場合、次の手順を実行してモデルをトレーニングおよびデプロイできます。 モデルを開発する
モデルをトレーニングする
モデルを管理する
モデルをデプロイする モデルを推論サービスとしてデプロイします。 詳細については、「AI サービスのデプロイ」をご参照ください。 | AI 開発者コンソール と Arena |
Lightweight Platform for AI を使用して、モデルを開発、トレーニング、およびデプロイします。 | 該当なし | |
4. 監視と保守 (O&M 管理者) | リソースを監視および保守する クラスター、ノード、トレーニングジョブ、リソースクォータなど、さまざまなリソースのダッシュボードを表示します。 詳細については、「クラウドネイティブ AI ダッシュボードを使用する」をご参照ください。 | |
クォータを管理する
| ||
ユーザーを管理する ユーザーまたはユーザーグループを作成、クエリ、更新、および削除します。 詳細については、「ユーザーを管理する」および「ユーザーグループを管理する」をご参照ください。 | ||
データセットを管理する
| ||
Elastic ジョブを管理する Elastic ジョブとジョブの詳細を表示します。 詳細については、「Elastic ジョブを表示する」をご参照ください。 | ||
5. 請求と支払い (O&M 管理者) | 2024 年 6 月 6 日 00:00:00 (UTC + 08:00) から、クラウドネイティブ AI スイートは無料です。詳細については、「クラウドネイティブ AI スイートの課金」をご参照ください。 | |
毎日請求書を生成する
|
請求ルール
詳細については、「クラウドネイティブ AI スイートの請求」をご参照ください。
参照
参照 | 説明 |
いくつかの実践を通じて、クラウドネイティブ AI スイートを開発および O&M 作業に迅速に適用するのに役立ちます。 | |
クラウドネイティブ AI スイートのリリースノートについて説明します。 |