クラウドネイティブAIスイートは、クラウドネイティブAIテクノロジーと製品を活用するContainer Service for Kubernetes (ACK) ソリューションです。 クラウドネイティブAIスイートは、クラウドネイティブのアーキテクチャとテクノロジーを最大限に活用して、ACKでAI支援の本番システムを迅速に開発するのに役立ちます。 また、AIまたは機械学習アプリケーションとシステムのフルスタック最適化も提供します。 ACK Edgeクラスターは、クラウド環境で利用可能なAIスイートの全機能を保持しますが、エッジ環境では特定の機能が制限される場合があります。 このトピックでは、さまざまなノードとネットワークタイプにわたるACK EdgeクラスターのAIスイートの機能と使用制限について説明します。
使用制限
項目 | 制限事項 |
AIスイートコンポーネント | クラスターバージョンやNVIDIAドライバーバージョンなど、使用する特定のコンポーネントの使用制限に注意してください。 詳細については、「Component introduction and release notes」をご参照ください。 |
ACKエッジクラスター | エッジノード上の特定のオペレーティングシステムとGPUモデルのみがサポートされています。 詳細については、「エッジノードの追加」をご参照ください。 |
機能の概要
ACK EdgeクラスターとACK Proクラスターには2つの違いがあります。
ネットワーク接続: ACK Proクラスターは、クラスター内のすべてのノードが同じ仮想プライベートクラウド (VPC) にあり、接続されている必要があります。一方、ACK Edgeクラスターは、ノードプールに基づくより複雑なネットワーク構成を持っています。 AIスイートの機能は、ネットワーク条件によって異なる場合があります。
オンクラウドノードプール: オンクラウドノードプールのネットワーク構成は、ACK Proクラスターのネットワーク構成と同じです。 同じVPC内の接続されたECS (Elastic Compute Service) ノードを管理します。
専用エッジノードプール: 専用エッジノードプールは、Express Connect回線を介してクラウドに接続されたエッジノードを管理します。 データセンターとクラウド間のネットワーク接続を実現します。
基本エッジノードプール: 基本エッジノードプールは、インターネット経由で接続されたエッジノードを管理します。 エッジノード間のネットワーク接続は保証できません。
ノード環境: ACK Edgeクラスターは、主にオンプレミスのリソースを管理するために使用されます。 ECSインスタンスと比較して、ノード環境はより複雑で、GPUモデル、GPUドライバー、OSバージョンなどの情報が含まれています。 さらに、GPUメモリの分離はサポートされていません。
AIスイート機能 | 対応するコンポーネント名 | クラウド環境 | エッジ環境 | 関連ドキュメント | |
オンクラウドノードプール | 専用エッジノードプール | 基本エッジノードプール | |||
柔軟性 | ack-alibaba-cloud-metrics-adapter | 対応 | 対応 | 対応 | |
加速 | 対応 | 対応 | 対応 | ||
スケジューリング (バッチタスクのスケジューリング、GPU共有、GPUトポロジ認識) | 対応 | GPUメモリ分離を除いてサポート | GPUメモリ分離を除いてサポート | ||
スケジューリング (タスクキュー) | 対応 | 対応 | 対応 | ||
インタラクションモード (アリーナ) | 対応 | 対応 | 対応 | ||
インタラクションモード (コンソール) | ack-ai-ダッシュボード ack-mysql | 対応 | 対応 | 対応 | |
ワークフロー | 対応 | 対応 | 対応 | クラウドネイティブAIスイートのデプロイ | |
モニタリング | ack-arena-exporter | 対応 | 対応 | 対応 |
エッジノードプールでは、AIスイートのアクセラレーション機能は、ノード間にネットワーク接続があるエッジノードプールでのみ使用できます。
使用方法
ACK edgeクラスターのクラウドエッジアーキテクチャに基づいて、AIスイートを使用する場合は、ノードプールを介してさまざまなリソースを管理することを推奨します。
管理ノードプール: AIスイートの管理コンポーネントのデプロイに使用されるクラウド上のノードプール。
このタイプのノードプールにはGPUリソースは必要ありません。
デフォルトでは、ACK Edgeクラスターによって自動的に作成されたオンクラウドノードプールdefault-nodepoolが管理ノードプールとして使用されます。
AIスイートのすべての機能を利用するには、適切なコンポーネント操作に十分なリソースを確保するために、ノードプールを少なくとも4つのノードにスケールアウトする必要があります。 詳細については、「Create and scale out a node pool」をご参照ください。
Elastic node pool: 自動スケーリングが有効になっているオンクラウドノードプール。
elastic inferenceでは、このタイプのノードプールを使用して、ビジネス要件に基づいて動的なサーバースケーリングを実現できます。
エッジノードプール: データセンター内のさまざまなタイプのノードを管理します。
エッジノードプールを使用して、関連ノードをプロパティに基づいて管理することを推奨します。 たとえば、CPUアーキテクチャに従ってAMDノードプールとARMベースのノードプールに分類したり、ネットワーク条件に基づいてExpress Connect回路とインターネット用のノードプールを使用するノードプールに分類したりできます。