AI Acceleration

Alibaba Cloud GPU テクノロジーにより、AI 主導のビジネス、AI モデルのトレーニングと推論を高速化します。

概要

AI サービス向け機械学習テクノロジーの開発には、データ、アルゴリズム、および計算能力が必要です。 Alibaba Cloud AI Acceleration ソリューションは、先進のデータセットと GPU アクセラレータを活用して、データ集約型アプリケーションのオーケストレーション、GPU インスタンス利用率の最適化、AI モデルのトレーニングと推論タスクの高速化を実現します。 Alibaba Cloud のカスタマイズ可能なクラウドネイティブ AI トレーニングプラットフォームを使用して、ビジネスニーズに合わせて AI インフラストラクチャと日常の O&M 作業の効率化を図ることもできます。

ホワイトペーパーのダウンロード  

ソリューションの特長

  • コスト効率の高いアトミックな高速化

    超高速の GPU アクセラレータ AIACC で AI モデルのトレーニングと推論を高速化し、コストを削減します。Stanford DAWN Deep Learning Benchmark によると、AI トレーニングモデルは 70%、推論は 2~3 倍高速化されています。

  • 高効率で GPU を使用

    同じ GPU のリソースを共有する GPU クラスタースケジューリングにより、クラスター内のすべての GPU の使用率を改善し、GPU 分離メカニズムによりアプリケーション間の干渉を解消します。

  • CNCF 公認のデータセットアクセラレータ

    データ集約型アプリケーション向けの分散データセットオーケストレータおよびアクセラレータである Fluid を使用して、AI トレーニング中に発生するアクセス遅延、複数のデータソースによる複雑な並列アクセス、貧弱なデータ分離の問題を解決します。

  • カスタマイズ可能な AI トレーニングプラットフォーム

    Alibaba cloud-native AI Suite を使用して、開発および O&M 用コンソールでクラウドネイティブ AI トレーニングプラットフォームを構築、カスタマイズし、深層学習のすべての段階で AI エンジニアリングの効率を向上できます。

仕組み

Alibaba AI Acceleration ソリューションは、Cloud-Native AI Suiteレイヤー、AI Job Scheduling レイヤー、AI Data Acceleration レイヤー、AI Computing Acceleration Engine レイヤー、Resource Scheduling レイヤー、Computing Resource レイヤーで構成されています。 各レイヤーは、さまざまなシナリオの AI アプリケーション特性に基づいた特定のアクセラレーションソリューションに対応します。
Cloud-Native AI Suite:基盤となるサービスとコンポーネントで操作を簡素化し、GPUリソース使用率をモニタリングし、AI ジョブのログを収集および分析します。 コマンドラインを使用して AI ジョブを送信し、モデルトレーニングのスケジュールを確認できます。
AI Job Scheduling:AI ジョブをスケジュールして、モデルトレーニングを高速化し、GPU 使用率を高め、コストを削減します。
AIACC:Tensoflow、PyTorch、MXNet、Caffe などの深層学習フレームワークを活用して、画像の分類、画像認識、クリックスルー率予測、神経言語プログラミング、音声認識、顔認識などを実現します。
Data Acceleration: オンプレミスとは異なるデバイスにデータを保存し、モデルトレーニングを Alibaba Cloud で実行する、ストレージと計算リソースを分離したアーキテクチャを採用しています。 データは小さなファイルに保存され、送信とトレーニング効率を向上させるため、モデルトレーニングの前にウォームアップされます。
Resource Scheduling:GPU リソースを複数の AI ジョブで共有し、分散モデルトレーニングで単一の AI ジョブを複数の GPU で実行することで GPU の使用率を高め、コストを削減します。
Computing Resource - GPU:cGPU で GPU メモリと計算能力をコンテナとして管理およびスケジュールし、AI のトレーニングと推論を加速します。

cGPU による GPU 使用率の向上

GPU メモリと計算能力をコンテナとして管理およびスケジュールすることで、GPU の使用効率を最大化し、コストを節約します

詳細を見る

ユースケース

画像認識

MXNet + SyncBN の分散トレーニング。 パフォーマンスが 50% 向上しました。

NLP

自然言語処理の分散トレーニング。 パフォーマンスは 6 倍になりました。

音声認識

音声の文字起こし。 生徒に送信され、生徒が話しているときに画面に表示されるテキスト。

CTR (クリックスルー率)

分散トレーニング。 パフォーマンスは 6.6 倍になりました。

特別オファー

Elastic GPU Service

GPU テクノロジーに基づく強力な並列計算機能

15 % オフ

• 深層学習

• ビデオ処理

• 科学計算

USD 9164.190/年

File Storage NAS

ECS インスタンス、HPC、コンテナーサービスで使用するための、シンプルで拡張性が高く、オンデマンドで信頼性の高いネットワーク接続ストレージ

25 % オフ

• 従量課金

• 容量タイプ NAS ファイルシステム

• パフォーマンスタイプ NAS ファイルシステム

USD 4.14/年~

Container Registry

コンテナーイメージの安全な管理と効率的な配布を実現するエンタープライズクラスのプラットフォーム

• ACR EE Advanced Edition

• エンタープライズレベルのセキュリティ

• グローバルで配布を高速化

USD 1,356.00/年~

Platform for AI

データマイニングと分析のためのエンドツーエンドのプラットフォーム

• 視覚化されたインターフェース

• 100 を超えるアルゴリズムコンポーネント

• パワフルな計算能力

USD 0.00/タスク/時間~

セキュリティとコンプライアンス

Alibaba Cloud は、安定性、信頼性、安全性を兼ね備え、標準に準拠したクラウドコンピューティングインフラストラクチャサービスを、世界の主要な司法管轄区域全体に提供することに取り組んでいます。
詳細を見る
  • CSA STAR
  • ISO 27001
  • SOC2 Type II Report
  • C5
  • MLPS 2.0
  • MTCS

お客様の導入事例

「Sina Weibo は、Function Compute を使用して画像ファイルを処理することで、継続的にコストを節約しています。 ピーク時のトラフィックの急増に備えて、多数のアイドル状態のマシンリソースを予約しておく必要はありません。 当社のエンジニアは、サーバーステータスのモニタリングなどのインフラストラクチャ管理に無駄な時間を費やすことなく、 プロダクトチームと協力してビジネスの価値を高めることに集中できます。」

Sina Weibo は、ユーザー同士が簡単につながることを目的としたソーシャルメディアプラットフォームです。 ユーザーは、全く新しいシンプルな方法でリアルタイムに投稿を作成できます。 ユーザーは互いに対話し、バイラルでありながら有益なコンテンツを通じて世界中の人々とつながることができます。

関連リソース

ホワイトペーパー

AI アクセラレーションホワイトペーパー

このホワイトペーパーでは、AI インフラストラクチャレイヤーのメカニズムと AI アクセラレーションのサポート方法のすべてについて解説します。

詳細を見る >

ベストプラクティス

AI 推論のための cGPU (GPU共有)

このドキュメントでは、ACK 環境で cGPU コンポーネントをデプロイする方法について説明します。

詳細を見る >

ベストプラクティス

AI アクセラレーションのデモ - AIACC + ACK (Tensorflow)

このデモでは、TensorFlow 2.4 で ImageNet をトレーニングする際に ACK (K8s) で動作する AI アクセラレーションエンジンである AIACC を活用して AI トレーニングを高速化します。

詳細を見る >

ベストプラクティス

AI アクセラレーションのデモ - AIACC (TensorFlow)

このソリューションは、TensorFlow 2.4 で ImageNet をトレーニングする際に AI アクセラレーションエンジンである AIACC を活用して AI トレーニングを高速化します。

詳細を見る >

ベストプラクティス

AI アクセラレーションのデモ - AIACC + ACK (Pytorch)

このソリューションは、Pytorch 1.9 で ImageNet データをトレーニングする際に ACK (K8s) で動作する AI アクセラレーションエンジンである AIACC を活用して AI トレーニングを高速化します。

詳細を見る >

オンラインコース

AIACC による深層学習タスクの高速化

このデモでは、既存の TensorFlow コードを一切変更せずに 18~74% の高速化を達成した例をご紹介します。標準的な MNIST の手書き数字のデータセットおよび新型コロナウイルスの胸部 X 線検査という 2 つの例から、AIACC の強みを見ていきます。

詳細を見る >

Alibaba Cloud ソリューションの利用開始

Alibaba Cloud のパワーを学習し、体験できます。

お問い合わせ