Deep Learning Containers (DLC) of Platform for AI (PAI) は、クラウドネイティブのAIトレーニングプラットフォームであり、開発者と企業に、機械学習のための柔軟で安定した、使いやすく、高性能な環境を提供します。 幅広いアルゴリズムフレームワーク、大規模な分散ディープラーニングジョブ、およびカスタムアルゴリズムフレームワークをサポートします。 DLCを使用すると、開発者と企業は強化されたトレーニング環境を活用でき、コストの削減とトレーニング効率の向上に役立ちます。
メリット
多様なコンピューティングリソース:
DLCは、Lingjun AIコンピューティングサービスと一般的なコンピューティングリソースを活用して、Elastic Computing Service (ECS) 、Elastic Container Instance (ECI) 、ECSベアメタルインスタンス、Lingjunベアメタルインスタンスなど、さまざまなコンピューティングオプションをサポートします。 これは、異種コンピューティングリソースのハイブリッドスケジューリングを可能にする。
分散ジョブタイプ:
分散トレーニングシステムとして、DLCは、さまざまなクラスターを必要とせずに、Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI、XGBoostなど、10を超えるトレーニングフレームワークのジョブ提出プロセスを簡素化します。 DLCは複数の公式イメージを提供し、カスタム開発環境とコンソール、SDK、コマンドラインなどの送信方法をサポートします。 これは、AIトレーニングシナリオのための包括的なサービスと大規模な顧客のための合理化された統合方法を提供します。
高い安定性:
基礎モデルのトレーニングを含むシナリオでは、PAI-DLCは独自のフォールトトレランスエンジンAIMaster、高性能チェックポイントフレームワークEasyCKPT、ヘルス検出ツールSanityCheck、およびノード自己修復機能で安定性の問題に対処します。 これらの機能により、迅速な検出、正確なセンシング、および迅速なフィードバックが可能になり、計算能力の損失を効果的に最小限に抑え、トレーニングの安定性を高めます。
高性能:
PAIによって開発されたAIトレーニングアクセラレーションフレームワークは、データ並列処理、パイプライン並列処理、演算子分割、およびネストされた並列アクセラレーション戦略を統合することにより、高性能を実現します。 並列戦略を自動的に調査し、多次元ビデオメモリを最適化し、高速ネットワークのトポロジ認識スケジューリングと組み合わせて、通信スレッドプール、勾配グループ融合、混合精度通信、および勾配を備えた最適化された通信ライブラリを通じて分散トレーニング効率を向上させます。圧縮。 これは、最適なトレーニングエンジンを提供する、基礎モデルの事前トレーニング、連続トレーニング、および整合分散トレーニングシナリオにおいて特に有益である。
リソースタイプ
PAIは、必要なシナリオとコンピューティングリソースに基づいて、DLCを介してトレーニングジョブを送信するための2つのリソースタイプを提供します。
Lingjunリソース: 基礎モデルのトレーニングに合わせたこのサービスは、広範なコンピューティングリソースを必要とするディープラーニングの仕事に最適です。 超大規模なディープラーニングと統合AIコンピューティングに対応し、統合されたソフトウェアとハードウェアの最適化テクノロジーを活用して、高性能の異種コンピューティング基盤を構築します。 大規模モデルトレーニング、自動運転、基礎研究、および財務の多様なニーズを満たすために、高性能、効率、および利用率を特徴とする包括的なAIエンジニアリング機能を提供します。
一般的なコンピューティングリソース: このタイプは標準的なトレーニングに適しており、さまざまな規模や種類の機械学習ジョブを柔軟にサポートします。
Lingjun AI Computing Serviceと一般的なコンピューティングリソースは、次のソースをサポートします。
リソースクォータ: AI開発とトレーニングのためのサブスクリプションベースで事前にLingjun AIコンピューティングサービスまたは一般的なコンピューティングリソースを保護し、柔軟な管理と効率的なリソース利用を可能にします。
パブリックリソース: Lingjun AIコンピューティングサービスまたは一般的なコンピューティングリソースをオンデマンドで利用して、トレーニングジョブを送信します。
プリエンプティブルリソース: Lingjun AI Computing Serviceはプリエンプティブルリソースを提供し、必要なAIコンピューティングパワーに低コストでアクセスできるため、ジョブ実行のリソース費用が削減されます。
シナリオ
データ前処理
データのオフライン並列前処理のためのランタイム環境のカスタマイズを可能にし、データ前処理に関連するエンジニアリングの課題を大幅に簡素化します。
大規模分散トレーニング
複数のオープンソースの深層学習フレームワークで、オフラインの大規模分散深層トレーニングを容易にします。 DLCは、数千のノードにわたる同時トレーニングをサポートし、トレーニング期間を劇的に短縮します。
オフライン推論
DLCは、モデルのオフライン推論をサポートし、アイドルGPUリソースの使用を最適化し、リソースの浪費を大幅に削減します。