コンピューティング能力が不足している場合は、入札システムを介してコンピューティングリソースを割り当てるPlatform for AI (PAI) のプリエンプティブルジョブ機能を使用できます。 プリエンプティブルリソースは通常、公共の従量課金リソースよりも価格の優位性を提供します。 これにより、AIコンピューティングパワーへの費用対効果の高いアクセスが可能になり、ジョブの全体的な費用が削減されます。 このトピックでは、Lingjun AI Computing Serviceリソースを使用してディープラーニングコンテナ (DLC) でジョブを作成するときにプリエンプティブルリソースを使用する方法について説明します。
制限事項
プリエンプティブルジョブを使用できるのは、ホワイトリストのユーザーのみです。 この機能を使用する前に、アカウントマネージャーに連絡してください。
プリエンプティブルジョブ機能は、中国 (ウランカブ) およびシンガポールリージョンでのみ使用できます。
プリエンプティブルジョブ機能は、Lingjun AI Computing Serviceリソースのみをサポートします。
プリエンプティブルジョブには、次の制約があります。
サブスクリプションインスタンスに変換できません。
インスタンスと帯域幅の仕様は変更できません。
ICPファイリングサービスをサポートしていません。
主要顧客の割引はありません。
使用上の注意
プリエンプティブルリソースの価格は、現在の需要と供給によって変動し、パブリックの従量課金インスタンスと比較して、インスタンスコストを最大90% 削減できます。
プリエンプティブルリソースはAlibaba Cloudのすべてのユーザーがプリエンプトできるため、プリエンプティブルリソースの可用性は保証されません。 プリエンプティブルリソースでDLCジョブを実行する必要がある場合は、次の点に注意してください。
リソースリクエスト: プリエンプティブルリソースを使用してDLCジョブを送信すると、システムはリソースのプリエンプトを開始します。 リソースインベントリが不十分な場合、リソースが利用可能になるまでジョブは保留状態になります。
リソース取り消し: プリエンプティブルリソースは、市場価格、在庫、およびインスタンスの最大入札価格と期間に基づいて取り消すことができます。 DLCジョブが実行されているときでも、最大入札価格が平均市場価格を下回った場合、または在庫が不十分な場合、リソースが予告なしに取り消され、ジョブが失敗する可能性があります。 ジョブの安定性を向上させるには、次のことができます。
プリエンプティブルジョブを送信するときに自動障害許容範囲を有効にします。 これにより、タスクが入札プロセスに再入力され、再実行される可能性があります。 詳細については、「AIMaster: Elastic fault tolerance engine」をご参照ください。
頻繁なチェックポイントの保存と中断後のトレーニングの再開をサポートするPyTorchモデルトレーニングにEasyCkptフレームワークを使用します。 詳細については、「EasyCkptを使用した基礎モデルのトレーニングの保存と再開」をご参照ください。
課金
価格の説明:
プリエンプティブルリソースを使用するには、最大入札価格 (preemptibleWithPriceLimit) を設定する必要があります。 プリエンプティブルリソースの市場価格は需要と供給とともに変動し、同じリソースを使用する複数のジョブは、特定の期間に同じコストを負担する可能性があります。 次の表に、プリエンプティブルリソースのリソース仕様と価格範囲を示します。
プリエンプティブルリソースの市場価格は、リアルタイムで需要と供給とともに変動します。 最大入札価格は、10% の間隔で市場価格の10% から90% の範囲です。 実際の市場価格と最大入札価格がコンソールに表示されます。
リソース仕様 | 市場価格範囲 (USD /時間) | Maxium入札価格範囲 (USD /時間) | リージョン |
ml.gu7ef.8xlarge-gu100 | 5.700 ~ 57.000 | 5.7000 ~ 51.300 | 中国 (ウランチャブ) |
ml.gu7xf.8xlarge-gu108 | 5.040 ~ 50.400 | 5.040 ~ 45.360 | |
ml.gu8xf.8xlarge-gu108 | 12.240 ~ 122.400 | 12.240 ~ 110.160 | |
ml.gu8ef.8xlarge-gu100 | 23.220 ~ 232.200 | 23.220 ~ 208.980 | シンガポール |
課金の詳細を表示する:
ジョブ実行の翌日に [費用と費用] ページに移動して、プリエンプティブルリソースによって発生した費用を確認できます。 DLCの従量課金リソースと同様に、プリエンプティブルリソース注文の課金詳細がページに表示されます。 詳細については、「請求明細の確認」をご参照ください。
シナリオ
該当するシナリオ:
以下のシナリオでは、プリエンプティブルリソースを使用してコストを削減することを推奨します。
短い実行時間の仕事。
デバッグ中のジョブ。
中断を許可するジョブ。
頻繁なチェックポイントの保存と中断後のトレーニングの再開をサポートするPyTorchモデルトレーニング用のEasyCkptフレームワークを使用するジョブなど、中断からの再開をサポートするジョブ。 詳細については、「EasyCkptを使用した基礎モデルのトレーニングの保存と再開」をご参照ください。
適用不可能なシナリオ:
高い安定性を必要とするサービスには、プリエンプティブルリソースを使用しないでください。
手順
Lingjun AI Computing ServiceでDLCジョブにプリエンプティブルリソースを使用するには、次の手順に従います。
[ジョブの作成] ページに移動します。 詳細については、「ステップ1: ジョブの作成ページ」をご参照ください。
次のキーパラメーターを設定します。 詳細については、「トレーニングジョブの送信」をご参照ください。
パラメーター
説明
リソース情報
リソースタイプ
[Lingjun AI Computing Service] を選択します。
ソース
[プリエンプティブルリソース] を選択します。
求人リソース
[リソースタイプ] 列で、をクリックしてインスタンスタイプを選択し、[最大入札価格] を設定します。 最大入札価格は、10% の間隔で市場価格の10% から90% の範囲です。 入札額が市場価格を満たしているか超えており、在庫が利用可能な場合は、プリエンプティブルリソースを取得できます。
[VPC]
VPC(ID)
ドロップダウンリストから、仮想プライベートクラウド (VPC) 、vSwitch、およびセキュリティグループを選択します。
[セキュリティグループ]
vSwitch
フォールトトレランスと診断
自動故障トレランス
リソースの失効後にプリエンプティブルジョブが入札キューに再入力できるようにする自動障害許容範囲を有効にすることを推奨します。 平均市場価格があなたの最高入札価格を下回ったとき、仕事は再開することができます。 詳細については、「AIMaster: Elastic fault tolerance engine」をご参照ください。
パラメーターを設定したら、[確認] をクリックしてジョブを送信します。
次に、DLCはプリエンプティブルリソースの要求を開始します。 利用可能なリソースがない場合、ジョブは保留状態に入ります。