このトピックでは、GPUアクセラレーションインスタンスに関するよくある質問に対する回答を提供します。
Function ComputeのGPU高速化インスタンスで使用されるドライバーのバージョンは何ですか?
現在のドライバーのバージョンは535.129.03です。
NVIDIAは、Function ComputeのGPU高速化インスタンスで使用されるドライバーを提供します。 GPUアクセラレーションインスタンスで使用されるドライバーのバージョンは、機能の反復、新しいカードモデルのリリース、バグ修正、ドライバーのライフサイクルの有効期限の結果として、将来的に変更される可能性があります。 コンテナーイメージで特定のドライバーバージョンを指定しないことを推奨します。 詳細については、「画像の使用に関する注意事項」をご参照ください。
Function ComputeのGPUアクセラレーションインスタンスのCUDAバージョンは何ですか?
CUDAのバージョンは、使用するコンテナイメージによって異なります。 Function ComputeでCUDA 11.x以降を使用することを推奨します。
イメージをビルドするときにCUDA GPGエラーが報告された場合はどうすればよいですか?
イメージ構築プロセス中に、次のGPGエラーが報告されます。
W: GPG error: https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64 InRelease: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY A4B469963BF863CC
E: The repository 'https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64 InRelease' is not signed.
この場合、次のスクリプトをDockerfileファイルのRUN rm
コマンドラインに追加して、イメージを再構築できます。
RUN apt-key adv --keyserver keyserver.ubuntu.com --recv-keys A4B469963BF863CC
GPUアクセラレーションインスタンスのインスタンスタイプがg1であるのはなぜですか。
g1インスタンスタイプはfc.gpu.tesla.1と同じです。 詳細については、「インスタンスタイプと使用モード」トピックの「インスタンスタイプ」セクションをご参照ください。
プロビジョニングされたGPUアクセラレーションインスタンスが割り当てられないのはなぜですか?
次の理由により、プロビジョニングされたインスタンスの割り当てが失敗する場合があります。
プロビジョニングされたインスタンスの起動がタイムアウトします。
エラーコード: FunctionNotStarted.
エラーメッセージ: ファンクションインスタンスのヘルスチェックはポートXXXで120秒で失敗しました。
解決策: アプリケーションの起動ロジックを表示して、インターネットからモデルをダウンロードし、大きなモデル (10 GBを超える) をロードするロジックが存在するかどうかを確認します。 モデルの読み込みロジックを実行する前に、webサーバーを起動することをお勧めします。
関数レベルまたはリージョンレベルでのインスタンスの最大数に達しました。
エラーコード: ResourceThrottled.
エラーメッセージ: 予約リソースの制限を超えました。
解決策: 物理カードの要件が高い場合は、DingTalkグループ11721331に参加してテクニカルサポートを行います。
GPUイメージのサイズの制限は何ですか?
画像サイズ制限は、圧縮画像にのみ適用されます。 圧縮されたイメージのサイズは、Container Registryコンソールで確認できます。 docker image
コマンドを実行して、圧縮イメージのサイズを照会することもできます。
ほとんどの場合、サイズが20 GB未満の非圧縮イメージをFunction Computeにデプロイして、期待どおりに使用できます。
GPUイメージを高速化イメージに変換できない場合はどうすればよいですか?
画像の加速変換に必要な時間は、画像のサイズが大きくなるにつれて長くなります。 これは変換の失敗を引き起こす可能性があります。 Function Computeコンソールで関数設定を設定および保存して、パラメーターを変更せずにイメージの変換を再度トリガーできます。
モデルを画像に統合または分離する必要がありますか?
モデルをイメージに統合することを推奨します。 このようにして、モデルはイメージキャッシュを再利用して、追加のストレージコストを発生させずに配布を高速化できます。
モデルのサイズが大きい (5 GBを超える) などの理由でモデルをイメージに統合できない場合は、モデルをApsara File Storage NAS (NAS) に保存し、アプリケーションの起動時にモデルをロードすることをお勧めします。 容量NASファイルシステムではなく、パフォーマンスの汎用NASファイルシステムを使用することを推奨します。 詳細については、「汎用NASファイルシステム」をご参照ください。
モデルのウォームアップを実行するにはどうすればよいですか?
/initialize
メソッドでモデルをウォームアップすることを推奨します。 モデルは、/initialize
メソッドが完了した後にのみ本番トラフィックに接続されます。 モデルのウォームアップの詳細については、次のトピックを参照してください。
GPUイメージの起動時に [FunctionNotStarted] ファンクションインスタンスのヘルスチェックがポートxxxで120秒で失敗しましたエラーが報告された場合はどうすればよいですか?
原因: AI/GPUアプリケーションの起動に時間がかかりすぎます。 その結果、Function Computeのヘルスチェックは失敗します。 AI/GPUアプリケーションの起動に時間がかかりすぎる一般的な理由は、モデルの読み込みに時間がかかりすぎるため、webサーバーの起動がタイムアウトすることです。
解決策:
アプリケーションの起動時に、インターネットからモデルを動的にロードしないでください。 モデルをイメージまたはNASファイルシステムに配置し、最も近いパスからモデルをロードすることを推奨します。
モデル初期化を
/initialize
メソッドに配置して、アプリケーションを優先的に起動します。 つまり、webサーバーの起動後にモードをロードします。説明関数インスタンスのライフサイクルの詳細については、「関数インスタンスのライフサイクル」をご参照ください。
関数のエンドツーエンドのレイテンシが大きく、大きく変動する場合はどうすればよいですか?
イメージアクセラレーションの状態が環境情報で使用可能であることを確認してください。
NASファイルシステムのタイプを確認してください。 関数がNASファイルシステムからモデルなどのデータを読み取る必要がある場合は、パフォーマンスを確保するために、容量のNASファイルシステムではなく、パフォーマンスの汎用NASファイルシステムを使用することをお勧めします。 詳細については、「汎用NASファイルシステム」をご参照ください。
システムがNVIDIAドライバーを见つけられない场合はどうすればよいですか?
この問題は、docker run -- gpus all
コマンドを実行してコンテナーを指定し、docker commit
メソッドを使用してアプリケーションイメージを構築すると発生します。 ビルドされたイメージにはオンプレミスのNVIDIA情報が含まれており、イメージがFunction Computeにデプロイされた後はドライバをマウントできません。 システムはNVIDIAドライバを見つけることができません。
この問題を解決するには、Dockerfileを使用してアプリケーションイメージを作成することを推奨します。 詳細は、「Dockerfile」をご参照ください。
コンテナーイメージで特定のドライバーバージョンを指定しないでください。 詳細については、「画像の使用に関する注意事項」をご参照ください。