すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ビデオ分類

最終更新日:Jul 22, 2024

ビデオ分類コンポーネントを使用して、未処理のビデオデータに基づいて推論するためのビデオ分類モデルをトレーニングできます。 このトピックでは、ビデオ分類コンポーネントを設定する方法について説明し、Platform for AI (PAI) でコンポーネントを使用する方法の例を示します。

前提条件

OSSが有効化され、Machine Learning StudioはOSSへのアクセスが許可されています。 詳細については、「OSSの有効化」および「Machine Learning Designerの使用に必要な権限の付与」をご参照ください。

制限事項

  • ビデオ分類コンポーネントは、PAIのMachine Learning Designerでのみ使用できます。

  • ビデオ分類コンポーネントは、Deep Learning Container (DLC) のコンピューティングリソースで使用できます。

概要

ビデオ分類モジュールは、主流の3D畳み込みニューラルネットワーク (CNN) と、ビデオ分類トレーニングジョブを実行するために使用できるトランスフォーマモデルとを提供します。 サポートされるX3Dモデルは、X3D-XS、X3D-M、およびX3D-Lを含み、サポートされる変圧器モデルは、swin − t、swin − s、swin − b、およびswin − t − bertを含む。 swin-t-bertモデルは、ビデオおよびテキストデータに基づくデュアルモーダル入力をサポートします。

ビデオ分類コンポーネントは、コンポーネントライブラリの [ビデオアルゴリズム] フォルダーの [オフライントレーニング] サブフォルダーにあります。

PAIコンソールでコンポーネントを設定する

  • 入力ポート

    入力ポート (左から右へ)

    データ型

    推奨上流コンポーネント

    必須

    列車データ

    OSS

    ファイルデータの読み取り

    いいえ。 この入力ポートを使用してトレーニングデータをビデオ分類コンポーネントに渡さない場合は、コンポーネントの [フィールド設定] タブに移動し、[ファイルのトレーニングパス] パラメーターを設定する必要があります。 詳細については、このトピックの「コンポーネントパラメーター」をご参照ください。

    evalデータ

    OSS

    ファイルデータの読み取り

    いいえ。 この入力ポートを使用して評価データをビデオ分類コンポーネントに渡さない場合は、コンポーネントの [フィールド設定] タブに移動し、[評価ファイルへのossパス] パラメーターを設定する必要があります。 詳細については、このトピックの「コンポーネントパラメーター」をご参照ください。

  • コンポーネントパラメータ

    タブ

    パラメーター

    必須

    説明

    デフォルト値

    フィールド設定

    ossパスを保存するチェックポイント

    モデルが保存されているObject Storage Service (OSS) パス。 例: oss:// pai-online-shanghai.oss-cn-shanghai-internal.aliyuncs.com/test/test_video_cls

    N/A

    oss path to data

    不可

    ビデオファイルが保存されているOSSディレクトリ。 ディレクトリが指定されている場合、ビデオファイルのパスには、ディレクトリとラベリングファイル内のビデオファイルの名前が含まれます。 たとえば、OSSディレクトリがoss:// pai-vision-data-hz/EasyMM/DataSet/kinetics400/ で、ラベリングファイルのビデオファイル名がvideo/1.mp4の場合、ビデオファイルパスはoss:// pai-vision-data-hz/EasyMM/DataSet/kinetics400/video/1.mp4です。

    N/A

    oss path to train file

    不可

    トレーニングデータが保存されるOSSパス。 このパラメーターは、トレーニングデータをビデオ分類コンポーネントに渡すために入力ポートを使用しない場合に必要です。 例: oss:// pai-vision-data-hz/EasyMM/DataSet/kinetics400/train_pai.txt

    入力ポートとこのパラメーターの両方を使用してトレーニングデータをビデオ分類コンポーネントに渡す場合は、入力ポートを使用して渡されたトレーニングデータが使用されます。

    ラベリングファイルにテキストが含まれていない場合は、ラベリングファイルの各行のビデオファイル名とラベルをスペースで区切ります。 例: ビデオファイル名Label ラベリングファイルにテキストが含まれている場合は、各行のビデオファイル名、テキスト、およびラベルを \tで区切ります。 例: ビデオファイル名 \tText\tLabel

    N/A

    評価ファイルへのossパス

    不可

    評価データが保存されるOSSパス。 このパラメーターは、評価データをビデオ分類コンポーネントに渡すために入力ポートを使用しない場合に必要です。 例: oss:// pai-vision-data-hz/EasyMM/DataSet/kinetics400/train_pai.txt

    入力ポートとこのパラメーターの両方を使用して評価データをビデオ分類コンポーネントに渡す場合は、入力ポートを使用して渡された評価データが使用されます。

    N/A

    事前トレーニング済みモデルへのoss path to pretrained model

    不可

    事前トレーニング済みモデルが格納されているOSSパス。 モデルの精度を向上させるには、事前トレーニング済みモデルを使用することを推奨します。

    N/A

    パラメーター設定

    ビデオ分類ネットワーク

    モデルによって使用されるネットワーク。 有効な値:

    • x3d_xs

    • x3d_l

    • x3d_m

    • swin_t

    • swin_s

    • swin_b

    • swin_t_bert

    x3d_xs

    マルチラベルを使用するかどうか

    不可

    複数のラベルを使用するかどうかを指定します。

    このパラメーターは、swin_t_bertネットワークを選択した場合にのみ使用できます。

    false

    numclasses

    カテゴリの数。

    N/A

    学習率

    初期学習率。

    x3dモデルの場合、学習率を0.1に設定することを推奨します。 swinモデルでは、学習率を0.0001に設定することを推奨します。

    0.1

    数の列車エポック

    トレーニングの繰り返し回数。

    x3dモデルの場合、値を300に設定することを推奨します。 swinモデルの場合、値を30に設定することを推奨します。

    10

    ウォームアップエポック

    ウォームアップの繰り返し回数。 ウォームアップの初期学習率を小さい値に設定することを推奨します。 このように、学習レートパラメータの値は、指定された回数のウォームアップ反復が実装された後にのみ到達することができる。 これにより、モデルの勾配が爆発するのを防ぎます。 たとえば、ウォームアップエポックパラメーターを35に設定した場合、モデルの学習レートは、35回のウォームアップイテレーションの後、学習レートパラメーターで指定された値まで徐々に増加します。

    35

    バッチサイズ

    トレーニングバッチのサイズ。 このパラメーターは、1つのモデルの反復処理またはトレーニングプロセスで使用されるデータサンプルの数を指定します。

    32

    モデル保存間隔

    不可

    チェックポイントが保存されるエポック間隔。 値1は、エポックが完了するたびにチェックポイントが保存されることを示します。

    1

    チューニング

    使用fp 16

    モデルトレーニング中のメモリ使用量を減らすためにFP16を有効にするかどうかを指定します。

    N/A

    シングルワーカーまたはdlcに分散

    不可

    コンポーネントが実行されるモード。 有効な値:

    • single_dlc: ディープラーニングコンテナ (DLC) 上の単一のワーカー

    • distribute_dlc: DLC上の分散ワーカー

    single_dlc

    gpuマシンタイプ

    不可

    使用するGPU高速化ノードの仕様。

    8vCPU + 60GB Mem + 1xp100-ecs.gn5-c8g1.2xlarge

  • 出力ポート

    出力ポート (左から右)

    データ型

    下流コンポーネント

    出力モデル

    出力モデルのOSSパス。 この値は、[フィールド設定] タブの [oss path to save checkpoint] パラメーターに指定した値と同じです。 の出力モデルは、. pth形式はこのOSSパスに格納されます。

    ビデオ予測

次の図は、ビデオ分類コンポーネントが使用されるサンプルパイプラインを示しています。 视频分类示例この例では、次の手順を実行して、前の図のコンポーネントを構成します。

  1. 2つのRead File Dataコンポーネントをビデオ分類コンポーネントの上流コンポーネントとして使用して、コンポーネントの入力トレーニングデータおよび評価データとしてビデオデータファイルを読み取ります。 これを行うには、2つの [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターをビデオデータファイルのOSSパスに設定します。

    次の図は、ビデオラベリングファイルの形式を示しています。 标签文件ファイルの各行には、スペース文字で区切られたビデオファイルパスとカテゴリラベルが含まれています。

  2. トレーニングデータと評価データをビデオ分類コンポーネントの入力として指定し、その他のパラメーターを設定します。 詳細については、「ビデオ分類コンポーネントの設定」をご参照ください。

関連ドキュメント