すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:音声ラベリングテンプレート

最終更新日:Jul 22, 2024

AI (PAI) の機械学習プラットフォームのiTAGは、オーディオ分類、オーディオセグメンテーション、および自動音声認識 (ASR) のラベリングテンプレートを提供します。 オーディオラベル付けジョブを作成するときに、ビジネスシナリオに基づいてラベル付けテンプレートを選択できます。 このトピックでは、オーディオラベリングテンプレートのシナリオと、これらのテンプレートの入力データと出力データのデータ構造について説明します。

背景情報

iTAGは、次の機能をサポートするオーディオラベリングテンプレートを提供します。

オーディオ分類

オーディオ分類は、ラベルのセットから入力オーディオと一致する1つ以上のラベルを見つけ、ラベルをオーディオに追加するために使用されます。 このテンプレートは、シングルラベルおよびマルチラベルのオーディオ分類をサポートします。

  • シナリオ

    このラベリングテンプレートは、環境音の分類などのシナリオに適用されます。

  • データ構造

    • 入力データ

      入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。

      {"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}}
      ... 
    • 出力データ

      出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "Label 1", 
                      "markTitle": "Single-choice", 
                      "type": "survey/value"
                  }
              ]
          }
      }

オーディオセグメンテーション

オーディオセグメンテーションは、オーディオをいくつかのクリップに分割し、これらのクリップにラベルを付けるために使用されます。 音波グラフを使用して、オーディオの分割方法を決定できます。

  • シナリオ

    このラベリングテンプレートは、ダイアログ分析などのシナリオに適用されます。

  • データ構造

    • 入力データ

      入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。

      {"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}}
      ... 
    • 出力データ

      出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/21.wav"
          }, 
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0, 
                      "objects": [
                          {
                              "result": {
                                  "Audio segmentation result": "Result 1", 
                                  "Single-choice": "Label 1"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_ei0aet9uvp8", 
                              "start": 2.3886218302094817, 
                              "end": 4.635545755237045
                          }, 
                          {
                              "result": {
                                  "Audio segmentation result": "Result 2", 
                                  "Single-choice": "Label 2"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_kl39gnlb2k", 
                              "start": 5.698280044101433, 
                              "end": 7.348048511576626
                          }
                      ], 
                      "empty": false
                  }
              ]
          }
      }

ASR

ASRは、オーディオのコンテンツをテキストに変換し、テキストにラベルを付けるために使用されます。

  • シナリオ

    このラベリングテンプレートは、方言認識などのシナリオに適用されます。

  • データ構造

    • 入力データ

      入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。

      {"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}}
      ... 
    • 出力データ

      出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/14.wav"
          }, 
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "ASR result", 
                      "markTitle": "ASR result", 
                      "type": "survey/value"
                  }, 
                  {
                      "questionId": "3", 
                      "data": [
                          "Label 1", 
                          "Label 2"
                      ], 
                      "markTitle": "Multiple-choice", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }