AI (PAI) の機械学習プラットフォームのiTAGは、オーディオ分類、オーディオセグメンテーション、および自動音声認識 (ASR) のラベリングテンプレートを提供します。 オーディオラベル付けジョブを作成するときに、ビジネスシナリオに基づいてラベル付けテンプレートを選択できます。 このトピックでは、オーディオラベリングテンプレートのシナリオと、これらのテンプレートの入力データと出力データのデータ構造について説明します。
背景情報
iTAGは、次の機能をサポートするオーディオラベリングテンプレートを提供します。
オーディオ分類
オーディオ分類は、ラベルのセットから入力オーディオと一致する1つ以上のラベルを見つけ、ラベルをオーディオに追加するために使用されます。 このテンプレートは、シングルラベルおよびマルチラベルのオーディオ分類をサポートします。
シナリオ
このラベリングテンプレートは、環境音の分類などのシナリオに適用されます。
データ構造
入力データ
入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。
{"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}} ...
出力データ
出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "Label 1", "markTitle": "Single-choice", "type": "survey/value" } ] } }
オーディオセグメンテーション
オーディオセグメンテーションは、オーディオをいくつかのクリップに分割し、これらのクリップにラベルを付けるために使用されます。 音波グラフを使用して、オーディオの分割方法を決定できます。
シナリオ
このラベリングテンプレートは、ダイアログ分析などのシナリオに適用されます。
データ構造
入力データ
入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。
{"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}} ...
出力データ
出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "Audio segmentation result": "Result 1", "Single-choice": "Label 1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "Audio segmentation result": "Result 2", "Single-choice": "Label 2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
ASR
ASRは、オーディオのコンテンツをテキストに変換し、テキストにラベルを付けるために使用されます。
シナリオ
このラベリングテンプレートは、方言認識などのシナリオに適用されます。
データ構造
入力データ
入力データの. マニフェストファイルの各行にはオブジェクトを含む。 各行にsourceフィールドを含める必要があります。
{"data":{"source":"oss:// examplebucket.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}} ...
出力データ
出力データの. マニフェストファイルの各行には、オブジェクトとそのオブジェクトのラベル付け結果が含まれます。 次のコードは、各行のJSON文字列の例を示しています。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/examplebucket/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "ASR result", "markTitle": "ASR result", "type": "survey/value" }, { "questionId": "3", "data": [ "Label 1", "Label 2" ], "markTitle": "Multiple-choice", "type": "survey/multivalue" } ] } }