iTAG提供了音频分类、音频分割、音频识别的语音类标注模板,创建标注任务时,您需要根据应用场景选择标注模板。本文为您介绍语音类模板的应用场景及数据结构。
背景信息
音频分类
音频分类(Audio Classification)是指从一组固定的分类标签集合中,找到与输入音频内容相匹配的一个或多个分类标签,并将其分配给该输入音频。该模板支持单标签和多标签音频分类。
应用场景
场景声音分类等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "标签1", "markTitle": "单选", "type": "survey/value" } ] } }
音频分割
音频分割(Audio segmentation)是指将一段音频通过识别后,利用波形图将音频分割成多段,并匹配上不同的标签内容。
应用场景
对话内容分析等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "音频识别结果": "通过音频识别得到的结果内容1。", "单选": "标签1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "音频识别结果": "通过音频识别得到的结果内容2。", "单选": "标签2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
音频识别
音频识别ASR是指将一段音频识别为文本内容,同时可以进行相应标签的匹配。
应用场景
方言识别等。
数据结构
输入数据
manifest文件的每行数据是一道题目,且每行数据必须包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
输出数据
manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "通过音频识别得到的结果内容。", "markTitle": "音频识别结果", "type": "survey/value" }, { "questionId": "3", "data": [ "标签1", "标签2" ], "markTitle": "多选", "type": "survey/multivalue" } ] } }