全部产品
Search
文档中心

人工智能平台 PAI:语音类

更新时间:Nov 01, 2023

iTAG提供了音频分类、音频分割、音频识别的语音类标注模板,创建标注任务时,您需要根据应用场景选择标注模板。本文为您介绍语音类模板的应用场景及数据结构。

背景信息

本文介绍以下语音类标注模板的数据结构:

音频分类

音频分类(Audio Classification)是指从一组固定的分类标签集合中,找到与输入音频内容相匹配的一个或多个分类标签,并将其分配给该输入音频。该模板支持单标签和多标签音频分类。

  • 应用场景

    场景声音分类等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "标签1", 
                      "markTitle": "单选", 
                      "type": "survey/value"
                  }
              ]
          }
      }

音频分割

音频分割(Audio segmentation)是指将一段音频通过识别后,利用波形图将音频分割成多段,并匹配上不同的标签内容。

  • 应用场景

    对话内容分析等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/21.wav"
          }, 
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0, 
                      "objects": [
                          {
                              "result": {
                                  "音频识别结果": "通过音频识别得到的结果内容1。", 
                                  "单选": "标签1"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_ei0aet9uvp8", 
                              "start": 2.3886218302094817, 
                              "end": 4.635545755237045
                          }, 
                          {
                              "result": {
                                  "音频识别结果": "通过音频识别得到的结果内容2。", 
                                  "单选": "标签2"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_kl39gnlb2k", 
                              "start": 5.698280044101433, 
                              "end": 7.348048511576626
                          }
                      ], 
                      "empty": false
                  }
              ]
          }
      }

音频识别

音频识别ASR是指将一段音频识别为文本内容,同时可以进行相应标签的匹配。

  • 应用场景

    方言识别等。

  • 数据结构

    • 输入数据

      manifest文件的每行数据是一道题目,且每行数据必须包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 输出数据

      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/14.wav"
          }, 
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "通过音频识别得到的结果内容。", 
                      "markTitle": "音频识别结果", 
                      "type": "survey/value"
                  }, 
                  {
                      "questionId": "3", 
                      "data": [
                          "标签1", 
                          "标签2"
                      ], 
                      "markTitle": "多选", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }