您可以通过自动化测试建立测试任务,从而对模型的识别准确率形成量化衡量。尤其对于语言定制模型而言,当测试集不变的情况下,通过自动化测试可以看到每次自学习模型训练对于准确率的提升或者降低。
操作步骤
进入智能语音交互管理控制台。
在左侧导航栏进入自动化测试页,单击创建任务。
选择或者上传测试集。
测试集类型目前支持标注好的测试集以及纯文本测试集。当测试数据集有异常时,数据集解析及测试任务都会失败。
标注测试集
适用于有音频数据,也有标注结果。按照下列格式上传,系统会自动检测采样率,当采样率非标准采样率(非16K或8K采样率)时,系统会自动调整为适合的采样率。
要求如下:
路径中不允许有中文。
每个WAV文件名必须是唯一的。
WAV文件(.wav后缀)和标注TXT(.txt后缀)文件必须分别放置在两个目录,且后缀必须为英文小写。
WAV文件要求:单通道,8KHz或16KHz采样率,16bit采样位数的PCM编码WAV文件(可使用Sox工具通过Channels、Sample Rate和Sample Encoding进行判断)。
标注文件:
要求如下:
标注文件格式:UTF-8无BOM编码,各字段间用tab键分隔。
trans目录中可以包含多个TXT文件,每个TXT文件中指定多个WAV文件对应的标注文本。
标注文件第一列音频文件名需要和wav目录的音频文件名对应(注意文件名带.wav后缀)。
标注文本应该是归一化后的(按照实际读音转写成汉字,”5256”对应”五千二百五十六”,”2004”对应”二零零四”或”两千零四”,”19%”对应”百分之十九”等) ,WAV文件名不需要带目录,因为文件名唯一。
文本测试集
文本测试集适用于没有音频数据,只有文本语料数据的场景,我们会通过语音合成帮您合成相应的音频数据构造标注好的测试集。要求如下:
请上传1个文本文件,仅支持TXT格式(UTF-8无BOM编码)。
请不要携带标点符号,每行不超过300字。
选择测试模型后,单击确定,此时当前状态显示测试中。
您也可以先创建测试集,在创建任务时,选择相应测试集进行测试。
采样率相同的测试集可以选择多个一起进行测试。