阿里云官方对某些场景(包括通用、教育、司法、医疗等)进行了大量语音识别训练,提供了高准确率场景模型。如果您需要的语音识别服务场景不在所提供的模型范围内,或者需要对标准模型进行更进一步优化,可以通过自学习平台的语言模型定制,达成优化目的。
功能优势
通过使用阿里云语音自学习工具,您可以在操作界面上传训练语料文本,并选择对应领域的语言基础模型,对训练语料做模型训练,从而有效提高该场景的语音识别率。尤其针对专有名词和高频词汇,有较好的优化效果。
控制台与POP API设置自学习模型的区别
使用控制台训练和管理自学习模型,可以界面化操作,在控制台项目功能配置中,单击切换场景,选择自学习模型,发布上线后将与appkey绑定,而无需在代码中自行设置。
使用POP API创建的自学习模型,需要您在客户端代码中调用SDK的接口设置自学习模型的ID,该模型才能生效。
训练语料说明
调用限制
训练数据为领域相关的文本,与待识别语音数据越接近,优化效果越好。
以文本方式保存,使用
UTF-8(无BOM)
格式编码,文件大小不超过10 MB。每位用户最多支持创建10个模型。
一句话或者一个被加强调优的关键词单独一行,控制每行的长度在500个字符以内。
文本中的数字需要按照发音替换为对应的汉字。例如,“58.9”需要转换为“五十八点九”。
文件中需要至少有一行为句子(大于4个词)。
只采用逗号(,)、句号(。)、问号(?)和感叹号(!),句尾需要加标点。像书名号(《》)、双引号(“”)等标点应去除。
优化建议
对于识别不准确的关键词,可以将含该词的句子或者关键词(一个关键词在训练文本中独占一行)多复制几行,例如10行。如果效果仍不满意,可以适当增加复制行数。
需要首先排除关键词识别不准确,不是发音不清晰或者音频质量不好造成的。
建议经过识别试错,谨慎提供训练语料,避免相同发音的其他内容识别错误。
应用举例
下载训练语料,以阿里巴巴简介为例:
一九九九年九月,马云带领下的十八位创始人在杭州的公寓中正式成立了阿里巴巴集团,集团的首个网站是英文全球批发贸易市场阿里巴巴。
一九九九年十月,阿里巴巴集团从数家投资机构融资五百万美元。
一九九九年十月,阿里巴巴集团从数家投资机构融资五百万美元。
二零零零年一月,阿里巴巴集团从软银等数家投资机构融资两千万美元。
二零零零年一月,阿里巴巴集团从软银等数家投资机构融资两千万美元。
二零零零年九月,阿里巴巴集团举办首届西湖论剑,汇聚互联网界的商业和意见领袖讨论业界重要议题。
如果“融资”、“互联网”等是业务关键词,可以将含这两个词的句子多复制几遍。
训练流程如下:
选择基础模型:采用通用模型(具体选择何种模型可根据实际场景进行调整)。
训练语料采集:请将如上训练语料保存至训练文本。如果需要自行设置训练语料,请根据标点做裁剪,将每句话保存为训练文本中的一行。
操作训练模型:通过自学习服务提交语料并训练之后,采用训练出的模型,能够有效识别出训练语料中的词汇,获得理想的识别效果。