本文为您介绍智能语音交互服务中的相关概念,以便于更好地理解本产品。
采样率(sample rate)
音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
目前语音识别服务支持16000Hz和8000Hz两种采样率,其中电话业务一般使用8000Hz,其余业务使用16000Hz。
调用语音识别服务时,如果语音数据采样率高于16000Hz,需要先把采样率转换为16000Hz才能发送给语音识别服务;如果语音数据采样率是8000Hz,请勿将采样率转换为16000Hz,项目中选用支持8000Hz采样率的模型。
采样位数(sample size)
采样值或取样值,即是将采样样本幅度量化。用来衡量声音波动变化的参数,或是声卡的分辨率。数值越大、分辨率越高,发出声音的能力越强。
目前语音识别中常用的采样位数为16bits小端序。即每次采样的音频信息用2字节保存,或者说2字节记录1/16000s的音频数据。
每个采样数据记录的是振幅,采样精度取决于采样位数的大小:
1字节(8bit)记录256个数,亦即将振幅划分为256个等级。
2字节(16bit)记录65536个数。
其中2字节采样位数已经能够达到CD标准。
语音编码(format)
语音数据存储和传输的方式。注意语音编码和语音文件格式不同,如常见的WAV文件格式,会在其头部定义语音数据的编码,其中的音频数据通常使用PCM、AMR或其他编码。
在调用智能语音交互服务之前需确认语音数据编码格式是服务所支持的。
声道(sound channel)
录制声音时,在不同空间位置采集的相互独立的音频信号。声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道(立体声)。
除录音文件识别以外的服务只支持单声道(mono)语音数据,如果您的数据是双声道或其他,需要先转换为单声道。
逆文本规整(inverse text normalization)
语音转换为文本时使用标准化的格式展示数字、金额、日期和地址等对象,以符合阅读习惯。以下是一些示例。
语音原始文本 | 开启ITN的识别结果 |
---|---|
百分之二十 | 20% |
五月十一号 | 5月11号 |
请拨幺幺零 | 请拨110 |
项目标识(Appkey)
在智能语音交互管理控制台中创建的每个项目都有一个唯一标识,即Appkey。当您调用智能语音服务时必须提供Appkey,服务通过Appkey获得项目的具体配置信息。
当存在多个业务需要智能语音服务,如电话客服场景和手机输入法场景,各场景需要的语音能力是不同的,只有当项目配置与业务场景匹配才能获得最佳效果。
访问标识(AccessKey)
程序访问阿里云API的凭证,登录管理页面,创建并查看访问标识。
访问标识由ID和Secret两部分构成:AccessKey ID是类似身份的标识,AccessKey Secret的作用是签名您的访问参数,防止数据被篡改。两者必须组合使用。其中AccessKey Secret类似登录密码,不要向任何人泄漏。
访问令牌(Access Token)
访问智能语音交互服务的凭证,提供有效期控制,您可以通过AccessKey ID和AccessKey Secret获取访问令牌。
对于手机等设备端调用智能语音服务的场景,可以在服务端获取令牌,发送给设备端使用,能够有效避免Access key泄露。
中间结果(intermediate result)
在调用语音识别服务时可以设置是否返回中间结果:
设置为false时,只在语音全部识别完后返回一次完整的结果。
设置为true时,除了最后一次完整的结果之外,还会在您说话的同时返回中间结果。
如一段语音,识别最终结果是“你好阿里巴巴”。在启用中间结果后,会在您说话的同时返回5次结果,如下所示。
你
你好
你好啊
你好阿里
你好阿里巴巴
中间结果可能在后续返回结果中被修正。
中间结果增量返回的字数不固定,并不是每次都比上一次多识别一个字。
task_id
每一个语音服务请求都会有一个唯一的task_id,由SDK自动生成,用于定位问题。