本文为您介绍智能语音交互的各项功能及其对应场景、支持的语音格式和调用方式。
功能服务参数表
服务 | 时效性 | 功能 | 适用场景 | 支持的语音格式 | 支持调用方式 | 免费调用量 | 购买 |
一句话识别 | 实时 | 识别一分钟内的短语音。 | APP语音搜索、语音电话客服、对话聊天、控制口令等场景。 | PCM(无压缩的PCM或WAV文件)、OPUS | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
实时语音识别 | 实时 | 识别长时间的语音数据流。 | 会议演讲、视频直播等长时间不间断语音场景。 | PCM(无压缩的PCM或WAV文件) | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
语音合成 | 实时 | 合成长度不超过300个字符(UTF-8编码)的文本内容。 | 需要人工合成音的场景。 | PCM、WAV、MP3 | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
录音文件识别 | 非实时 | 录音文件上传后(文件大小不超过512 MB),针对免费用户,可在24小时内完成识别并返回识别文本;针对付费用户,可在6小时内完成识别并返回识别文本。 说明 一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外,如果您有大规模数据转写需求,可与售前专家联系。 | 非实时识别场景。 | 支持单轨/双轨的WAV、MP3 | Java/C++/GO/.NET/Node.js/PHP/Python | 每个自然日最多识别2小时时长的录音文件 | 可单独购买 |
录音文件识别极速版 | 实时 | 识别文件大小不超过100 MB,30分钟以内时长的音频,转写完成时间不超过10秒。 | 短视频编辑工具、 电台和报社字幕内容。 | AAC、MP3、OPUS、WAV | HTTP POST/Android/iOS | 暂不支持免费试用 | 可单独购买 |
长文本语音合成 | 非实时 | 将超长文本(千字或万字)合成为语音二进制数据。 | 阅读小说、文章等场景。 | PCM、WAV、MP3 | JAVA/C++/RESTful API | 暂不支持免费试用 | 可单独购买 |
设备端语音交互SDK | 实时 | 远场信号处理、语音唤醒、人声检测、在线语音识别以及在线语音合成。 | 智能音箱、儿童教育故事机、语音IoT家电等需要远近场语音交互的智能硬件设备端。 | PCM、WAV | Android/iOS/Linux/RTOS | 10个免费设备授权 | 可单独购买 |
除录音文件识别和录音文件识别极速版以外的其他识别服务只支持单声道(mono)语音数据。
识别服务只支持8000Hz/16000Hz采样率、16bit采样位数的音频。