基本概念 - Intelligent Speech Interaction

本文為您介紹Intelligent Speech Interaction服務中的相關概念，以便於更好地理解本產品。

採樣率（sample rate）

音頻採樣率是指錄音裝置在一秒鐘內對聲音訊號的採樣次數，採樣頻率越高聲音的還原就越真實越自然。

目前語音辨識服務支援16000Hz和8000Hz兩種採樣率，其中電話業務一般使用8000Hz，其餘業務使用16000Hz。

調用語音辨識服務時，如果語音資料採樣率高於16000Hz，需要先把採樣率轉換為16000Hz才能發送給語音辨識服務；如果語音資料採樣率是8000Hz，請勿將採樣率轉換為16000Hz，專案中選用支援8000Hz採樣率的模型。

採樣值或取樣值，即是將採樣樣本幅度量化。用來衡量聲音波動變化的參數或音效卡的解析度。數值越大、解析度越高，發出聲音的能力越強。

目前語音辨識中常用的採樣位元為16 bit小端序，即每次採樣的音頻資訊用2位元組儲存，或者說2位元組記錄1/16000s的音頻資料。其中，2位元組採樣位元已經能夠達到CD標準。

每個採樣資料記錄的是振幅，採樣精度取決於採樣位元的大小：

語音資料存放區和傳輸的方式。語音資料編碼格式和語音檔案格式不同，如常見的WAV檔案格式，會在其頭部定義語音資料的編碼，其中的音頻資料通常使用PCM、AMR或其他編碼。

重要

在調用Intelligent Speech Interaction服務之前需確認語音資料編碼格式是服務所支援的。

錄製聲音時，在不同空間位置採集的相互獨立的音頻訊號，所以聲道數也是指聲音錄製時的音源數量。常見的音頻資料為單聲道或雙聲道（立體聲）。

重要

除錄音檔案識別以外的服務只支援單聲道（mono）音頻資料，如果您的資料是雙聲道或其他，需要先轉換為單聲道。

語音轉換為文本時使用標準化的格式展示數字、金額、日期和地址等對象，以符合閱讀習慣。以下是一些樣本。

在Intelligent Speech Interaction管理主控台中建立的每個專案都有一個唯一標識，即Appkey。當您調用智能Voice Messaging Service時必須提供Appkey，服務通過Appkey獲得專案的具體配置資訊。

當存在多個業務需要智能Voice Messaging Service，如電話客服情境和手機IME情境，各情境需要的語音能力是不同的，只有當專案配置與業務情境匹配才能獲得最佳效果。

程式訪問阿里雲API的憑證，登入AccessKey管理頁面，建立並查看訪問標識。

訪問標識由ID和Secret兩部分構成：AccessKey ID是類似身份的標識；AccessKey Secret的作用是簽名您的訪問參數，防止資料被篡改。兩者必須組合使用，其中AccessKey Secret類似登入密碼，請不要向任何人泄露。

訪問Intelligent Speech Interaction服務的憑證，提供有效期間控制，您可以通過AccessKey ID和AccessKey Secret擷取存取權杖。關於如何擷取Token，請參見擷取Token概述。

說明

對於手機等裝置端調用智能Voice Messaging Service的情境，可以在服務端擷取令牌，發送給裝置端使用，能夠有效避免Access key泄露。

在調用語音辨識服務時可以設定是否返回中間結果：

如一段語音，識別最終結果是“你好阿里巴巴”。在啟用中間結果後，會在您說話的同時返回5次結果，如下所示。

你
你好
你好啊
你好阿里
你好阿里巴巴

說明

每一個Voice Messaging Service請求都會有一個唯一的task_id，由SDK自動產生，用於定位問題。