本文為您介紹Intelligent Speech Interaction服務中的相關概念,以便於更好地理解本產品。
採樣率(sample rate)
音頻採樣率是指錄音裝置在一秒鐘內對聲音訊號的採樣次數,採樣頻率越高聲音的還原就越真實越自然。
目前語音辨識服務支援16000Hz和8000Hz兩種採樣率,其中電話業務一般使用8000Hz,其餘業務使用16000Hz。
調用語音辨識服務時,如果語音資料採樣率高於16000Hz,需要先把採樣率轉換為16000Hz才能發送給語音辨識服務;如果語音資料採樣率是8000Hz,請勿將採樣率轉換為16000Hz,專案中選用支援8000Hz採樣率的模型。
採樣位元(sample size)
採樣值或取樣值,即是將採樣樣本幅度量化。用來衡量聲音波動變化的參數或音效卡的解析度。數值越大、解析度越高,發出聲音的能力越強。
目前語音辨識中常用的採樣位元為16 bit小端序,即每次採樣的音頻資訊用2位元組儲存,或者說2位元組記錄1/16000s的音頻資料。其中,2位元組採樣位元已經能夠達到CD標準。
每個採樣資料記錄的是振幅,採樣精度取決於採樣位元的大小:
1位元組(8 bit)記錄256個數,亦即將振幅劃分為256個等級。
2位元組(16 bit)記錄65536個數。
語音編碼(format)
語音資料存放區和傳輸的方式。語音資料編碼格式和語音檔案格式不同,如常見的WAV檔案格式,會在其頭部定義語音資料的編碼,其中的音頻資料通常使用PCM、AMR或其他編碼。
在調用Intelligent Speech Interaction服務之前需確認語音資料編碼格式是服務所支援的。
聲道(sound channel)
錄製聲音時,在不同空間位置採集的相互獨立的音頻訊號,所以聲道數也是指聲音錄製時的音源數量。常見的音頻資料為單聲道或雙聲道(立體聲)。
除錄音檔案識別以外的服務只支援單聲道(mono)音頻資料,如果您的資料是雙聲道或其他,需要先轉換為單聲道。
逆文本規整(inverse text normalization)
語音轉換為文本時使用標準化的格式展示數字、金額、日期和地址等對象,以符合閱讀習慣。以下是一些樣本。
語音原始文本 | 開啟ITN的識別結果 |
語音原始文本 | 開啟ITN的識別結果 |
百分之二十 | 20% |
五月十一號 | 5月11號 |
請撥么么零 | 請撥110 |
專案標識(Appkey)
在Intelligent Speech Interaction管理主控台中建立的每個專案都有一個唯一標識,即Appkey。當您調用智能Voice Messaging Service時必須提供Appkey,服務通過Appkey獲得專案的具體配置資訊。
當存在多個業務需要智能Voice Messaging Service,如電話客服情境和手機IME情境,各情境需要的語音能力是不同的,只有當專案配置與業務情境匹配才能獲得最佳效果。
訪問標識(AccessKey)
程式訪問阿里雲API的憑證,登入AccessKey管理頁面,建立並查看訪問標識。
訪問標識由ID和Secret兩部分構成:AccessKey ID是類似身份的標識;AccessKey Secret的作用是簽名您的訪問參數,防止資料被篡改。兩者必須組合使用,其中AccessKey Secret類似登入密碼,請不要向任何人泄露。
存取權杖(Access Token)
訪問Intelligent Speech Interaction服務的憑證,提供有效期間控制,您可以通過AccessKey ID和AccessKey Secret擷取存取權杖。關於如何擷取Token,請參見擷取Token概述。
對於手機等裝置端調用智能Voice Messaging Service的情境,可以在服務端擷取令牌,發送給裝置端使用,能夠有效避免Access key泄露。
中間結果(intermediate result)
在調用語音辨識服務時可以設定是否返回中間結果:
設定為false時,只在語音全部識別完後返回一次完整的結果。
設定為true時,除了最後一次完整的結果之外,還會在您說話的同時返回中間結果。
如一段語音,識別最終結果是“你好阿里巴巴”。在啟用中間結果後,會在您說話的同時返回5次結果,如下所示。
你
你好
你好啊
你好阿里
你好阿里巴巴
中間結果可能在後續返回結果中被修正。
中間結果增量返回的字數不固定,並不是每次都比上一次多識別一個字。
task_id
每一個Voice Messaging Service請求都會有一個唯一的task_id,由SDK自動產生,用於定位問題。