本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

基本概念

更新時間:2024-12-18 11:58

本文為您介紹Intelligent Speech Interaction服務中的相關概念,以便於更好地理解本產品。

採樣率(sample rate)

音頻採樣率是指錄音裝置在一秒鐘內對聲音訊號的採樣次數,採樣頻率越高聲音的還原就越真實越自然。

目前語音辨識服務支援16000Hz和8000Hz兩種採樣率,其中電話業務一般使用8000Hz,其餘業務使用16000Hz。

調用語音辨識服務時,如果語音資料採樣率高於16000Hz,需要先把採樣率轉換為16000Hz才能發送給語音辨識服務;如果語音資料採樣率是8000Hz,請勿將採樣率轉換為16000Hz,專案中選用支援8000Hz採樣率的模型。

採樣位元(sample size)

採樣值或取樣值,即是將採樣樣本幅度量化。用來衡量聲音波動變化的參數或音效卡的解析度。數值越大、解析度越高,發出聲音的能力越強。

目前語音辨識中常用的採樣位元為16 bit小端序,即每次採樣的音頻資訊用2位元組儲存,或者說2位元組記錄1/16000s的音頻資料。其中,2位元組採樣位元已經能夠達到CD標準。

每個採樣資料記錄的是振幅,採樣精度取決於採樣位元的大小:

  • 1位元組(8 bit)記錄256個數,亦即將振幅劃分為256個等級。

  • 2位元組(16 bit)記錄65536個數。

語音編碼(format)

語音資料存放區和傳輸的方式。語音資料編碼格式和語音檔案格式不同,如常見的WAV檔案格式,會在其頭部定義語音資料的編碼,其中的音頻資料通常使用PCM、AMR或其他編碼。

重要

在調用Intelligent Speech Interaction服務之前需確認語音資料編碼格式是服務所支援的。

聲道(sound channel)

錄製聲音時,在不同空間位置採集的相互獨立的音頻訊號,所以聲道數也是指聲音錄製時的音源數量。常見的音頻資料為單聲道或雙聲道(立體聲)。

重要

除錄音檔案識別以外的服務只支援單聲道(mono)音頻資料,如果您的資料是雙聲道或其他,需要先轉換為單聲道。

逆文本規整(inverse text normalization)

語音轉換為文本時使用標準化的格式展示數字、金額、日期和地址等對象,以符合閱讀習慣。以下是一些樣本。

語音原始文本

開啟ITN的識別結果

語音原始文本

開啟ITN的識別結果

百分之二十

20%

五月十一號

5月11號

請撥么么零

請撥110

專案標識(Appkey)

在Intelligent Speech Interaction管理主控台中建立的每個專案都有一個唯一標識,即Appkey。當您調用智能Voice Messaging Service時必須提供Appkey,服務通過Appkey獲得專案的具體配置資訊。

當存在多個業務需要智能Voice Messaging Service,如電話客服情境和手機IME情境,各情境需要的語音能力是不同的,只有當專案配置與業務情境匹配才能獲得最佳效果。

訪問標識(AccessKey)

程式訪問阿里雲API的憑證,登入AccessKey管理頁面,建立並查看訪問標識。

訪問標識由ID和Secret兩部分構成:AccessKey ID是類似身份的標識;AccessKey Secret的作用是簽名您的訪問參數,防止資料被篡改。兩者必須組合使用,其中AccessKey Secret類似登入密碼,請不要向任何人泄露。

存取權杖(Access Token)

訪問Intelligent Speech Interaction服務的憑證,提供有效期間控制,您可以通過AccessKey ID和AccessKey Secret擷取存取權杖。關於如何擷取Token,請參見擷取Token概述

說明

對於手機等裝置端調用智能Voice Messaging Service的情境,可以在服務端擷取令牌,發送給裝置端使用,能夠有效避免Access key泄露。

中間結果(intermediate result)

在調用語音辨識服務時可以設定是否返回中間結果:

  • 設定為false時,只在語音全部識別完後返回一次完整的結果。

  • 設定為true時,除了最後一次完整的結果之外,還會在您說話的同時返回中間結果。

如一段語音,識別最終結果是“你好阿里巴巴”。在啟用中間結果後,會在您說話的同時返回5次結果,如下所示。

你
你好
你好啊
你好阿里
你好阿里巴巴
說明
  • 中間結果可能在後續返回結果中被修正。

  • 中間結果增量返回的字數不固定,並不是每次都比上一次多識別一個字。

task_id

每一個Voice Messaging Service請求都會有一個唯一的task_id,由SDK自動產生,用於定位問題。

  • 本頁導讀 (1, M)
  • 採樣率(sample rate)
  • 採樣位元(sample size)
  • 語音編碼(format)
  • 聲道(sound channel)
  • 逆文本規整(inverse text normalization)
  • 專案標識(Appkey)
  • 訪問標識(AccessKey)
  • 存取權杖(Access Token)
  • 中間結果(intermediate result)
  • task_id
文檔反饋