全部產品
Search
文件中心

Intelligent Speech Interaction:語言模型定製

更新時間:Dec 02, 2024

阿里雲官方對某些情境(包括通用、教育、司法、醫學等)進行了大量語音辨識訓練,提供了高準確率情境模型。如果您需要的語音辨識服務情境不在所提供的模型範圍內,或者需要對標準模型進行更進一步最佳化,可以通過自學習平台的語言模型定製,達成最佳化目的。

功能優勢

通過使用阿里雲語音自學習工具,您可以在操作介面上傳訓練語料文本,並選擇對應領域的語言基本模型,對訓練語料做模型訓練,從而有效提高該情境的語音辨識率。尤其針對專有名詞和高頻詞彙,有較好的最佳化效果。

控制台與POP API設定自學習模型的區別

使用控制台訓練和管理自學習模型,可以介面化操作,在控制台專案功能配置中,單擊切換情境,選擇自學習模型,發布上線後將與appkey綁定,而無需在代碼中自行設定。

使用POP API建立的自學習模型,需要您在用戶端代碼中調用SDK的介面設定自學習模型的ID,該模型才會生效。

訓練語料說明

調用限制

  • 訓練資料為領域相關的文本,與待識別語音資料越接近,最佳化效果越好。

  • 以文本方式儲存,使用UTF-8(無BOM)格式編碼,檔案大小不超過10 MB。

  • 每位使用者最多支援建立10個模型。

  • 一句話或者一個被加強調優的關鍵詞單獨一行,控制每行的長度在500個字元以內。

  • 文本中的數字需要按照發音替換為對應的漢字。例如,“58.9”需要轉換為“五十八點九”。

  • 檔案中需要至少有一行為句子(大於4個詞)。

  • 只採用逗號(,)、句號(。)、問號(?)和驚嘆號(!),句尾需要加標點。像書名號(《》)、雙引號(“”)等標點應去除。

最佳化建議

對於識別不準確的關鍵詞,可以將含該詞的句子或者關鍵詞(一個關鍵詞在訓練文本中獨佔一行)多複製幾行,例如10行。如果效果仍不滿意,可以適當增加複製行數。

說明
  • 需要首先排除關鍵詞識別不準確,不是發音不清晰或者音頻品質不好造成的。

  • 建議經過識別試錯,謹慎提供訓練語料,避免相同發音的其他內容識別錯誤。

應用舉例

下載訓練語料,以阿里巴巴簡介為例:

一九九九年九月,馬雲帶領下的十八位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年九月,阿里巴巴集團舉辦首屆西湖論劍,匯聚互連網界的商業和意見領袖討論業界重要議題。

如果“融資”、“互連網”等是業務關鍵詞,可以將含這兩個詞的句子多複製幾遍。

訓練流程如下:

  1. 選擇基本模型:採用通用模型(具體選擇何種模型可根據實際情境進行調整)。

  2. 訓練語料採集:請將如上訓練語料儲存至訓練文本。如果需要自行設定訓練語料,請根據標點做裁剪,將每句話儲存為訓練文本中的一行。

  3. 操作訓練模型:通過自學習服務提交語料並訓練之後,採用訓練出的模型,能夠有效識別出訓練語料中的詞彙,獲得理想的識別效果。