本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

語言模型定製

更新時間:2025-03-12 19:56

阿里雲Intelligent Speech Interaction對某些情境(包括通用、教育、司法、醫學等)進行了大量語音辨識訓練,提供了高準確率情境模型。當您的語音辨識需求超出預設模型範疇,或是希望對現有的標準模型進行個人化定製時,可以通過自學習平台的語言模型定製功能,根據自身業務相關的語料進行針對性訓練和最佳化,從而提升語音辨識效果。

功能優勢

通過使用阿里雲語音自學習工具,您可以在操作介面上傳訓練語料文本,並選擇對應領域的語言基本模型,對訓練語料做模型訓練,從而有效提高該情境的語音辨識率。尤其針對專有名詞和高頻詞彙,有較好的最佳化效果。

定製語言模型的方式

您可以通過定製語言模型使用POP API建立自學習模型方式定製語言模型。具體區別如下:

  • 使用控制台訓練和管理自學習模型,可以介面化操作,在控制台專案功能配置中,單擊切換情境,選擇自學習模型,發布上線後將與Appkey綁定,無需在代碼中設定。

  • 使用POP API建立的自學習模型,需要您在用戶端代碼中調用SDK的介面設定自學習模型的ID後,該模型才會生效。

應用舉例

下載訓練語料,以阿里巴巴簡介為例:

一九九九年九月,馬雲帶領下的十八位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年九月,阿里巴巴集團舉辦首屆西湖論劍,匯聚互連網界的商業和意見領袖討論業界重要議題。

如果“融資”、“互連網”等是業務關鍵詞,可以將含這兩個詞的句子多複製幾遍。

訓練流程如下:

  1. 選擇基本模型:採用通用模型(具體選擇何種模型可根據實際情境進行調整)。

  2. 訓練語料採集:請將如上訓練語料儲存至訓練文本。如果需要自行設定訓練語料,請根據標點做裁剪,將每句話儲存為訓練文本中的一行。

  3. 操作訓練模型:通過自學習服務提交語料並訓練之後,採用訓練出的模型,能夠有效識別出訓練語料中的詞彙,獲得理想的識別效果。

  • 本頁導讀 (1, M)
  • 功能優勢
  • 定製語言模型的方式
  • 應用舉例
文檔反饋