本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。
本文為您介紹Intelligent Speech Interaction的產品核心優勢。
語音辨識
識別準確率高
基於SAN-M自研的“識音石”通用端到端語音辨識架構,中文識別準確率可達業內最高水平;
在IME、客服、會議等領域,識別字錯誤率相比上一代系統下降10%~30%,大幅提高了語音辨識的精度。
識別速度快
採用“字”層級建模單元及自研模型推理引擎,並發推理速度相比業內主流推理架構提升10倍以上;
中國獨創的LFR解碼技術,在不損失識別精度的情況下,將解碼速率提高3倍以上,大幅縮短反饋時間,提升使用者體驗。
獨創的模型最佳化工具
結合模型最佳化工具子產品,針對特定的領域定製專屬模型,最大限度地提升識別效果。
豐富的功能
支援音字同步、語種識別、聲紋識別等豐富功能。
廣泛的領域覆蓋
適用於智能問答、語音指令、音視頻字幕、語音搜尋、會議談話轉譯、語音質檢,公安消防接警、法庭審訊記錄等各類情境。
語音合成
技術領先
兼顧了多級韻律停頓,達到自然合成韻律的目的,綜合利用聲學參數和語言學參數,建立基於深度學習的多重自動預測模型。
效果逼真
在本地端實現了基於Knowledge-Aware Neural TTS (KAN-TTS) 語音合成技術,基於深度神經網路和機器學習,將文本轉換成真實飽滿、抑揚頓挫、富有表現力的語音,使得離線語音合成效果趨近於線上合成效果。同樣的語音合成聲音定製的合成效果與真人錄音相比,幾乎可以以假亂真。
音色個人化
支援中英文等多種語言,多種音色,多種情境及多種風格的語音合成聲音,並可支援低資料量的離線合成聲音定製。
聽感自然
經海量音頻資料訓練,使合成音真實飽滿、抑揚頓挫、富有表現力,MOS評分達到業內領先水準。
深度定製
根據使用者需求定製音庫,滿足使用者的個人化應用需求,提供標準男女聲、溫柔甜美女聲等多風格選擇,支援標記語言(SSML)方式的合成方式,音量、語速、音高等參數也支援動態調整。支援客戶指定自有資料合成TTS聲音。
高效穩定
介面簡單易整合,運行穩定、相容性強、首包延遲小,記憶體佔用少,CPU佔用低,對於低配硬體也有對應的解決方案。
節省成本
離線語音合成無需連網即可完成即時語音合成,按裝置數授權,成本可控。聲音定製中需要的資料量門檻更低,在中文普通話情境,2000句起即可合成自然流暢效果的聲音,加入英文資料後,還可實現中英混讀效果,錄音和標註的時間成本大幅減少,盡顯價格優勢。
多領域覆蓋
在智能家居、車載、導航、金融、電訊廠商、物流、房地產、教育、有聲讀物等眾多領域積累了大量的詞庫,使阿里語音合成技術對各領域、各行業的詞彙發音更準確。
自學習平台
易用
自學習平台顛覆性地提供一鍵式自助語音最佳化方案,極大地降低進行語音智能最佳化所需要的門檻,讓不懂技術的業務人員也可以顯著提高自身業務識別準確率。
快速
自學習平台能夠在數分鐘之內完成業務專屬定製模型的最佳化測試上線,更能支援業務相關熱詞的即時最佳化,一改傳統定製最佳化長達數周甚至數月的漫長交付弊端。
準確
自學習平台最佳化效果在很多內外部夥伴和專案上得到了充分驗證,很多專案最終通過自學習平台不僅解決了可用性問題,還在專案中超過了競爭者使用傳統最佳化方式所取得的最佳化效果。