內容行業演算法版介紹
內容行業演算法版基於最新演算法功能,貼合IT內容搜尋情境的痛點和需求,提供了內容行業專屬的智能語義理解能力、向量召回、排序演算法,為內容行業的搜尋效能和效果準確性提供雙重保障,並有效解決了超大詞庫資料導致的搜尋延遲高、資源消耗大導致的搜尋無結果率高等行業重痛點問題,提供多模態搜尋解決方案。針對內容行業,OpenSearch還提供了向量模型,以實現向量召回及多路搜尋,提高查詢準確率。
二者功能差異
功能列表 | 通用行業 | 內容行業演算法版 |
一站式配置 | 建立應用後,需要手動建立並配置查詢分析、排序策略和下拉提示模型。 | 結合內容行業常見搜尋情境,選擇所需能力及功能,同時提供應用結構模板和索引結構模板,實現一鍵式配置,降低新使用者使用門檻。 |
查詢分析 | 針對通用行業提供同義字拓展、停用詞省略、拼字錯誤修正、詞權重分析、類目預測等能力。 | 針對內容通用行業,提供增強版分析器與查詢分析功能。結合內容搜尋情境及行業難題,更精準的構建索引並識別使用者查詢意圖,與通用版相比效果更優。 |
策略排序 | 建立應用後,需要結合業務情境手動設定並調試相應的排序策略。 | 在應用結構模板和索引結構模板基礎上,提供內容行業常用基礎排序、業務排序運算式,無需額外配置即可滿足大部分內容行業排序效果需求。 |
功能迭代 | 定期更新分析器、查詢分析等系統預設詞典。 | 根據內容行業的名詞、產品等變化,不斷迭代更新,最佳化原有分詞、查詢分析能力,提供更高時效性的服務保障。 |
查詢分析效果對比
行業增強版較通用版相比在查詢分析功能上做出了更深入的最佳化,不僅在通用版的基礎上更新了常見bad case,而且針對內容行業集各家之所長,豐富已有詞庫,如下根據各個功能舉例:
分詞:(以空格分詞)
query | 通用版 | 行業增強版 |
為瞭解壓縮 | 為 瞭解 壓縮 | 為了 解 壓縮 |
實參與形參 | 實 參與 形參 | 實參 與 形參 |
結構體重載 | 結構 體重 載 | 結構體重載 |
googlechromeframe | googlechromeframe | google chrome frame |
拼字錯誤修正:
query | 通用版 | 行業增強版 |
淘寶只能視覺 | 淘寶只能視覺 | 淘寶智能視覺 |
mybatics代碼產生 | mybatics代碼產生 | mybatis代碼產生 |
電腦網路 | 電腦網路 | 電腦網路 |
微行小程式 | 微型小程式 | 微信小程式 |
深度學西 | 深度學西 | 深度學習 |
內容行業向量召回
針對內容行業的垂類行業資料分布提供高品質的向量召回模型, 保證長尾query, 包含錯別字query,依賴同義字改寫召回query的召回效果
向量召回
query | 美國gmted2010的shuju下載 |
向量召回top1 | gmt43相關代碼、資料下載地址 |
向量召回top2 | gmt0054-2010.pdf |
向量召回top3 | gmted2010美國download地址 |
query | 3D遊戲畫面處理 |
向量召回top1 | 3d遊戲動畫處理基礎 |
向量召回top2 | 3d遊戲動畫的基礎 |
向量召回top3 | 動畫遊戲處理 |
query | 禁用n卡 |
向量召回top1 | 網卡的禁止和啟動 |
向量召回top2 | 禁用網卡 |
向量召回top3 | 禁用及啟用網卡 |
注意事項
內容行業演算法版應用的建立流程可以參考文檔:內容行業演算法版
獨享通用版應用可轉為行業增強版,行業增強版應用不可轉為通用版;
內容行業演算法版僅適用於獨享型應用;
如果是共用型應用變規格到獨享型再進行內容行業演算法版適配,需要線上應用規格與執行個體規格一致(同為獨享型)後再做內容行業演算法版適配操作;
應用結構中務必添加欄位標籤所對應的欄位名稱,否則會報錯;