全部產品
Search
文件中心

OpenSearch:召回定製分析器

更新時間:Jul 13, 2024

功能簡介

分詞作為搜尋引擎中一個重要的基礎組件,分詞效果會直接影響搜尋結果。由於業務情境的多樣性,不同行業不同客戶都有各自的特殊性,只有具體到客戶應用層級的定製分詞才能對每一個客戶分詞效果做到保障。

召回定製功能就是由此產生,OpenSearch-行業演算法版首先提供了豐富的面向特點領域的行業分析器,客戶可以基於對應的行業分析器,經過簡單的配置訓練得到自己專屬的定製分析器。整個定製過程無需客戶進行額外的資料對接工作,召回定製模型訓練會自動抽取客戶已有資料進行適配。

定製召回模型按照儲存容量、計算資源、模型訓練收費,具體價格請參考計費概述

快速搭建

定製召回模型從建立到使用需要經過以下三個步驟:

  1. 建立並訓練模型;

  2. 建立自訂分析器;

  3. 配置自訂分析器;

建立並訓練模型

  1. 在搜尋演算法中心>召回配置>定製召回模型介面,選擇對應的獨享型應用,點擊建立image

  2. 填寫模型名稱,選擇模型類型,選擇基礎分析器,選擇訓練欄位,勾選歸一化配置,點擊確定

image

其中基礎分析器包括:中文-通用分析、中文-電商分析、IT內容分析、行業-遊戲通用分析,行業-教育搜題、行業-內容IT分析、行業-電商通用分析。

歸一化配置可選擇:大寫轉小寫、繁體轉簡體、全形轉半形,該參數可多選,非必選。(該選項只在查詢時統一歸一化,原欄位內容不受影響)

重要

  • 模型名稱在模型建立後無法修改;

  • 訓練欄位僅支援short_text、text類型;

  1. 建立完成後, 新建立的模型預設狀態為模型不可用,在定製召回模型列表頁操作一欄中點擊訓練模型

image

說明

  • 模型訓練一般在1-2個工作日內完成。

  • 模型可重複訓練,每次訓練完成後,會在詳情頁中訓練歷史下新增一個模型版本,編號逐一遞增。

建立自訂分析器

當定製召回模型訓練成功後(模型狀態為可用),即可配置自訂分析器。

  1. 在搜尋演算法中心>分析器管理頁面,選擇文本分析器,點擊建立

image

  1. 輸入名稱,選擇分析器類型為定製模型分析,選擇對應的Ha3引擎執行個體,選擇對應的定製分析器模型,點擊儲存

image

  1. 建立完成後,可使用定製自訂分析器進行分詞測試,以及詞條管理等功能:

image

配置自訂分析器

自訂分析器建立完成後,即可通過線下變更將已配置定製召回模型的定製化分析器應用索引中。

  1. 在執行個體管理>Ha3引擎列表頁,找到對應的應用,進入詳情頁,點擊線下變更

image

  1. 在配置索引結構頁面,找到對應的索引,替換成已配置定製召回模型的定製化分析器,並選項需要生效的模型版本:

image

  1. 完成線下變更,操作等待索引重建完成:

image

  1. 索引重建結束,即可在搜尋測試介面測試效果:

image

詳情頁說明

定製召回模型列表頁介紹

image

定製召回模型列表包含模型名稱、模型類型、模型狀態(可用、不可用)、最後訓練開始時間、最新版本狀態、操作(詳情、訓練模型、刪除)。

說明

  • 已被引用的定製召回模型不可刪除;

  • 最新版本狀態為訓練中,則重新訓練按鈕不可點擊;其他狀態下可點擊重新訓練;

定製召回模型詳情頁說明

詳情頁分三部分:

基本資料(唯讀):包含建立時間、模型狀態、最後訓練開始時間、最新版本狀態欄位。

配置型資訊(唯讀):包含基礎分析器、訓練欄位、歸一化配置欄位,為建立/配置模型時選擇的配置資訊。

訓練歷史:包含模型版本、配置資訊、版本狀態、訓練開始時間、訓練結束時間、引用索引,其中可對模型進行效果測試:

image

效果對比支援典型case對比內容下載:

image

功能限制

  • 該功能僅支援行業演算法版-獨享叢集中應用;

  • 單個執行個體最多建立5個定製模型;

  • 基於應用建立的定製召回模型不可跨應用配置;

  • 近期定製分析器的類型僅開放文本分析器;