全部產品
Search
文件中心

OpenSearch:實體識別幹預詞典

更新時間:Jul 13, 2024

目前實體識別的幹預主要包括兩個對實體識別結果本身的幹預,以及實體類型重要性的幹預。當實體識別的結果不準時,可以通過實體識別的幹預來進行解決。

概念介紹

實體識別幹預

通過建立實體幹預的詞典,並在查詢分析中實體識別中配置相應的幹預詞典,可以幹預實體識別的結果。由於語義實體是和分詞器密切相關的,因此,建立實體識別幹預詞典時,必須選擇分析器。且在查詢分析配置使用時,只有索引對應的分析器和幹預詞典的分詞器一致,才能被選擇使用。

重要

  • 在建立實體識別幹預的詞典時,僅支援獨享型應用配置定製模型分析器。

  • 可以選擇幹預詞典的query完整匹配或者部分匹配。

  • 每個幹預詞典最多可建立1000個幹預詞條。

  • 添加幹預詞條時,添加的query需要是經過歸一化後的(大小字母轉小寫、全形字元轉半形字元),否則幹預詞條能添加成功,不能在查詢時生效。

  • 配置查詢分析-實體識別幹預詞典時,可以選擇query是否忽略空格。

  • 某些情況下(如系統升級分詞器後),可能會導致部分query在查詢時分詞和建立幹預詞典時的分詞結果不一致,那麼這條幹預是不會生效的。查詢會返回一個錯誤碼:6612。當出現這個錯誤碼時,需要到控制台中對這個幹預詞條進行修改。

實體重要性幹預

為了方便使用者使用,當前系統提供預設的實體重要性配置。使用者可以根據實際業務情況,自主的調整配置。這塊調整會影響query的改寫規則。

重要

  • 配置重要性配置時,高和中不能都為空白。否則根據實體識別改寫query的功能將不生效。

  • 不同的重要性的實體不能有衝突,即一個實體只能有一個重要性。

使用介紹

目前支援對系統內建的實體識別詞典進行人工幹預。使用者實現幹預操作的過程通常有以下四步:

  1. 建立實體識別幹預詞典。使用者通過搜尋演算法中心--->召回配置--->詞典管理,進入查詢分析幹預詞典頁後,點擊頁面右上方的“建立”。選擇了詞典類型後,為詞典命名,幹預詞典建立完成,詞典會出現在頁面的詞典列表中。

  2. 新增和管理幹預詞典內的幹預詞條。詞典建立完成後,在列表中點擊詞典名稱或點擊詞典對應的“管理”,即可進入到幹預詞典的詳情頁。使用者可在詳情頁內進行幹預詞條的新增和管理。

  3. 使用幹預詞典。建立並填充完成實體識別幹預詞典後,可在應用的查詢分析內選擇使用。

  4. 幹預詞典效果測試和上線。查詢分析規則使用了幹預詞典後,應用到線上之前建議先進行搜尋效果測試,評估效果是否符合幹預預期。

實戰演練

業務情境:某電商導購類業務在OpenSearch的應用執行個體中配置使用了查詢分析規則,規則包含實體識別功能,但是線上上發現了badcase,於是決定使用幹預功能。

badcase:使用者搜尋Query“香奈兒氣墊”,預設的實體識別,將“香奈兒”歸類為“普通詞”;“氣墊”歸類為“材質”。 改寫query後為,title:’氣墊’ RANK title:’香奈兒’。但業務上“香奈兒”不是普通詞。問題診斷:業務特殊專有名詞,需要進行實體識別幹預。

解決方案:建立實體識別幹預詞典,再將該幹預詞典應用線上上使用的查詢分析規則中。

操作步驟

  1. 在控制台>搜尋演算法中心>召回配置>詞典管理建立實體識別詞典:

image

填寫名稱,詞典類型選擇實體識別,分析類型選擇系統內建分析器/自定分析器(根據查詢分析中配置的分析器類型選擇),關聯分析器中會自動過濾出合格分析器(僅支援電商分詞類型配置實體識別):2

若查詢分析中配置的索引為定製模型分析器,則分析器類型選擇定製模型分析器,執行個體選擇Ha3引擎,並選擇對應的應用程式名稱,關聯分析器與查詢分析中配置的分析器保持一致:

002

  1. 在建立的實體識別幹預詞典裡新增幹預詞條,填寫query,並修改系統識別結果:

原始的錯誤識別實體結果:

1幹預後的結果:2

若實體識別詞典是基於定製模型分析器建立的,在新增幹預詞典時需要選擇分析器的版本,即定製召回模型使用的模型版本:

003

重要

幹預類型中,完整匹配表示輸入Query與幹預Query完全相同時進行幹預;部分匹表示輸入Query包含幹預Query時進行幹預。

  1. 在查詢分析介面把剛剛建立的“實體識別幹預詞典”先應用在一個未上線的查詢分析規則中,以便進行搜尋效果測試:

image3

重要

是否忽略空格功能指當在使用實體識別幹預時是否忽略query中的空格(預設不開啟),:輸入Query:“連衣裙 女” ,幹預詞條:“連衣裙女”,選擇“是”則按幹預詞典中的實體詞進行幹預,選擇“否”則不進行幹預。

  1. 搜尋測試是否符合預期效果:(召回了有關“香奈兒氣墊”的doc)

p248644