全部產品
Search
文件中心

:詞典配置

更新時間:Sep 04, 2024

簡介

進階配置中的詞典配置主要為使用者提供自訂分詞的功能,當系統提供的分詞器對query的分詞結果無法滿足使用者的業務需求時,可以通過配置對應分詞器的自訂字典來幹預分詞結果,以達到使用者的目的

系統預設為使用者提供兩個詞典配置版本,尾碼為_offline_adv_v1的詞典配置版本由系統預設建立,其中包含8種類型的分詞器詞典:

詞典類型

中文-通用分析器.dict

行業-電商通用分析器.dict

行業-遊戲通用分析器.dict

行業-教育題目分析器.dict

行業-內容文娛分析器.dict

行業-英文電商通用.dict

行業-內容IT分析.dict

中文-電商分析.dict

尾碼為_offline_adv_edit的進階配置版本可由使用者進行“編輯”,添加新分詞詞條後,點擊“發布”,系統會自動產生一個新的進階配置版本,尾碼依次遞增,如第二次發布時進階配置版本名稱尾碼為_offline_adv_v2。各個進階配置版本之間可由備忘顯示區分用途。

添加自訂幹預詞條

分詞bad case:使用者某條doc內容為“乒乓球拍賣完了”,當使用者搜尋“球拍”時無法將其召回,原因是因為“乒乓球拍賣完了”分詞後的內容為“乒乓/球/拍賣/完了”,由於搜尋query分詞後的item與doc內容分詞後的item無法完全符合,導致該doc無法通過“球拍”召回。

解決方案:通過添加自訂分詞詞條,“乒乓球拍”=>“乒乓球拍”,解決分詞的bad case,步驟如下:

  1. 配置中心 > 進階配置頁面中,找到尾碼為“_offline_adv_edit”的進階配置版本,點擊操作中的“編輯”按鈕:

image

  1. 找到對應索引表中索引引用的分詞類型,點擊“編輯”:

image

  1. 添加自訂詞條支援兩種方式:

    1. 介面文字框輸入自訂幹預詞條:乒乓球拍 ,點擊“確定”:image.png

    2. 介面上傳新增詞典檔案,上傳檔案內容後,可繼續在介面框內進行編輯,點擊“確定”:

      image.png

      image.png

      注意檔案限制:檔案大小需小於5M,檔案格式為.dict或.txt

詞條支援以下兩種格式:

1)幹預詞條不需要繼續切分:一行一個詞,utf8編碼,不能有空格或者\t符號,例如:

OpenSearch
opensearch

2)幹預詞條需要繼續切分:原始詞和切分之後的詞,utf8編碼,之間用\t分割,切分詞之間用空格分隔,例如:

OpenSearch	開放 搜尋
opensearch	open search
  1. 發布新編輯的詞典配置版本:

image

為詞典配置新版本添加備忘:

image

發布後,系統自動產生一個新的詞典配置版本:

image

  1. 為了使配置在叢集中生效,需要推送離線配置並做觸發索引重建:

image

可在營運中心 > 變更歷史中,資料來源變更中查看全量進度:

image

索引重建成功後,線上查詢即可生效。

刪除詞典配置版本

狀態為“未使用”的詞典配置版本,可以直接在進階配置 > 詞典配置介面刪除:

image

狀態為“使用中”的詞典配置版本,只可進行“查看”,若需刪除,請在營運中心>營運管理>配置更新中選擇“詞典配置版本”時引用其他詞典配置版本,然後推送配置並觸發索引重建,索引重建後,當該“詞典配置版本”處於“未使用”的狀態時即可刪除。

注意事項

  • 每個執行個體只能存在一個編輯中的詞典配置版本;

  • 線上使用的版本只可查看,無法刪除;

  • 進階配置目前支援詞典配置和查詢配置