簡介
進階配置中的詞典配置主要為使用者提供自訂分詞的功能,當系統提供的分詞器對query的分詞結果無法滿足使用者的業務需求時,可以通過配置對應分詞器的自訂字典來幹預分詞結果,以達到使用者的目的
系統預設為使用者提供兩個詞典配置版本,尾碼為_offline_adv_v1的詞典配置版本由系統預設建立,其中包含8種類型的分詞器詞典:
詞典類型 |
中文-通用分析器.dict |
行業-電商通用分析器.dict |
行業-遊戲通用分析器.dict |
行業-教育題目分析器.dict |
行業-內容文娛分析器.dict |
行業-英文電商通用.dict |
行業-內容IT分析.dict |
中文-電商分析.dict |
尾碼為_offline_adv_edit的進階配置版本可由使用者進行“編輯”,添加新分詞詞條後,點擊“發布”,系統會自動產生一個新的進階配置版本,尾碼依次遞增,如第二次發布時進階配置版本名稱尾碼為_offline_adv_v2。各個進階配置版本之間可由備忘顯示區分用途。
添加自訂幹預詞條
分詞bad case:使用者某條doc內容為“乒乓球拍賣完了”,當使用者搜尋“球拍”時無法將其召回,原因是因為“乒乓球拍賣完了”分詞後的內容為“乒乓/球/拍賣/完了”,由於搜尋query分詞後的item與doc內容分詞後的item無法完全符合,導致該doc無法通過“球拍”召回。
解決方案:通過添加自訂分詞詞條,“乒乓球拍”=>“乒乓球拍”,解決分詞的bad case,步驟如下:
在配置中心 > 進階配置頁面中,找到尾碼為“_offline_adv_edit”的進階配置版本,點擊操作中的“編輯”按鈕:
找到對應索引表中索引引用的分詞類型,點擊“編輯”:
添加自訂詞條支援兩種方式:
介面文字框輸入自訂幹預詞條:乒乓球拍 ,點擊“確定”:
介面上傳新增詞典檔案,上傳檔案內容後,可繼續在介面框內進行編輯,點擊“確定”:
注意檔案限制:檔案大小需小於5M,檔案格式為.dict或.txt。
詞條支援以下兩種格式:
1)幹預詞條不需要繼續切分:一行一個詞,utf8編碼,不能有空格或者\t符號,例如:
OpenSearch
opensearch
2)幹預詞條需要繼續切分:原始詞和切分之後的詞,utf8編碼,之間用\t分割,切分詞之間用空格分隔,例如:
OpenSearch 開放 搜尋
opensearch open search
發布新編輯的詞典配置版本:
為詞典配置新版本添加備忘:
發布後,系統自動產生一個新的詞典配置版本:
為了使配置在叢集中生效,需要推送離線配置並做觸發索引重建:
可在營運中心 > 變更歷史中,資料來源變更中查看全量進度:
索引重建成功後,線上查詢即可生效。
刪除詞典配置版本
狀態為“未使用”的詞典配置版本,可以直接在進階配置 > 詞典配置介面刪除:
狀態為“使用中”的詞典配置版本,只可進行“查看”,若需刪除,請在營運中心>營運管理>配置更新中選擇“詞典配置版本”時引用其他詞典配置版本,然後推送配置並觸發索引重建,索引重建後,當該“詞典配置版本”處於“未使用”的狀態時即可刪除。
注意事項
每個執行個體只能存在一個編輯中的詞典配置版本;
線上使用的版本只可查看,無法刪除;
進階配置目前支援詞典配置和查詢配置