全部產品
Search
文件中心

OpenSearch:文本分析器

更新時間:Jul 13, 2024

關鍵字分析器

介紹:不分詞,適合一些需要精確匹配的情境。如標籤、關鍵詞等,不分詞的字串或數值內容。

注意:該分析器適用於LITERAL、INT、LITERAL_ARRAY、INT_ARRAY欄位類型。

舉例

例如:文檔欄位內容為“菊花茶”,則只有搜尋“菊花茶”的情況下可以召回。

中文-通用分析器

介紹:按照檢索單元做分詞,基於中文語義分詞,適用於全網通用行業的分析器。屬於行業分析類型。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:文檔欄位內容為“菊花茶”,則搜尋“菊花茶”、“菊花”、“茶”、“花茶”等情況下可以召回。

中文-電商分析器

介紹:適用於電商行業的分析器。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:文檔欄位內容為“大寶SOD蜜”,則搜尋“大寶”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情況下均可以召回。

中文-單字分析器

介紹:按照單字/單詞分詞,適合非語義的中文搜尋情境,如小說作者名稱、店鋪名等。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:文檔欄位內容為“菊花茶”,則搜尋“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”等情況下可以召回。

模糊分析器

介紹:支援拼音搜尋、數位前尾碼搜尋(中文不支援前尾碼匹配搜尋,字母,數字及拼音,這些都支援前尾碼匹配)、單字或者單字母搜尋。最多支援100個位元組欄位長度,更多介紹及注意事項參見模糊搜尋

注意:僅適用於SHORT_TEXT短文本類型。

舉例

例如:文檔欄位內容為“菊花茶”,則搜尋“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”、“ju”、“juhua”、“juhuacha”、“j”、“jh”、“jhc”等情況下可以召回。
例如:文檔欄位內容為手機號“138****5678”,則通過“^138”來搜尋以“138”開頭的手機號,通過“5678$”搜尋以“5678”結尾的手機號。
例如:文檔欄位內容為“OpenSearch”,則通過單個字母或者組合都可以檢索到。

英文-去詞根分析器

介紹:適合於英文語義搜尋情境,對於分詞後的每個英文單詞預設會做去詞根、單複數轉化。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:文檔欄位內容為“英文分詞器 english analyzer”,則搜尋“英文分詞器”、“english”、“analyz”、“analyzer”、“analyzers”、“analyze”、“analyzed”、“analyzing”等情況下可以召回。
(注意:英文分詞器中連續的中文會被分成一個詞)

英文-不去詞根分析器

介紹:用於英文書名、人名等搜尋情境,按照空格及標點符號做分詞。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:文檔欄位內容為“英文分詞器 english analyzer”,則搜尋“英文分詞器”、“english”、“analyzer”等情況下可以召回。
(注意:英文分詞器中連續的中文會被分成一個詞)

英文-小粒度分析

介紹:按照英文檢索單元做分詞,英文語義分詞,適用於英文通用行業的分析器。

注意:僅適用於TEXT、SHORT_TEXT欄位類型。

僅限規格為獨享型的應用可用。

舉例

文檔欄位內容為"dataprocess",分詞結果"data process", 則搜尋"dataprocess"、"data process"、"data"、"process"等情況下可以召回。

拼音全拼分析器

介紹:支援對短文本中的漢字,按照首字母和拼音全拼進行檢索。適用於人名、電影名等需要簡拼和全拼搜尋的情境,而且全拼檢索時必須輸入漢字的全拼,不能只輸部分。

注意:僅適用於SHORT_TEXT短文本類型。

舉例

例如:文檔欄位內容為“大內密探007”,則搜尋“d”、“dn”、“dnm”、“dnmt”、“dnmt007”、“da”、“danei”、“daneimi”、“daneimitan”等都可以召回。搜尋“an”、“anei”等無法召回。

拼音簡拼分析器

介紹:支援對短文本中的漢字,按照首字母進行檢索。適用於人名、電影名等需要簡拼搜尋的情境。

注意:僅適用於SHORT_TEXT短文本類型。

舉例

例如:文檔欄位內容為“大內密探007”,則搜尋“d”、“dn”、“dnm”、“dnmt”、“dnmt0”、“dnmt007”、“m”、“mt”、“mt007”、“007”等都可以召回。

簡單分析器

介紹:適合特殊情境下系統內建無法解決的搜尋情境,可以實現完全使用者控制的效果。推送文檔及搜尋時使用定位字元“\t”對欄位內容(或查詢詞)進行分隔,注意二者分詞的一致性,否則會導致無法召迴文檔的情況。

注意:該分析器適用於TEXT、SHORT_TEXT欄位類型。

舉例

例如:欄位內容為“菊\t花茶\thao”,則只有查詢詞“菊”、“花茶”、“菊\t花茶”、“花茶\thao”、“菊\thao”、“菊\t花茶\thao”可以召回該文檔。

數值分析器

介紹:適合需要按時間區間查詢和數值類區間查詢的搜尋情境。

注意:該分析器適用於INT、timestamp欄位類型。

舉例

例如:query=default:'OpenSearch' AND index:[number1,number2]
//此處index為配置了數值分析的索引名字。

地理位置分析器

介紹:適用於需要地理位置區間查詢的情境。

注意:僅適用於geo_point欄位類型。

舉例

例如:query=spatial_index:'circle(116.5806 39.99624, 1000)'
//查詢圓內的點, 可以用於附近若干公裡的點查詢

IT內容分析器

介紹:適用於面向IT行業的技術性內容的分析器,屬於行業分詞;和通用分析器相比,對一些IT技術相關的詞分詞結果會不一樣。

注意:僅適用於TEXT,SHORT_TEXT欄位類型。

舉例

例如:原始內容:c++數組使用注意事項
通用分析:c ++數組使用注意事項
IT-內容分析:c++數組使用注意事項

行業-電商通用分析

介紹:適用於面向電商行業情境的分析器,屬於行業分詞。開發搜尋根據多年積累的行業並藉助達摩院智能語言處理技術,貼合行業痛點與需求,提供了電商專屬查詢分析能力。

注意

僅適用於TEXT欄位類型;

僅限規格為電商行業增強獨享型應用可用。

舉例

例如:原始內容:小金管遮瑕膏
通用分析:小金管 遮瑕 膏
行業-電商通用分析:小金管 遮瑕 膏

泰語-通用分析

介紹:按照泰語檢索單元做分詞,適用於泰語通用行業的分析器。

注意:僅適用於TEXT、SHORT_TEXT欄位類型;

僅限規格為獨享型的應用可用。

舉例

文檔欄位內容為"แหล่งดึงดูดนักท่องเที่ยว",分詞結果"แหล่ง ดึง ดูด นักท่องเที่ยว", 則搜尋"นักท่องเที่ยว"、"แหล่งดึงดูดนักท่องเที่ยว"等情況下可以召回。

泰語-電商分析

介紹:適用於泰語電商行業的分析器。

注意:僅適用於TEXT,SHORT_TEXT欄位類型;

僅限規格為獨享型的應用可用。

舉例

文檔欄位內容為"หน้าจอโทรศัพท์", 分詞結果為"หน้าจอ โทรศัพท์", 則搜尋"หน้าจอโทรศัพท์", "หน้าจอ", "โทรศัพท์"可以被召回

越南語-通用分析

介紹:適用于越南語通用行業的分析器。

注意:僅適用於TEXT、SHORT_TEXT欄位類型;

僅限規格為獨享型的應用可用。

行業-遊戲通用分析

介紹:適用於遊戲行業的分析器。

注意:僅適用於TEXT,SHORT_TEXT欄位類型;

僅限規格為遊戲行業增強獨享型應用可用。

舉例

文檔欄位內容為"原神裝備", 分詞結果為"原神 裝備", 則搜尋"原神裝備", "原神", "裝備"等可以被召回

行業-英文電商通用分析

介紹:適用於英文情境下的電商行業的分析器。

注意:僅適用於TEXT欄位類型;

僅限規格為電商行業增強獨享型應用可用。

中文-字元分析

介紹:按照中文單字/數字/英文/標點符號分詞,適合非語義的搜尋情境。

注意:僅適用於TEXT、SHORT_TEXT欄位類型;

僅限規格為獨享型應用可用。

舉例

例如:文檔欄位內容為“OpenSearchOpenSearch123.”,則搜尋“開”、“放”、“搜”、“索”、“O”、“p”、“e”、“n”、“S”、“e”、“a”、“r”、“c”、“h”、“.”情況下都可以召回。

文本-自訂分析器

介紹:行業分析器(通用分析/電商分析/人名分析)+自訂幹預詞條。具體用法參考文本-自訂分析器文檔。

注意:僅適用於TEXT、SHORT_TEXT欄位類型。

分析測試

行業分析器以及自訂分析器的分析結果可以通過分析測試功能進行測試。前往應用控制台的應用列表介面 -> 搜尋演算法中心 -> 召回配置 ->分析器管理 -> 分詞測試,進行分析器分析結果的測試。(如下圖)

4

適用情境

  • 有語義環境的中文搜尋,建議使用中文語義分析器;

  • 對於短文本或者非語義環境中文搜尋(對排序沒有太多要求),建議使用中文單字分析器來擴大召回;

  • 拼音搜尋請使用模糊分析器;

  • 英文情境下請使用英文去詞根分析器;

  • 某些情境下,中文語義分析器及單字分析器搭配使用,可以獲得非常好的搜尋效果。如查詢query=title_index:’菊花茶’ OR sws_title_index:’菊花茶’,精排運算式為:text_relevance(title)*5+field_proximity(sws_title)。可以實現包含“xx菊xx花xx茶xx”的文檔,且排序上“菊花茶”會排在前面。

注意事項

  • 支援建立為索引欄位的類型

    INT,INT_ARRAY,TEXT,SHORT_TEXT,LITERAL,LITERAL_ARRAY,TIMESTAMP,GEO_POINT

    不支援建立為索引欄位的類型

    FLOAT,FLOAT_ARRAY,DOUBLE,DOUBLE_ARRAY

  • 如果TEXT欄位設定了搜尋結果摘要,擴充檢索單元部分片語(如上例中的“花茶”)將不會被添加飄紅標籤。

  • 中文單字分析器對於數字跟單詞認為是一個詞,如“hello word”,搜尋“hello”可以召回,搜尋“he”則無法召回,敬請注意。若需要做單詞內召回,請選擇模糊分析器。

  • 應用結構中的主表的主鍵,預設會被設定為索引欄位,且索引欄位名稱預設為“id” ,不支援修改配置。