執行個體管理
名稱 | 說明 |
執行個體 | 執行個體是使用者的一套資料配置,包括資料來源結構、索引結構及其它屬性配置。一個執行個體即一個搜尋服務。 |
文檔 | 文檔是可搜尋的結構化資料單元。文檔包含一個或多個欄位,但必須有主鍵欄位,OpenSearch通過主索引值來確定唯一的文檔。主鍵重複則文檔會被覆蓋。 |
欄位 | 欄位是文檔的組成單元,包含欄位名稱和欄位內容。 |
外掛程式 | 為了在匯入處理程序中進行一些資料處理,系統內建了若干資料處理外掛程式,可以在定義應用結構或者配置資料來源時選擇。 |
來源資料 | 未經處理資料,包含一個或多個源欄位。 |
源欄位 | 組成來源資料的最小單元,包含欄位名稱和欄位值,可選資料類型請參見應用結構&索引結構。 |
索引 | 索引是用於加速檢索速度的資料結構,一個執行個體可以建立多個索引。 |
複合式索引 | 可將多個TEXT或SHORT_TEXT文本類型的欄位配置到同一個索引,用來做複合式索引。如一個論壇搜尋,需要提供基於標題(title)的搜尋及基於標題(title)和內容(body)的綜合搜尋,那麼可以將title建立title_search索引,將title和body建立default複合式索引。那麼,在title_search上查詢即可實現基於標題的搜尋,在default上查詢即可實現基於標題和內容的綜合搜尋。 |
索引欄位 | 在query子句中使用,需要定義索引欄位,通過索引欄位來做高效能的檢索召回。 |
屬性欄位 | |
預設展示欄位 | 用來做結果展示。可以通過API參數fetch_fields來控制每次結果的返回欄位,需注意在程式中配置fetch_fields該參數後會覆蓋預設展示欄位配置,以程式中的fetch_fields設定為主;若程式中不設定fetch_fields參數則以預設展示欄位為主。 |
分詞 | 對文檔進行片語切分,TEXT類型按檢索單元切分,SHORT_TEXT按單字切分。如“浙江大學”,TEXT類型會切分成2個片語:“浙江”、“大學”。SHORT_TEXT會切分成4個片語:“浙”、“江”、“大”、“學”。 |
term | 分詞後的片語稱為term。 |
構建索引 | 分詞後會進行索引構建,以便根據查詢請求,快速定位到文檔。搜尋引擎會構建出兩種類型的鏈表:倒排和正排鏈表。 |
倒排 | 片語到文檔的對應關係組成的鏈表,query子句採用這種排序方式進行查詢。例如:term1->doc1,doc2,doc3;term2->doc1,doc2。 |
正排 | 文檔到欄位對應關係組成的鏈表,filter子句採用這種排序方式,效能略慢於倒排。例如:doc1->id,type,create_time。 |
召回 | 通過查詢的關鍵詞進行分詞,將分詞後的片語通過尋找倒排鏈錶快速定位到文檔。 |
召回量 | 召回得到的文檔數為召回量。 |
資料同步
名稱 | 說明 |
資料來源 | 資料來源,目前支援阿里雲RDS、MaxCompute、PolarDB的資料同步。 |
索引重建 | 重新構建索引。在配置/修改應用結構、資料來源後需要索引重建。 |
配額管理
名稱 | 說明 |
文檔容量 | 執行個體中各個表的總文檔大小累加值(不考慮欄位名,欄位內容按照string來計算容量)。 |
QPS | 每秒查詢請求數。 |
LCU | LCU(邏輯計算單元)是衡量搜尋計算能力的單位,一個LCU代表搜尋叢集中1/100個核的計算能力。 |
快速擴縮容 | 根據實際業務需求,快速升降配,小規格可即時生效,涉及規格轉換(如:共用型-叢集轉換為獨享型-叢集)需審批後生效。 |
搜尋
名稱 | 說明 |
排序運算式 | 排序運算式是用於控制搜尋文檔排序的運算式,支援基本數學運算、數學函數和內建函數。 |
基礎排序運算式 | 對搜尋結果進行第一輪的海選,按照運算式對文檔進行算分,並按照算分結果進行排序。 |
業務排序運算式 | 對第一輪的排序結果選取前N個按照業務排序運算式進行第二輪更細節的分值計算,按照分值進行最終的排序。 |
結果摘要 | 常值內容一般會很長,在搜尋結果展示的時候可以只展示部分匹配的內容,方便使用者快速瞭解文檔主要內容。 |
查詢分析 | 目前支援同義字、拼字錯誤修正、停用詞、詞權重等功能,理解使用者的搜尋意圖。 |