全部產品
Search
文件中心

OpenSearch:名詞解釋

更新時間:Jul 13, 2024

執行個體管理

名稱

說明

執行個體

執行個體是使用者的一套資料配置,包括資料來源結構、索引結構及其它屬性配置。一個執行個體即一個搜尋服務。

文檔

文檔是可搜尋的結構化資料單元。文檔包含一個或多個欄位,但必須有主鍵欄位,高效能檢索版執行個體通過主索引值來確定唯一的文檔。主鍵重複則文檔會被覆蓋。

欄位

欄位是文檔的組成單元,包含欄位名稱和欄位內容。

外掛程式

為了在匯入處理程序中進行一些資料處理,系統內建了若干資料處理外掛程式,可以在定義應用結構或者配置資料來源時選擇。

來源資料

未經處理資料,包含一個或多個源欄位。

源欄位

組成來源資料的最小單元,包含欄位名稱和欄位值,可選資料類型請參見OpenSearch表結構

索引

索引是用於加速檢索速度的資料結構,一個執行個體可以建立多個索引。

複合式索引

可將多個TEXT或SHORT_TEXT文本類型的欄位配置到同一個索引,用來做複合式索引。如一個論壇搜尋,需要提供基於標題(title)的搜尋及基於標題(title)和內容(body)的綜合搜尋,那麼可以將title建立title_search索引,將title和body建立default複合式索引。那麼,在title_search上查詢即可實現基於標題的搜尋,在default上查詢即可實現基於標題和內容的綜合搜尋。

索引欄位

query子句中使用,需要定義索引欄位,通過索引欄位來做高效能的檢索召回。

屬性欄位

filter子句sort子句aggregate子句distinct子句子句使用,用來實現過濾、統計等功能。

預設展示欄位

用來做結果展示。可以通過API參數fetch_fields來控制每次結果的返回欄位,需注意在程式中配置fetch_fields該參數後會覆蓋預設展示欄位配置,以程式中的fetch_fields設定為主;若程式中不設定fetch_fields參數則以預設展示欄位為主。

分詞

對文檔進行片語切分,TEXT類型按檢索單元切分,SHORT_TEXT按單字切分。如“浙江大學”,TEXT類型會切分成2個片語:“浙江”、“大學”。SHORT_TEXT會切分成4個片語:“浙”、“江”、“大”、“學”。

term

分詞後的片語稱為term。

構建索引

分詞後會進行索引構建,以便根據查詢請求,快速定位到文檔。搜尋引擎會構建出兩種類型的鏈表:倒排和正排鏈表。

倒排

片語到文檔的對應關係組成的鏈表,query子句採用這種排序方式進行查詢。例如:term1->doc1,doc2,doc3;term2->doc1,doc2。

正排

文檔到欄位對應關係組成的鏈表,filter子句採用這種排序方式,效能略慢於倒排。例如:doc1->id,type,create_time。

召回

通過查詢的關鍵詞進行分詞,將分詞後的片語通過尋找倒排鏈錶快速定位到文檔。

召回量

召回得到的文檔數為召回量。

資料同步

名稱

說明

資料來源

資料來源,目前支援阿里雲RDS、MaxCompute、PolarDB的資料同步。

索引重建

重新構建索引。在配置/修改應用結構、資料來源後需要索引重建。

配額管理

名稱

說明

文檔容量

執行個體中各個表的總文檔大小累加值(不考慮欄位名,欄位內容按照string來計算容量)。

QPS

每秒查詢請求數。

LCU

LCU(邏輯計算單元)是衡量搜尋計算能力的單位,一個LCU代表搜尋叢集中1/100個核的計算能力。

搜尋

名稱

說明

排序運算式

排序運算式是用於控制搜尋文檔排序的運算式,支援基本數學運算、數學函數和內建函數。

基礎排序運算式

對搜尋結果進行第一輪的海選,按照運算式對文檔進行算分,並按照算分結果進行排序。

業務排序運算式

對第一輪的排序結果選取前N個按照業務排序運算式進行第二輪更細節的分值計算,按照分值進行最終的排序。

結果摘要

常值內容一般會很長,在搜尋結果展示的時候可以只展示部分匹配的內容,方便使用者快速瞭解文檔主要內容。