索引表結構介紹
每個Document都是由多個field組成,每個field中包含一系列的詞語,構建索引的目的是為了加快檢索的速度,根據映射關係方向的不同,索引可以分為:
欄位(field):用於定義索引表的欄位名及欄位類型。
倒排索引(index):倒排索引儲存了從單詞到DocID的映射關係,形如:詞:(Doc1,Doc2,...,DocN),倒排索引主要用在檢索中,它能快速的定位使用者查詢到關鍵字對應的Document。
正排索引(attribute):正排索引儲存從DocID到field的映射關係,形如:DocID-->(term1,term2,...termn),正排索引分單值和多值兩種,單值attribute由於長度是固定的(不包括string類型),因此尋找效率高,而且可以支援更新。多值attribute表示某個field中有多個資料(數量不固定),由於長度不確定,因此尋找效率相較與單值更慢,而且不能支援更新。
正排索引主要是在查詢到了某個Document後,根據docid值能快速擷取到其attribute用來統計、排序、過濾中。目前引擎支援的正排欄位基本類型包括:
INT8(8位有符號數字類型), UINT8(8位無符號數字類型),
INT16(16位有符號數字類型),
UINT16(16位無符號數字類型),
INTEGER(32位有符號數字類型),
UINT32(32位無符號數字類型), INT64(64位有符號數字類型),
UINT64(64位無符號數字類型),
FLOAT(32位浮點數),
DOUBLE(64位浮點數),
STRING(字串類型)
摘要(summary):summary的儲存形式與attribute類似,但是summary是將一個Document對應的多個field儲存在一起,並且建立映射,所以能很快從docid定位到對應的summary內容。summary主要是用於結果的展示,一般而言summary的內容都比較大,對於每次查詢而言不適合取過多的summary,只有最終需要展示結果的Document會取到對應的summary。由於summary過大,引擎在儲存summary時提供壓縮的機制,在schema中配置summary壓縮,那麼引擎在儲存時會用zlib壓縮後再儲存,讀取時引擎會先解壓,再返回給使用者。
有關索引表配置的詳細介紹的文章可參考索引表配置。
索引schema樣本:
{
"summarys": {
"summary_fields": [
"pk",
"embedding",
"cate_id"
],
"parameter": {
"file_compressor": "zstd"
}
},
"indexs": [
{
"index_name": "id",
"index_type": "PRIMARYKEY64",
"index_fields": "pk",
"has_primary_key_attribute": true,
"is_primary_key_sorted": false
},
{
"index_name": "vector",
"index_type": "CUSTOMIZED",
"index_fields": [
{
"field_name": "pk",
"boost": 1
},
{
"field_name": "cate_id",
"boost": 1
},
{
"field_name": "embedding",
"boost": 1
}
],
"parameters": {
"dimension": "128",
"distance_type": "SquaredEuclidean",
"vector_index_type": "Qc",
"build_index_params": "{\"proxima.qc.builder.quantizer_class\":\"Int8QuantizerConverter\",\"proxima.qc.builder.quantize_by_centroid\":true,\"proxima.qc.builder.optimizer_class\":\"BruteForceBuilder\",\"proxima.qc.builder.thread_count\":10,\"proxima.qc.builder.optimizer_params\":{\"proxima.linear.builder.column_major_order\":true},\"proxima.qc.builder.store_original_features\":false,\"proxima.qc.builder.train_sample_count\":3000000,\"proxima.qc.builder.train_sample_ratio\":0.5}",
"search_index_params": "{\"proxima.qc.searcher.scan_ratio\":0.01}",
"embedding_delimiter": ",",
"major_order": "col",
"linear_build_threshold": "5000",
"min_scan_doc_cnt": "20000",
"enable_recall_report": "false",
"is_embedding_saved": "false",
"enable_rt_build": "false",
"builder_name": "QcBuilder",
"searcher_name": "QcSearcher"
},
"indexer": "aitheta2_indexer"
}
],
"attributes": [
{
"field_name": "pk",
"file_compress": "no_compressor"
},
{
"field_name": "embedding",
"file_compress": "no_compressor"
},
{
"field_name": "cate_id",
"file_compress": "file_compressor"
}
],
"fields": [
{
"user_defined_param": {},
"field_name": "pk",
"field_type": "INTEGER",
"compress_type": "equal"
},
{
"user_defined_param": {
"multi_value_sep": ","
},
"field_name": "embedding",
"field_type": "FLOAT",
"compress_type": "uniq",
"multi_value": true
},
{
"user_defined_param": {},
"field_name": "cate_id",
"field_type": "INTEGER",
"compress_type": "equal"
},
{
"field_name": "titile",
"field_type": "TEXT",
"analyzer": "chn_ecommerce_general"
}
],
"file_compress": [
{
"name": "file_compressor",
"type": "zstd"
},
{
"name": "no_compressor",
"type": ""
}
]
}
添加索引表
在執行個體管理介面,進入配置中心 > 索引結構頁面,單擊“添加索引表”:
配置索引表,模板選擇通用模板:
索引表:可自訂
資料來源:按需選擇已添加資料來源
資料分區:根據使用者購買的資料節點個數進行配置
設定欄位,至少需要定義2個欄位主鍵欄位和向量欄位(向量欄位需要設定為多值float類型):
如果需要帶有類目的向量,可以在主鍵和向量欄位中間加一個類目欄位,類型要求單值或多值的整數類型:
屬性和欄位內容壓縮:
屬性欄位可以選擇是否壓縮,預設為不壓縮,選擇file_compressor表示開啟壓縮
欄位內容可以選擇是否壓縮,預設為不壓縮,預設多值和STRING類型選擇uniq,單值數實值型別是equal
使用向量檢索,在定義欄位時有位置要求,需要按照主鍵欄位、標籤欄位(非必要)、向量欄位的順序建立。(如上圖所示)
如果開啟了屬性壓縮,建議前往「部署管理-資料節點-線上表配置」編輯索引載入方式,以此降低對效能的影響
設定索引,主鍵欄位索引類型設定為PRIMARYKEY64,向量索引類型選擇CUSTOMIZED:
索引欄位設定壓縮:
索引欄位可以選擇是否壓縮,預設為不壓縮,選擇file_compressor表示開啟壓縮
主鍵索引不支援壓縮
如果開啟了索引壓縮,建議前往「部署管理-資料節點-線上表配置」編輯索引載入方式,以此降低對效能的影響
4.1. 為向量欄位添加包含欄位:
主鍵欄位、向量欄位必須填寫,標籤欄位非必填,可以為空白。
僅支援選擇固定的三個欄位,不支援新增。
4.2. 進階配置,向量索引需要單獨配置參數,可以參考如下配置,詳情可參考向量索引:
更多參數:
其中build_index_params的配置如下:
{
"proxima.qc.builder.quantizer_class": "Int8QuantizerConverter",
"proxima.qc.builder.quantize_by_centroid": true,
"proxima.qc.builder.optimizer_class": "BruteForceBuilder",
"proxima.qc.builder.thread_count": 10,
"proxima.qc.builder.optimizer_params": {
"proxima.linear.builder.column_major_order": true
},
"proxima.qc.builder.store_original_features": false,
"proxima.qc.builder.train_sample_count": 3000000,
"proxima.qc.builder.train_sample_ratio": 0.5
}
search_index_params的配置如下:
{
"proxima.qc.searcher.scan_ratio": 0.01
}
配置完成後,單擊儲存版本,並在彈框後填寫備忘(可選),單擊發布:
索引表添加成功後,可在營運中心>部署管理中查看新加的索引表的拓撲:
若需要新加的索引表在叢集中生效,需要在營運中心>營運管理中手動觸發配置更新並全量,“配置更新”操作中執行“推送配置並觸發索引重建”:
索引重建時,可以在營運中心>變更歷史中的資料來源變更中查看全量進度:
索引重建完成後,即可對新索引表進行查詢。
欄位設定有且僅有一個主鍵;
欄位設定中,至少需要有一個欄位勾選搜尋結果展示;
TEXT類型的欄位需要設定分析方式,且不支援多值;
索引設定有且僅有一個主鍵索引;
多值分割符除預設分割符外,只支援單字元,且不支援全形字元;
在設定資料分區時需要注意,假設叢集的副本個數為2,資料分區設定為2,那麼在購買執行個體時資料節點數量需要大於副本個數*資料分區,新加的索引表才能正常使用。
分區數設定時參考下面幾個規則:單個分區資料量不要超過6億(最大21億);單個分區的索引大小不要超過300G;如果有即時更新需求,單個分區資料更新tps不要超過4000(add命令的文檔,如果只是update可以達到1w tps)。
編輯索引表
索引表版本介紹:
新建立的索引表預設有2個版本:
index_config_v1:初次配置的索引表版本,若已推送配置並索引重建,狀態變為“使用中”,若未推送配置並索引重建,狀態則為“未使用”;
index_config_edit:正在編輯中的索引表版本,狀態一直為“編輯中”;
隨著索引表版本的連續發布版本名稱會依次遞增,比如第二個版本名為“index_config_v2”,第三個版本名為“index_config_v3”依次類推,為明顯區分各個版本,每個版本的備忘是必須填寫的。
編輯並發布新的索引表版本:
找到版本狀態為“編輯中”的版本,單擊編輯:
cluster.json配置補充說明:
平台支援配置索引整理策略,可以對customized_merge_config
和segment_customize_metrics_updater(僅新執行個體支援)
進行配置,如圖:
參數詳解參考:離線cluster配置
修改後,單擊儲存版本:
也可以切換到開發人員模式手動編輯schema:
找到版本狀態為“編輯中”的版本,單鍵發行,並填寫備忘,單擊確定:
此時系統會為該索引表生產一個新的索引表版本,版本狀態為“未使用”。
若需要將新添加的索引表版本在叢集中生效,則需要在營運中心>營運管理>更新配置中執行推送配置並觸發索引重建:
刪除索引表版本:
狀態為“未使用”的索引表版本可以直接刪除:
查看索引表版本:
單擊“查看”後,可跳轉到索引表版本的唯讀配置介面:
管理員模式:
開發人員模式:
刪除索引表
若索引表中的索引表版本沒有“使用中”的狀態,可以直接刪除索引表:
若索引表中的索引表版本有“使用中”的狀態:
則需要按如下步驟操作,才可刪除:
在營運管理>部署管理中,單擊索引表,‘取消訂閱’,如圖:
然後在配置中心--->索引結構中,刪除對應的索引表:
如果在部署管理中,索引表取消訂閱,一定要在索引結構中刪除對應的索引表,否則會影響線上叢集。
注意事項
添加索引表時,資料來源為必選項,若無資料來源,則需要先添加資料來源再添加索引表;
索引表名稱建立後不可修改;
索引表中如有“使用中”的索引表版本,則無法直接刪除索引表;
每個索引表只能存在一個編輯中的索引表版本;