全部產品
Search
文件中心

OpenSearch:量化聚類(Quantized Clustering)配置

更新時間:Jul 13, 2024

QcBuilder

參數名

類型

預設值

說明

qc.builder.train_sample_count

uint32

0

指定訓練資料量,如果為0則使用全部資料

qc.builder.thread_count

uint32

0

構建時開啟線程數量,設定為0時為cpu核心數

qc.builder.centroid_count

string

可選

聚類中心點參數,支援層次聚類。層之間用“*”分隔。

一層聚類樣本:1000

兩層樣本:100*100

如果使用兩層中心點,一般第一次中心點數量比第二層多,效果更好。經驗值是第一層是第二層10倍。

未配置時,系統會自動推匯出合適的中心點個數,建議由系統自動推導。

qc.builder.quantizer_class

string

-

配置量化器,預設不使用量化器。可選有 Int8QuantizerConverter, HalfFloatConverter, DoubleBitConverter。一般配置量化器可提升效能,減少索引大小,召回視情況有所損失

qc.builder.quantize_by_centroid

bool

False

使用proxima.qc.builder.quantizer_class時,是否按中心點進行量化。目前僅支援 proxima.qc.builder.quantizer_class 為 Int8QuantizerConverter 的情況

QcSearcher

參數名

類型

預設值

說明

qc.searcher.scan_ratio

float

0.01

用於計算max_scan_num數量,總doc數量 * scan_ratio

qc.searcher.brute_force_threshold

int

1000

如果總doc數少於此值,則走線性檢索