1. 聚类
1.1 KmeansCluster / BatchKmeansCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.kmeans.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.kmeans.cluster.shard_factor | FLOAT | 16.0f | 多线程并发度调优因子 |
proxima.kmeans.cluster.epsilon | DOUBLE | FL_EPSILON | 聚类收敛精度 |
proxima.kmeans.cluster.max_iterations | UINT32 | 20 | 最大迭代次数 |
proxima.kmeans.cluster.purge_empty | BOOL | false | 是否删除空中心点 |
proxima.kmeans.cluster.seeker_class | STRING | LinearSeeker | 查找中心点算法类 |
proxima.kmeans.cluster.seeker_params | IndexParams | 查找中心点算法类参数 IndexParams 对象 |
1.2 GpuKmeansCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.kmeans.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.kmeans.cluster.epsilon | DOUBLE | FL_EPSILON | 聚类收敛精度 |
proxima.kmeans.cluster.max_iterations | UINT32 | 100 | 最大迭代次数 |
proxima.kmeans.cluster.purge_empty | BOOL | false | 是否删除空中心点 |
1.3 MiniBatchKmeansCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.minibatchkmeans.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.minibatchkmeans.cluster.shard_factor | FLOAT | 16.0f | 多线程并发度调优因子 |
proxima.minibatchkmeans.cluster.epsilon | DOUBLE | FL_EPSILON | 聚类收敛精度 |
proxima.minibatchkmeans.cluster.max_iterations | UINT32 | 20 | 最大迭代次数 |
proxima.minibatchkmeans.cluster.purge_empty | BOOL | false | 是否删除空中心点 |
proxima.minibatchkmeans.cluster.try_count | UINT32 | 20 | 尝试次数,最小值为 1 |
proxima.minibatchkmeans.cluster.batch_count | UINT32 | 0(自动计算) | 批量训练的采样的特征数量,如果为 0,则值为特征总数除以尝试次数。 |
proxima.minibatchkmeans.cluster.seeker_class | STRING | LinearSeeker | 查找中心点算法类 |
proxima.minibatchkmeans.cluster.seeker_params | IndexParams | 查找中心点算法类参数 |
1.4 BikmeansCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.bikmeans.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.bikmeans.cluster.init_count | UINT32 | 0(自动计算) | 第一阶段聚类初始化的中心点数,如果为 0,则值为特征总数除以四。 |
proxima.bikmeans.cluster.purge_empty | BOOL | false | 是否删除空中心点 |
proxima.bikmeans.cluster.first_class | STRING | KmeansCluster | 第一阶段聚类方法 |
proxima.bikmeans.cluster.second_params | IndexParams | 第一阶段聚类方法参数 | |
proxima.bikmeans.cluster.second_class | STRING | KmeansCluster | 第二阶段聚类方法 |
proxima.bikmeans.cluster.second_params | IndexParams | 第二阶段聚类方法参数 |
1.5 KmeansppCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.kmeanspp.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.kmeanspp.cluster.shard_factor | UINT32 | 16.0f | 多线程并发度调优因子 |
proxima.kmeanspp.cluster.class | STRING | KmeansCluster | 初始化完中心点后,调用的聚类方法 |
proxima.kmeanspp.cluster.params | IndexParams | 聚类方法参数 |
1.6 Kmc2Cluster / AFKmc2Cluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.kmc2.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.kmc2.cluster.shard_factor | UINT32 | 2.5f | 多线程并发度调优因子 |
proxima.kmc2.cluster.markov_chain_length | UINT32 | 0u | 马尔科夫链长度,如果为 0,则值为线程数乘以并发因子 |
proxima.kmc2.cluster.class | STRING | KmeansCluster | 初始化完中心点后,调用的聚类方法 |
proxima.kmc2.cluster.params | IndexParams | 聚类方法参数 |
1.7 KmedoidsCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 中心点数量 |
proxima.kmedoids.cluster.count | UINT32 | 0 | 中心点数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.kmedoids.cluster.shard_factor | FLOAT | 16.0f | 多线程并发度调优因子 |
proxima.kmedoids.cluster.epsilon | DOUBLE | FL_EPSILON | 聚类收敛精度 |
proxima.kmedoids.cluster.max_iterations | UINT32 | 20 | 最大迭代次数 |
proxima.kmedoids.cluster.purge_empty | BOOL | false | 是否删除空中心点 |
proxima.kmedoids.cluster.bench_ratio | FLOAT | 0.1f | 候选点比例 |
proxima.kmedoids.cluster.only_means | BOOL | false | 仅考虑均值作为候选点(算法退化为 kmeans) |
proxima.kmedoids.cluster.without_means | BOOL | false | 不考虑均值作为候选点 |
proxima.kmedoids.cluster.seeker_class | STRING | LinearSeeker | 查找中心点算法类 |
proxima.kmedoids.cluster.seeker_params | IndexParams | 查找中心点算法类参数 IndexParams 对象 |
1.8 StratifiedCluster
参数名 | 类型 | 默认值 | 备注 |
proxima.general.cluster.count | UINT32 | 0 | 第二层中心点总数量 |
proxima.stratified.cluster.count | UINT32 | 0 | 第二层中心点总数量,优先级高于 general,低于 suggest 的 K 值 |
proxima.stratified.cluster.first_class | STARING | KmeansCluster | 第一层聚类方法 |
proxima.stratified.cluster.second_class | STARING | KmeansCluster | 第二层聚类方法 |
proxima.stratified.cluster.first_count | UINT32 | 0 | 第一层聚类中心点数量 |
proxima.stratified.cluster.second_count | UINT32 | 0 | 第二层聚类中心点数量 |
proxima.stratified.cluster.first_params | IndexParams | 第一层聚类方法参数 | |
proxima.stratified.cluster.second_params | IndexParams | 第二层聚类方法参数 | |
proxima.stratified.cluster.auto_tuning | BOOL | false |
2. 聚类预估
2.1 GapstatsClusterEstimater