DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,其核心思想是将簇定义为密度相连的点的最大集合。通过将高密度区域划分为簇,该算法能够在含有噪声的空间数据集中识别出任意形状的聚类。您可以使用DBSCAN预测组件预测新的点数据所属的簇。本文为您介绍DBSCAN预测组件的配置方法。
支持的计算资源
MaxCompute/Flink/DLC
配置组件
在Designer工作流页面添加DBSCAN预测组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 | |
字段设置 | 算法保留列名 | 输出结果中是否保留输入数据的原始列名。 | |
参数设置 | 预测结果列名 | 输出数据中包含预测结果的列的名称。 | |
预测详细信息列名 | 指定输出数据中包含详细预测信息的列的名称。 | ||
组件多线程线程个数 | 执行DBSCAN聚类计算时所使用的线程数量。 | ||
执行调优 | 底层Alink作业使用的计算资源 | MaxCompute | 使用MaxCompute/Flink计算资源,节点个数和单节点占用的内存大小配置方法请参见附录:如何预估资源的使用量。 |
Flink | |||
DLC | 使用DLC计算资源,请根据界面提示配置资源规格。 |
附录:如何预估资源的使用量
您可以参考以下内容,来预估资源的使用量。
如何预估每个节点使用的内存大小?
将模型的大小乘以30,即为每个节点使用的内存大小。
例如:输入数据(模型)的大小为1 GB,则每个节点使用的内存大小可以配置为30 GB。
如何预估使用的节点个数?
由于存在通信开销,随着节点数量的增加,分布式训练任务速度会先变快,后变慢。如果您观测到训练任务随着节点数量增加之后,速度变慢,则应该停止增加节点数量。