DBSCAN(Density Based Spatial Clustering of Applications with Noise)是一種基於密度的聚類演算法。它將簇定義為密度相連的點的最大集合。把具有高密度的地區劃分為簇,可以在雜訊的空間資料集中發現任意形狀的聚類。您可以使用DBSCAN預測組件基於DBSCAN訓練模型來預測新的點資料所屬的簇。本文為您介紹DBSCAN預測組件的配置方法。
使用限制
支援的計算引擎為MaxCompute、Flink或DLC。
可視化配置組件參數
Designer支援通過可視化的方式,配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 演算法保留列名 | 選擇演算法保留列。 |
參數設定 | 預測結果列名 | 輸入預測結果列名稱。 |
預測詳細資料列名 | 輸入預測詳細資料列的列名稱。 | |
組件多線程線程個數 | 組件多線程的線程個數,預設為1。 | |
執行調優 | 節點個數 | 與單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。具體配置方法,詳情請參見附錄:如何預估資源的使用量。 |
單個節點記憶體大小,單位M | 取值範圍為1024 MB~64*1024 MB。具體配置方法,詳情請參見附錄:如何預估資源的使用量。 |
附錄:如何預估資源的使用量
您可以參考以下內容,來預估資源的使用量。
如何預估每個節點使用的記憶體大小?
將模型的大小乘以30,即為每個節點使用的記憶體大小。
例如:輸入資料(模型)的大小為1 GB,則每個節點使用的記憶體大小可以配置為30 GB。
如何預估使用的節點個數?
由於存在通訊開銷,隨著節點數量的增加,分布式訓練任務速度會先變快,後變慢。如果您觀測到訓練任務隨著節點數量增加之後,速度變慢,則應該停止增加節點數量。