DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種基於密度的聚類演算法,其核心思想是將簇定義為密度相連的點的最大集合。通過將高密度地區劃分為簇,該演算法能夠在含有雜訊的空間資料集中識別出任意形狀的聚類。您可以使用DBSCAN預測組件預測新的點資料所屬的簇。本文為您介紹DBSCAN預測組件的配置方法。
支援的計算資源
MaxCompute/Flink/DLC
配置組件
在Designer工作流程頁面添加DBSCAN預測組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 | |
欄位設定 | 演算法保留列名 | 輸出結果中是否保留輸入資料的原始列名。 | |
參數設定 | 預測結果列名 | 輸出資料中包含預測結果的列的名稱。 | |
預測詳細資料列名 | 指定輸出資料中包含詳細預測資訊的列的名稱。 | ||
組件多線程線程個數 | 執行DBSCAN聚類計算時所使用的線程數量。 | ||
執行調優 | 底層Alink作業使用的計算資源 | MaxCompute | 使用MaxCompute/Flink計算資源,節點個數和單節點佔用的記憶體大小配置方法請參見附錄:如何預估資源的使用量。 |
Flink | |||
DLC | 使用DLC計算資源,請根據介面提示配置資源規格。 |
附錄:如何預估資源的使用量
您可以參考以下內容,來預估資源的使用量。
如何預估每個節點使用的記憶體大小?
將模型的大小乘以30,即為每個節點使用的記憶體大小。
例如:輸入資料(模型)的大小為1 GB,則每個節點使用的記憶體大小可以配置為30 GB。
如何預估使用的節點個數?
由於存在通訊開銷,隨著節點數量的增加,分布式訓練任務速度會先變快,後變慢。如果您觀測到訓練任務隨著節點數量增加之後,速度變慢,則應該停止增加節點數量。