ノイズを伴うアプリケーションの密度ベースのクラスタリング (DBSCAN) は、密度ベースのクラスタリングアルゴリズムです。 クラスタは、密に接続された点の最大セットとして定義されます。 このアルゴリズムは、高密度の領域をクラスタとみなし、ノイズのある空間データベース内の任意の形状のクラスタを検出します。 DBSCAN予測コンポーネントのDBSCANトレーニングモデルを使用して、新しいポイントが属する可能性のあるクラスターを予測できます。 このトピックでは、DBSCAN予測コンポーネントを設定する方法について説明します。
コンピューティングリソース
DBSCAN予測コンポーネントは、次のコンピューティングリソースをサポートします。
MaxCompute
Flink
DLC
PAIコンソールでコンポーネントを設定する
DBSCAN予測コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) コンソールで設定できます。
タブ | パラメーター | 説明 | |
フィールド設定 | reservedCols | 元の列名を予約するかどうか。 | |
パラメーター設定 | predictionCol | 予測列の名前。 | |
predictionDetailCol | 予測の詳細列の名前。 | ||
numThreads | DBSCANクラスタリングに使用されるスレッドの数。 | ||
実行チューニング | [実行モードの選択] | MaxCompute | MaxComputeまたはFlinkコンピューティングリソースを使用します。 ワーカーの数とワーカーのメモリを設定する方法の詳細については、「付録: リソース使用量を推定する方法」をご参照ください。 |
Flink | |||
DLC | DLCコンピューティングリソースを使用します。 ページの指示に基づいてresouecesを設定します。 |
付録: リソース使用量を推定する方法
リソース使用量の見積もりについては、次のセクションを参照してください。
各ノードで使用されるメモリを推定するにはどうすればよいですか?
各ノードによって使用されるメモリは、およそモデルサイズの30倍です。
たとえば、入力モデルサイズが1 GBの場合、各ノードのメモリを30 GBに設定できます。
必要なノードの数を推定するにはどうすればよいですか?
分散トレーニングタスクは、通信オーバーヘッドのためにノードの数が増加するにつれて、高速化し、その後低速化する。 タスクが遅くなった場合は、ノード数の増加を停止します。 このノード量を使用することができます。