ノイズを伴うアプリケーションの密度ベースのクラスタリング (DBSCAN) は、密度ベースのクラスタリングアルゴリズムです。 クラスタは、密に接続された点の最大セットとして定義される。 このアルゴリズムは、高密度の領域をクラスタとみなし、ノイズのある空間データベース内の任意の形状のクラスタを検出する。 DBSCAN予測コンポーネントのDBSCANトレーニングモデルを使用して、新しいポイントが属する可能性のあるクラスターを予測できます。 このトピックでは、DBSCAN予測コンポーネントを設定する方法について説明します。
制限事項
DBSCAN予測コンポーネントは、MaxComputeのコンピューティングリソースとPAIのFlinkのみに基づいて使用できます。
PAIコンソールでコンポーネントを設定する
DBSCAN予測コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) コンソールで設定できます。
タブ | パラメーター | 説明 |
フィールド設定 | reservedCols | アルゴリズムによって予約される列。 |
パラメーター設定 | predictionCol | 予測列の名前。 |
predictionDetailCol | 予測の詳細列の名前。 | |
numThreads | コンポーネントのスレッド数。 デフォルト値は 1 です。 | |
実行チューニング | 数の労働者 | コアの数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
ワーカあたりのメモリ、単位MB | 各コアのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
付録: リソース使用量を推定する方法
リソース使用量の見積もりについては、次のセクションを参照してください。
各ノードで使用されるメモリを推定するにはどうすればよいですか?
各ノードによって使用されるメモリは、およそモデルサイズの30倍である。
たとえば、入力モデルサイズが1 GBの場合、各ノードのメモリを30 GBに設定できます。
必要なノードの数を推定するにはどうすればよいですか?
分散トレーニングタスクは、通信オーバーヘッドのためにノードの数が増加するにつれて、高速化し、その後低速化する。 タスクが遅くなった場合は、ノード数の増加を停止します。 このノード量を使用することができる。