ノイズを伴うアプリケーションの密度ベースのクラスタリング (DBSCAN) は、密度ベースのクラスタリングアルゴリズムです。 クラスタは、密に接続された点の最大セットとして定義される。 アルゴリズムは、ノイズを有する空間データセットにおける任意の形状のクラスタを識別するために使用され得る。 DBSCANコンポーネントを使用して、クラスタリングモデルを作成できます。 このトピックでは、DBSCANコンポーネントを設定する方法について説明します。
制限事項
DBSCANコンポーネントは、Machine Learning Platform for AI (PAI) のMachine Learning Designerでのみ使用できます。
サポートされているコンピューティングエンジンは、MaxComputeとApache Flinkです。
PAIコンソールでコンポーネントを設定する
PAIコンソールでDBSCANコンポーネントのパラメーターを設定できます。
タブ | パラメーター | 説明 |
フィールド設定 | idCol | ID列の名前。 |
vectorCol | ベクトル列の名前。 | |
パラメーター設定 | イプシロン | 2つの隣接するデータポイント間の最長距離。 詳細については、このトピックの「付録2: パラメーターの設定方法」を参照してください。 |
デマインポイント | コアポイントと見なされるポイントのポイントの近傍内のデータポイントの最小数。 詳細については、このトピックの「付録2: パラメーターの設定方法」を参照してください。 | |
predictionCol | 予測結果列の名前。 | |
distanceType | クラスタリングに使用される距離測定。 デフォルト値: EUCLIDEAN。 有効な値:
| |
実行チューニング | 数の労働者 | 労働者の数。 このパラメモリは, Memory per worker, unit MBパラメータと一緒に使用される. このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
ワーカあたりのメモリ、単位MB | 各ワーカーのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
付録: リソース使用量を推定する方法
リソース使用量の見積もりについては、次のセクションを参照してください。
各ワーカーに適したメモリサイズを見積もるにはどうすればよいですか?
次の式を使用して、各ワーカーの適切なメモリを計算できます。入力データサイズ × 15。
たとえば、入力データサイズが1 GBの場合、各ワーカーのメモリを15 GBに設定できます。
私はいかに適切な労働者の量を推定しますか。
労働者の数が多いほど、労働者間コミュニケーションのオーバーヘッドが高くなります。 したがって、ワーカーの数を増やすと、分散トレーニングタスクは最初にスピードアップしますが、特定の数のワーカーの後は遅くなります。 このパラメーターを調整して最適な数値を見つけることができます。
アルゴリズムでサポートできる最大データ量を推定するにはどうすればよいですか?
200ディメンション未満のデータレコードを入力することを推奨します。
説明より大きなデータボリュームでクラスタリングを実行する場合は、データをグループに分割し、各グループでDBSCANアルゴリズムを実行することをお勧めします。
コアデータポイントのIDが2147483648のはなぜですか?
これは、コアポイントがどのクラスターにも属さない外れ値ポイントであるためです。
付録2: パラメーターの設定方法
DBSCANコンポーネントには、minPointsとepsilonという2つの頻繁に使用されるパラメータがあります。
観測されたクラスターの数が多すぎて数を減らしたい場合は、イプシロン値の減少よりもminPoints値の増加を優先することを推奨します。
観測されたクラスターの数が少なすぎて数を増やしたい場合は、イプシロン値を増やすよりもminPoints値を減らすことを優先することをお勧めします。