すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DBSCAN予測

最終更新日:Dec 05, 2024

ノイズを伴うアプリケーションの密度ベースのクラスタリング (DBSCAN) は、密度ベースのクラスタリングアルゴリズムです。 クラスタは、密に接続された点の最大セットとして定義されます。 このアルゴリズムは、高密度の領域をクラスタとみなし、ノイズのある空間データベース内の任意の形状のクラスタを検出します。 DBSCAN予測コンポーネントのDBSCANトレーニングモデルを使用して、新しいポイントが属する可能性のあるクラスターを予測できます。 このトピックでは、DBSCAN予測コンポーネントを設定する方法について説明します。

コンピューティングリソース

DBSCAN予測コンポーネントは、次のコンピューティングリソースをサポートします。

  • MaxCompute

  • Flink

  • DLC

PAIコンソールでコンポーネントを設定する

DBSCAN予測コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) コンソールで設定できます。

タブ

パラメーター

説明

フィールド設定

reservedCols

元の列名を予約するかどうか。

パラメーター設定

predictionCol

予測列の名前。

predictionDetailCol

予測の詳細列の名前。

numThreads

DBSCANクラスタリングに使用されるスレッドの数。

実行チューニング

[実行モードの選択]

MaxCompute

MaxComputeまたはFlinkコンピューティングリソースを使用します。 ワーカーの数とワーカーのメモリを設定する方法の詳細については、「付録: リソース使用量を推定する方法」をご参照ください。

Flink

DLC

DLCコンピューティングリソースを使用します。 ページの指示に基づいてresouecesを設定します。

付録: リソース使用量を推定する方法

リソース使用量の見積もりについては、次のセクションを参照してください。

  • 各ノードで使用されるメモリを推定するにはどうすればよいですか?

    各ノードによって使用されるメモリは、およそモデルサイズの30倍です。

    たとえば、入力モデルサイズが1 GBの場合、各ノードのメモリを30 GBに設定できます。

  • 必要なノードの数を推定するにはどうすればよいですか?

    分散トレーニングタスクは、通信オーバーヘッドのためにノードの数が増加するにつれて、高速化し、その後低速化する。 タスクが遅くなった場合は、ノード数の増加を停止します。 このノード量を使用することができます。