すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:クラスタリングモデルの評価

最終更新日:Jul 22, 2024

クラスタリングモデル評価コンポーネントは、クラスタリングモデルを評価し、生データとクラスタリング結果に基づいて評価メトリックを生成するために使用されます。

制限事項

このコンポーネントのレポートは、Machine Learning Studioコンソールでのみ使用できます。

背景情報

Calinski-Harabasz指数は、分散比基準 (VRC) としても知られています。 次の図は、VRCの計算に使用する式を示しています。 Calculation formula of VRC

パラメーター

説明

SS B

クラスター間の分散。 次の図は、クラスター間の分散の計算に使用する式を示しています。 SSBフォーミュラの説明:

  • k: クラスタ中心点の数を示します。

  • m i: クラスターの中心点を示します。

  • m: 入力データの平均値を示します。

SS W

クラスター内の分散。 次の図は、クラスター内の分散を計算するために使用される式を示しています。 SSWフォーミュラの説明:

  • k: クラスタ中心点の数を示します。

  • x: データポイントを示します。

  • c i: i番目のクラスタを示す。

  • m i: クラスターの中心点を示します。

N

レコードの総数。

k

クラスター中心点の数。

コンポーネントの設定

次の方法を使用して、コンポーネントパラメーターを設定できます。

方法1: 機械学習デザイナーを使用する

Machine Learning Designerの [パイプライン設定] タブでコンポーネントパラメーターを設定します。

タブ

パラメーター

説明

フィールド設定

評価列

評価のために入力テーブルから選択された列。 このパラメーターの値は、モデルのフィーチャ列と一致している必要があります。

入力スパース形式

入力データがスパースかどうかを指定します。 スパースデータは、キーと値のペアを使用して表示されます。

KVペア区切り文字

キーと値のペアを区切るために使用される区切り文字。 デフォルトでは、コンマ (,) が使用されます。

KVデリミタ

キーと値を区切るために使用される区切り文字。 デフォルトでは、コロン (:) が使用されます。

チューニング

コア

コアの数。 このパラメーターは、[コアあたりのメモリサイズ] パラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。

コアあたりのメモリサイズ

各コアのメモリサイズ。 このパラメーターは、Coresパラメーターと一緒に使用する必要があります。 単位:MB。

方法2: PAIコマンドを使用する

Machine Learning Platform for AI (PAI) コマンドを使用して、このコンポーネントのパラメーターを設定します。 SQLスクリプトコンポーネントを使用して、これらのコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。 コマンドのパラメーターを次の表に示します。

PAI -name cluster_evaluation
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DmodelName=pai_kmeans_test_model
    -DoutputTableName=pai_ft_cluster_evaluation_out;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

N/A

selectedColNames

不可

評価のために入力テーブルから選択された列の名前。 複数の列はコンマ (,) で区切ります。 このパラメーターの値は、モデルのフィーチャ列と一致している必要があります。

すべての列

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターを次のいずれかの形式で指定します。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、これらのパーティションをコンマ (,) で区切ります。

フルテーブル

enableSparse

不可

入力データがスパースかどうかを指定します。 有効な値: trueとfalse

false

itemDelimiter

不可

スパースキーと値のペアを区切るために使用される区切り文字。

,

kvDelimiter

不可

スパースキーを区切るために使用される区切り文字。

:

modelName

入力クラスタリングモデルの名前。

N/A

outputTableName

出力テーブルの名前。

N/A

ライフサイクル

不可

出力テーブルのライフサイクル。

N/A

例:

  1. 次のSQL文を実行してテストデータを生成します。

    存在しない場合にテーブルを作成する

    create table if not exists pai_cluster_evaluation_test_input as
    select * from
    (
      select 1 as id, 1 as f0,2 as f3
      union all
      select 2 as id, 1 as f0,3 as f3
      union all
      select 3 as id, 1 as f0,4 as f3
      union all
      select 4 as id, 0 as f0,3 as f3
      union all
      select 5 as id, 0 as f0,4 as f3
    )tmp;
  2. 次のPAIコマンドを実行して、クラスタリングモデルを構築します。 この例では、k平均クラスタリングモデルが構築される。

    PAI -name kmeans
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DcenterCount=3
        -Dloop=10
        -Daccuracy=0.00001
        -DdistanceType=euclidean
        -DinitCenterMethod=random
        -Dseed=1
        -DmodelName=pai_kmeans_test_model
        -DidxTableName=pai_kmeans_test_idx
  3. 次のPAIコマンドを実行して、クラスタリングモデル評価コンポーネントに設定されたパラメーターを送信します。

    PAI -name cluster_evaluation
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DmodelName=pai_kmeans_test_model
        -DoutputTableName=pai_ft_cluster_evaluation_out;
  4. 出力評価テーブルpai_ft_cluster_evaluation_outおよび次の視覚化されたグラフを表示します。 Statistical resultsグラフに表示されるフィールドを次の表に示します。

    項目

    説明

    集計

    返されたエントリの総数です。

    centerCount

    クラスターセンターの数。

    calinhara

    VRC。