クラスタリングモデル評価コンポーネントは、クラスタリングモデルを評価し、生データとクラスタリング結果に基づいて評価メトリックを生成するために使用されます。
制限事項
このコンポーネントのレポートは、Machine Learning Studioコンソールでのみ使用できます。
背景情報
Calinski-Harabasz指数は、分散比基準 (VRC) としても知られています。 次の図は、VRCの計算に使用する式を示しています。
パラメーター | 説明 |
SS B | クラスター間の分散。 次の図は、クラスター間の分散の計算に使用する式を示しています。 フォーミュラの説明:
|
SS W | クラスター内の分散。 次の図は、クラスター内の分散を計算するために使用される式を示しています。 フォーミュラの説明:
|
N | レコードの総数。 |
k | クラスター中心点の数。 |
コンポーネントの設定
次の方法を使用して、コンポーネントパラメーターを設定できます。
方法1: 機械学習デザイナーを使用する
Machine Learning Designerの [パイプライン設定] タブでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | 評価列 | 評価のために入力テーブルから選択された列。 このパラメーターの値は、モデルのフィーチャ列と一致している必要があります。 |
入力スパース形式 | 入力データがスパースかどうかを指定します。 スパースデータは、キーと値のペアを使用して表示されます。 | |
KVペア区切り文字 | キーと値のペアを区切るために使用される区切り文字。 デフォルトでは、コンマ (,) が使用されます。 | |
KVデリミタ | キーと値を区切るために使用される区切り文字。 デフォルトでは、コロン (:) が使用されます。 | |
チューニング | コア | コアの数。 このパラメーターは、[コアあたりのメモリサイズ] パラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 このパラメーターは、Coresパラメーターと一緒に使用する必要があります。 単位:MB。 |
方法2: PAIコマンドを使用する
Machine Learning Platform for AI (PAI) コマンドを使用して、このコンポーネントのパラメーターを設定します。 SQLスクリプトコンポーネントを使用して、これらのコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。 コマンドのパラメーターを次の表に示します。
PAI -name cluster_evaluation
-project algo_public
-DinputTableName=pai_cluster_evaluation_test_input
-DselectedColNames=f0,f3
-DmodelName=pai_kmeans_test_model
-DoutputTableName=pai_ft_cluster_evaluation_out;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | N/A |
selectedColNames | 不可 | 評価のために入力テーブルから選択された列の名前。 複数の列はコンマ (,) で区切ります。 このパラメーターの値は、モデルのフィーチャ列と一致している必要があります。 | すべての列 |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターを次のいずれかの形式で指定します。
説明 複数のパーティションを指定する場合は、これらのパーティションをコンマ (,) で区切ります。 | フルテーブル |
enableSparse | 不可 | 入力データがスパースかどうかを指定します。 有効な値: trueとfalse。 | false |
itemDelimiter | 不可 | スパースキーと値のペアを区切るために使用される区切り文字。 | , |
kvDelimiter | 不可 | スパースキーと値を区切るために使用される区切り文字。 | : |
modelName | 可 | 入力クラスタリングモデルの名前。 | N/A |
outputTableName | 可 | 出力テーブルの名前。 | N/A |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | N/A |
例:
次のSQL文を実行してテストデータを生成します。
存在しない場合にテーブルを作成する
create table if not exists pai_cluster_evaluation_test_input as select * from ( select 1 as id, 1 as f0,2 as f3 union all select 2 as id, 1 as f0,3 as f3 union all select 3 as id, 1 as f0,4 as f3 union all select 4 as id, 0 as f0,3 as f3 union all select 5 as id, 0 as f0,4 as f3 )tmp;
次のPAIコマンドを実行して、クラスタリングモデルを構築します。 この例では、k平均クラスタリングモデルが構築される。
PAI -name kmeans -project algo_public -DinputTableName=pai_cluster_evaluation_test_input -DselectedColNames=f0,f3 -DcenterCount=3 -Dloop=10 -Daccuracy=0.00001 -DdistanceType=euclidean -DinitCenterMethod=random -Dseed=1 -DmodelName=pai_kmeans_test_model -DidxTableName=pai_kmeans_test_idx
次のPAIコマンドを実行して、クラスタリングモデル評価コンポーネントに設定されたパラメーターを送信します。
PAI -name cluster_evaluation -project algo_public -DinputTableName=pai_cluster_evaluation_test_input -DselectedColNames=f0,f3 -DmodelName=pai_kmeans_test_model -DoutputTableName=pai_ft_cluster_evaluation_out;
出力評価テーブルpai_ft_cluster_evaluation_outおよび次の視覚化されたグラフを表示します。 グラフに表示されるフィールドを次の表に示します。
項目
説明
集計
返されたエントリの総数です。
centerCount
クラスターセンターの数。
calinhara
VRC。