Confusion Matrixコンポーネントは、教師あり学習に適しており、教師なし学習におけるマッチング行列に対応する。 精度評価では、Confusion Matrixコンポーネントを使用して、分類結果を実際の測定値と比較し、分類結果の精度をマトリックスに表示します。 このトピックでは、Platform for AI (PAI) でConfusion Matrixコンポーネントを設定する方法について説明します。
制限事項
MaxComputeのコンピューティングリソースのみに基づいて、Confusion Matrixコンポーネントを使用できます。
コンポーネントの設定
次のいずれかの方法を使用して、Confusion Matrixコンポーネントを設定できます。
方法1: PAIコンソールでコンポーネントを設定する
Machine Learning DesignerでConfusion Matrixコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
パラメーター | 説明 |
オリジナルラベル列 | 数値データ型の列がサポートされています。 |
予測結果ラベル列 | このパラメーターは、Thresholdパラメーターが指定されていない場合に必要です。 |
しきい値 | 陽性サンプルを決定するために使用される閾値。 サンプル値がこのパラメータの値よりも大きいサンプルは陽性サンプルである。 |
予測結果の詳細列 | 予測結果詳細列と予測結果ラベル列パラメーターのいずれかのみを設定できます。 このパラメーターは、Thresholdパラメーターが指定されている場合に必要です。 |
肯定的なサンプルラベル | このパラメーターは、Thresholdパラメーターが指定されている場合に必要です。 |
方法2: PAIコマンドを使用してコンポーネントを構成する
次のセクションでは、パラメーターについて説明します。 SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
しきい値が指定されていません
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionColName=prediction_result;
指定したしきい値
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionDetailColName=prediction_detail -Dthreshold=0.8 -DgoodValue=N;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 この値は、予測出力テーブルの名前でもある。 | N/A |
inputTablePartition | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 | フルテーブル |
outputTableName | 可 | 出力テーブルの名前。 出力テーブルは、混同行列を格納するために使用される。 | N/A |
labelColName | 可 | 元のラベル列の名前。 | N/A |
predictionColName | 不可 | 予測結果列の名前。 このパラメーターは、thresholdパラメーターが指定されていない場合に必要です。 | N/A |
predictionDetailColName | 不可 | 予測結果の詳細列の名前。 このパラメーターは、thresholdパラメーターが指定されている場合に必要です。 | N/A |
しきい値 | 不可 | 陽性サンプルを決定するために使用される閾値。 | 0.5 |
goodValue | 不可 | バイナリ分類のトレーニング係数に対応するラベル値。 このパラメーターは、thresholdパラメーターが指定されている場合に必要です。 | N/A |
coreNum | 不可 | コンピューティングで使用されるコアの数。 | 自動割り当て |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 | 自動割り当て |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | N/A |
例
MaxComputeクライアントを使用して、test_dataという名前のテーブルを作成します。 テーブルの列はid、label、prediction_resultで、列の型はbigint、string、stringです。 MaxComputeクライアントのインストール方法と設定方法については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 テーブルの作成方法については、「テーブルの作成」をご参照ください。
次のテストデータをtest_dataテーブルにインポートします。 データをインポートする方法の詳細については、「データをテーブルにインポートする」をご参照ください。
id
ラベル
prediction_result
0
HTTP ステータスコードが
HTTP ステータスコードが
1
HTTP ステータスコードが
B
2
HTTP ステータスコードが
HTTP ステータスコードが
3
HTTP ステータスコードが
HTTP ステータスコードが
4
B
B
5
B
B
6
B
HTTP ステータスコードが
7
B
B
8
B
HTTP ステータスコードが
9
HTTP ステータスコードが
HTTP ステータスコードが
次の図に示すようにパイプラインを作成し、パイプラインを実行します。 詳細については、「アルゴリズムモデリング」をご参照ください。
左側のリストから [読み取りテーブル] コンポーネントと [混乱行列] コンポーネントをキャンバスにドラッグします。
前の図に示すようにコンポーネントを接続してパイプラインを構築します。
コンポーネントパラメーターを設定します。
キャンバス上の [Read Table -1] コンポーネントをクリックします。 右側の [テーブルの選択] タブで、[テーブル名] パラメーターをtest_dataに設定します。
キャンバスでConfusion Matrix -1コンポーネントをクリックし、パラメーターを設定します。 次の表に、主要なパラメーターを示します。 他のパラメーターにはデフォルト値を使用します。
パラメーター
説明
オリジナルラベル列
label列を選択します。
予測結果ラベル列
prediction_resultを入力します。
パラメーターを設定したら、アイコンをクリックしてパイプラインを実行します。
パイプラインの実行後、[Confusion Matrix -1] コンポーネントを右クリックし、[Visual Analysis] を選択してコンポーネントの出力を表示します。
[混同行列] タブをクリックして、出力混同行列を表示します。
[統計] タブをクリックして、モデルに関する統計を表示します。
関連ドキュメント
Machine Learning Designerコンポーネントの詳細については、「Machine Learning Designerの概要」をご参照ください。
Machine Learning Designerは、さまざまなプリセットアルゴリズムコンポーネントを提供します。 ビジネス要件に基づいて、データ処理用のコンポーネントを選択できます。 詳細については、「コンポーネントリファレンス: すべてのコンポーネントの概要」をご参照ください。