すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:混乱マトリックス

最終更新日:Jul 22, 2024

Confusion Matrixコンポーネントは、教師あり学習に適しており、教師なし学習におけるマッチング行列に対応する。 精度評価では、Confusion Matrixコンポーネントを使用して、分類結果を実際の測定値と比較し、分類結果の精度をマトリックスに表示します。 このトピックでは、Platform for AI (PAI) でConfusion Matrixコンポーネントを設定する方法について説明します。

制限事項

MaxComputeのコンピューティングリソースのみに基づいて、Confusion Matrixコンポーネントを使用できます。

コンポーネントの設定

次のいずれかの方法を使用して、Confusion Matrixコンポーネントを設定できます。

方法1: PAIコンソールでコンポーネントを設定する

Machine Learning DesignerでConfusion Matrixコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

パラメーター

説明

オリジナルラベル列

数値データ型の列がサポートされています。

予測結果ラベル列

このパラメーターは、Thresholdパラメーターが指定されていない場合に必要です。

しきい値

陽性サンプルを決定するために使用される閾値。 サンプル値がこのパラメータの値よりも大きいサンプルは陽性サンプルである。

予測結果の詳細列

予測結果詳細列と予測結果ラベル列パラメーターのいずれかのみを設定できます。 このパラメーターは、Thresholdパラメーターが指定されている場合に必要です。

肯定的なサンプルラベル

このパラメーターは、Thresholdパラメーターが指定されている場合に必要です。

方法2: PAIコマンドを使用してコンポーネントを構成する

次のセクションでは、パラメーターについて説明します。 SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

  • しきい値が指定されていません

    pai -name confusionmatrix -project algo_public
        -DinputTableName=wpbc_pred
        -DoutputTableName=wpbc_confu
        -DlabelColName=label
        -DpredictionColName=prediction_result;
  • 指定したしきい値

    pai -name confusionmatrix -project algo_public
        -DinputTableName=wpbc_pred
        -DoutputTableName=wpbc_confu
        -DlabelColName=label
        -DpredictionDetailColName=prediction_detail
        -Dthreshold=0.8
        -DgoodValue=N;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。 この値は、予測出力テーブルの名前でもある。

N/A

inputTablePartition

不可

トレーニング用に入力テーブルから選択されたパーティション。

フルテーブル

outputTableName

出力テーブルの名前。 出力テーブルは、混同行列を格納するために使用される。

N/A

labelColName

元のラベル列の名前。

N/A

predictionColName

不可

予測結果列の名前。 このパラメーターは、thresholdパラメーターが指定されていない場合に必要です。

N/A

predictionDetailColName

不可

予測結果の詳細列の名前。 このパラメーターは、thresholdパラメーターが指定されている場合に必要です。

N/A

しきい値

不可

陽性サンプルを決定するために使用される閾値。

0.5

goodValue

不可

バイナリ分類のトレーニング係数に対応するラベル値。 このパラメーターは、thresholdパラメーターが指定されている場合に必要です。

N/A

coreNum

不可

コンピューティングで使用されるコアの数。

自動割り当て

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。

自動割り当て

ライフサイクル

不可

出力テーブルのライフサイクル。

N/A

  1. MaxComputeクライアントを使用して、test_dataという名前のテーブルを作成します。 テーブルの列はid、label、prediction_resultで、列の型はbigint、string、stringです。 MaxComputeクライアントのインストール方法と設定方法については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 テーブルの作成方法については、「テーブルの作成」をご参照ください。

  2. 次のテストデータをtest_dataテーブルにインポートします。 データをインポートする方法の詳細については、「データをテーブルにインポートする」をご参照ください。

    id

    ラベル

    prediction_result

    0

    HTTP ステータスコードが

    HTTP ステータスコードが

    1

    HTTP ステータスコードが

    B

    2

    HTTP ステータスコードが

    HTTP ステータスコードが

    3

    HTTP ステータスコードが

    HTTP ステータスコードが

    4

    B

    B

    5

    B

    B

    6

    B

    HTTP ステータスコードが

    7

    B

    B

    8

    B

    HTTP ステータスコードが

    9

    HTTP ステータスコードが

    HTTP ステータスコードが

  3. 次の図に示すようにパイプラインを作成し、パイプラインを実行します。 詳細については、「アルゴリズムモデリング」をご参照ください。 混淆矩阵实验

    1. 左側のリストから [読み取りテーブル] コンポーネントと [混乱行列] コンポーネントをキャンバスにドラッグします。

    2. 前の図に示すようにコンポーネントを接続してパイプラインを構築します。

    3. コンポーネントパラメーターを設定します。

      • キャンバス上の [Read Table -1] コンポーネントをクリックします。 右側の [テーブルの選択] タブで、[テーブル名] パラメーターをtest_dataに設定します。

      • キャンバスでConfusion Matrix -1コンポーネントをクリックし、パラメーターを設定します。 次の表に、主要なパラメーターを示します。 他のパラメーターにはデフォルト値を使用します。

        パラメーター

        説明

        オリジナルラベル列

        label列を選択します。

        予測結果ラベル列

        prediction_resultを入力します。

    4. パラメーターを設定したら、アイコンをクリックしてimageパイプラインを実行します。

  4. パイプラインの実行後、[Confusion Matrix -1] コンポーネントを右クリックし、[Visual Analysis] を選択してコンポーネントの出力を表示します。

    • [混同行列] タブをクリックして、出力混同行列を表示します。

      image

    • [統計] タブをクリックして、モデルに関する統計を表示します。

関連ドキュメント