すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:リニアモデル機能の重要性

最終更新日:Jul 22, 2024

線形モデル特徴重要性コンポーネントは、線形回帰やバイナリ分類のロジスティック回帰など、線形モデルの特徴重要性を計算するために使用されます。 疎データ形式と密データ形式の両方がサポートされています。 このトピックでは、線形モデルフィーチャの重要性コンポーネントを設定する方法について説明します。

制限事項

MaxComputeのコンピューティングリソースのみに基づいて、線形モデル機能の重要性コンポーネントを使用できます。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Platform for AI (PAI) コンソールでコンポーネントを構成する

Machine Learning Designerでコンポーネントパラメーターを設定します。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

入力テーブルからトレーニング用のフィーチャ列を選択します。 オプションです。 デフォルトでは、ラベル列以外のすべての列が選択されます。

ターゲット列

必須。 ラベル列。 [フィールドの選択] をクリックします。 [フィールドの選択] ダイアログボックスで、検索する列のキーワードを入力します。 列を選択して [OK] をクリックします。

入力スパース形式データ

オプションです。 入力テーブルのデータがスパースかどうかを指定します。

チューニング

コア

オプションです。 コンピューティングで使用されるコアの数。

コアあたりのメモリサイズ

オプションです。 各コアのメモリサイズ。 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 次のセクションでは、パラメーターについて説明します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name regression_feature_importance -project algo_public
    -DmodelName=xlab_m_logisticregressi_20317_v0
    -DoutputTableName=pai_temp_2252_20321_1
    -DlabelColName=y
    -DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
    -DenableSparse=false -DinputTableName=pai_dense_10_9;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

なし

outputTableName

出力テーブルの名前。

なし

labelColName

入力テーブルから選択されたラベル列。

なし

modelName

入力モデルの名前。

なし

featureColNames

不可

入力テーブルから選択されたフィーチャ列。

ラベル列以外のすべての列

inputTablePartitions

不可

入力テーブルから選択されたパーティション。

フルテーブル

enableSparse

不可

入力テーブルのデータがスパースかどうかを指定します。

false

itemDelimiter

不可

入力テーブルのデータがスパースの場合にキーと値のペアを分離するために使用される区切り文字。

バックスペース

kvDelimiter

不可

入力テーブルのデータがスパースの場合にキーと値を区切るために使用される区切り文字。

コロン (:)

ライフサイクル

不可

出力テーブルのライフサイクル。

指定なし

coreNum

不可

コアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。

システムによって決定される

例:

  1. bank_dataという名前のテーブルを作成し、テーブルにデータをインポートします。 詳細については、「テーブルの作成」および「テーブルへのデータのインポート」をご参照ください。

  2. 次のSQL文を実行してトレーニングデータを生成します。

    存在しない場合にテーブルを作成する

    create table if not exists pai_dense_10_9 as
    select
        age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit
    from  bank_data limit 10;
  3. 次の図に示すパイプラインを作成し、コンポーネントを実行します。 詳細については、「アルゴリズムモデリング」をご参照ください。image

    1. Machine Learning Designerの左側のコンポーネントリストで、Read Table、Logistic Regression for Multiclass Classification、およびLinear Model Feature Importanceコンポーネントを個別に検索し、コンポーネントを右側のキャンバスにドラッグします。

    2. ラインを描画してノードを接続し、前の図に基づいてアップストリームとダウンストリームの関係を含むパイプラインにノードを編成します。

    3. コンポーネントパラメーターを設定します。

      • キャンバスで、[Read Table-1] コンポーネントをクリックします。 右側のウィンドウの [テーブルの選択] タブで、[テーブル名] をbank_dataに設定します。

      • キャンバスで、[マルチクラス分類のロジスティック回帰-1] コンポーネントをクリックします。 [フィールド設定] タブで、[トレーニング機能列] パラメーターに、年齢、キャンペーン、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、およびnr_installedを選択します。 ターゲット列パラメーターをfixed_depositに設定します。 残りのパラメーターのデフォルト値を保持します。

      • キャンバスで、Linear Model Feature Importance-1コンポーネントをクリックします。 [フィールドの設定] タブで、[対象列] パラメーターをfixed_depositに設定します。 残りのパラメーターのデフォルト値を保持します。

    4. パラメーターの設定が完了したら、ボタンをクリックしimageてパイプラインを実行します。

  4. パイプラインの実行後、[Linear Model Feature Importance-1] コンポーネントを右クリックし、[View Data] > [Model Importance Table] を選択します。image

    次の表に、メトリックの計算式を示します。

    列名

    計算式

    重み

    abs(w_)

    重要度

    abs(w_j) * STD(f_i)

    説明

    abs(w_j) は、特徴係数の絶対値を示す。 STD(f_i) は、トレーニングデータの標準偏差を示す。

  5. [Linear Model Feature Importance-1] コンポーネントを右クリックし、[分析レポートの表示] を選択して、視覚化されたデータ分析用のレポートを表示します。image

関連ドキュメント