リニアモデル機能の重要性 - Platform For AI - Alibaba Cloud ドキュメントセンター

線形モデル特徴重要性コンポーネントは、線形回帰やバイナリ分類のロジスティック回帰など、線形モデルの特徴重要性を計算するために使用されます。疎データ形式と密データ形式の両方がサポートされています。このトピックでは、線形モデルフィーチャの重要性コンポーネントを設定する方法について説明します。

制限事項

MaxComputeのコンピューティングリソースのみに基づいて、線形モデル機能の重要性コンポーネントを使用できます。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Platform for AI (PAI) コンソールでコンポーネントを構成する

Machine Learning Designerでコンポーネントパラメーターを設定します。下表に、各パラメーターを説明します。

タブ	パラメーター	説明
フィールド設定	フィーチャー列	入力テーブルからトレーニング用のフィーチャ列を選択します。オプションです。デフォルトでは、ラベル列以外のすべての列が選択されます。
	ターゲット列	必須。ラベル列。 [フィールドの選択] をクリックします。 [フィールドの選択] ダイアログボックスで、検索する列のキーワードを入力します。列を選択して [OK] をクリックします。
	入力スパース形式データ	オプションです。入力テーブルのデータがスパースかどうかを指定します。
チューニング	コア	オプションです。コンピューティングで使用されるコアの数。
チューニング	コアあたりのメモリサイズ	オプションです。各コアのメモリサイズ。単位：MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。次のセクションでは、パラメーターについて説明します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「SQLスクリプト」をご参照ください。

PAI -name regression_feature_importance -project algo_public
    -DmodelName=xlab_m_logisticregressi_20317_v0
    -DoutputTableName=pai_temp_2252_20321_1
    -DlabelColName=y
    -DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
    -DenableSparse=false -DinputTableName=pai_dense_10_9;

パラメーター	必須	説明	デフォルト値
inputTableName	可	入力テーブルの名前。	なし
outputTableName	可	出力テーブルの名前。	なし
labelColName	可	入力テーブルから選択されたラベル列。	なし
modelName	可	入力モデルの名前。	なし
featureColNames	不可	入力テーブルから選択されたフィーチャ列。	ラベル列以外のすべての列
inputTablePartitions	不可	入力テーブルから選択されたパーティション。	フルテーブル
enableSparse	不可	入力テーブルのデータがスパースかどうかを指定します。	false
itemDelimiter	不可	入力テーブルのデータがスパースの場合にキーと値のペアを分離するために使用される区切り文字。	バックスペース
kvDelimiter	不可	入力テーブルのデータがスパースの場合にキーと値を区切るために使用される区切り文字。	コロン (:)
ライフサイクル	不可	出力テーブルのライフサイクル。	指定なし
coreNum	不可	コアの数。	システムによって決定される
memSizePerCore	不可	各コアのメモリサイズ。	システムによって決定される

例：

bank_dataという名前のテーブルを作成し、テーブルにデータをインポートします。詳細については、「テーブルの作成」および「テーブルへのデータのインポート」をご参照ください。

次のSQL文を実行してトレーニングデータを生成します。

存在しない場合にテーブルを作成する

create table if not exists pai_dense_10_9 as
select
    age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit
from  bank_data limit 10;

次の図に示すパイプラインを作成し、コンポーネントを実行します。詳細については、「アルゴリズムモデリング」をご参照ください。
1. Machine Learning Designerの左側のコンポーネントリストで、Read Table、Logistic Regression for Multiclass Classification、およびLinear Model Feature Importanceコンポーネントを個別に検索し、コンポーネントを右側のキャンバスにドラッグします。
2. ラインを描画してノードを接続し、前の図に基づいてアップストリームとダウンストリームの関係を含むパイプラインにノードを編成します。
3. コンポーネントパラメーターを設定します。
  - キャンバスで、[Read Table-1] コンポーネントをクリックします。右側のウィンドウの [テーブルの選択] タブで、[テーブル名] をbank_dataに設定します。
  - キャンバスで、[マルチクラス分類のロジスティック回帰-1] コンポーネントをクリックします。 [フィールド設定] タブで、[トレーニング機能列] パラメーターに、年齢、キャンペーン、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、およびnr_installedを選択します。 ターゲット列パラメーターをfixed_depositに設定します。残りのパラメーターのデフォルト値を保持します。
  - キャンバスで、Linear Model Feature Importance-1コンポーネントをクリックします。 [フィールドの設定] タブで、[対象列] パラメーターをfixed_depositに設定します。残りのパラメーターのデフォルト値を保持します。
4. パラメーターの設定が完了したら、ボタンをクリックしてパイプラインを実行します。
パイプラインの実行後、[Linear Model Feature Importance-1] コンポーネントを右クリックし、[View Data] > [Model Importance Table] を選択します。
次の表に、メトリックの計算式を示します。
列名
計算式
重み
abs(w_)
重要度
abs(w_j) * STD(f_i)
説明
abs(w_j) は、特徴係数の絶対値を示す。 STD(f_i) は、トレーニングデータの標準偏差を示す。
[Linear Model Feature Importance-1] コンポーネントを右クリックし、[分析レポートの表示] を選択して、視覚化されたデータ分析用のレポートを表示します。

Platform For AI:リニアモデル機能の重要性

制限事項

コンポーネントの設定

方法1: Platform for AI (PAI) コンソールでコンポーネントを構成する

方法2: PAIコマンドを使用する

例：

関連ドキュメント

列名	計算式
重み	abs(w_)
重要度	abs(w_j) * STD(f_i) 説明 abs(w_j) は、特徴係数の絶対値を示す。 STD(f_i) は、トレーニングデータの標準偏差を示す。