データピボットアルゴリズムは、データセットを視覚化し、機械学習におけるデータセットの分析方法を探索するために使用されます。 グラフ、表、またはその他の視覚ツールを使用して、データの構造、分布、および関係を示します。 これにより、ユーザーはデータ特性を理解し、パターンを認識し、例外を特定できます。 データピボットアルゴリズムは、データの前処理と機能エンジニアリングに不可欠であり、モデリングと分析のための明確で直感的な参照を提供します。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインの詳細ページで、Data Pivotingコンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | フィーチャー列 | 視覚化または分析するフィーチャ列。 特徴の分布と関係は、チャートまたは表に示されています。 |
ターゲット列 | 予測または分析に使用する列。 この列は通常、タグまたは応答変数を指します。 | |
列挙機能 | 列挙機能として使用する機能。 | |
スパースフォーマット (K:V、K:V) | スパース形式のデータを使用するかどうかを指定します。 | |
パラメーター設定 | 連続機能離散化間隔 | 連続フィーチャが分割される離散間隔の最大数。 |
チューニング | コア | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。
PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTable | 対象 | なし | 入力テーブルの名前。 |
inputTablePartitions | ✕ | なし | トレーニング用に入力テーブルから選択されたパーティション。 有効な値:
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 たとえば、name1=value1,value2です。 |
outputTable | 対象 | なし | 出力テーブルの名前。 |
mapTable | 対象 | なし | 出力マッピングテーブル。 Data Pivotingコンポーネントは、PAIがトレーニングに使用するために、STRING型データをINT型データにマッピングします。 |
selectedCols | 対象 | なし | 入力テーブルから選択された列。 |
labelCol | ✕ | なし | トレーニングに使用する列。 |
categoryCols | ✕ | なし | 列挙機能として使用するINT型またはDOUBLE型の列。 |
maxBins | 非対象 | 100 | 連続フィーチャの等距離分割の間隔の最大数。 |
isSparse | 非対象 | false | 入力データがスパースかどうかを指定します。 有効な値: trueとfalse。 |
itemSpliter | 非対象 | , | 入力テーブルのデータがスパース形式の場合、キーと値のペアを区切るために使用される区切り文字。 |
kvSpliter | 非対象 | : | 入力テーブルのデータがスパース形式の場合、keyとvalueを区切るために使用される区切り文字。 |
ライフサイクル | 非対象 | 28 | 出力テーブルのライフサイクル。 |
coreNum | 非対象 | システムによって決定される | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 有効な値: 1 ~ 9999 |
memSizePerCore | 非対象 | システムによって決定される | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 |
例
次のテストデータを生成します。
年齢
ワーククラス
fwlght
edu
edu_num
既婚
c
家族
レース
セックス
ゲイル
損失
仕事_年
国
収入
39
州政府
77516
学士号
13
未婚
Adm-clerical
家族ではない
白
Male
2174.0
0.0
40.0
米国
<=50K
50
Self-emp-not-inc
83311
学士号
13
既婚-civ-配偶者
経営幹部
夫
白
Male
0.0
0.0
13.0
米国
<=50K
38
プライベート
215646
HS-grad
9
離婚
ハンドラー-クリーナー
家族ではない
白
Male
0.0
0.0
40.0
米国
<=50K
53
プライベート
234721
11位
7
既婚-civ-配偶者
ハンドラー-クリーナー
夫
黒
Male
0.0
0.0
40.0
米国
<=50K
28
プライベート
338409
学士号
13
既婚-civ-配偶者
教授-専門
妻
黒
Female
0.0
0.0
40.0
その他
<=50K
37
プライベート
284582
マスターズ
14
既婚-civ-配偶者
経営幹部
妻
白
Female
0.0
0.0
40.0
米国
<=50K
49
プライベート
160187
9位
5
既婚-配偶者-不在
その他-サービス
家族ではない
黒
Female
0.0
0.0
16.0
ジャマイカ
<=50K
52
Self-emp-not-inc
209642
HS-grad
9
既婚-civ-配偶者
経営幹部
夫
白
Male
0.0
0.0
45.0
米国
> 50K
31
プライベート
45781
マスターズ
14
未婚
教授-専門
家族ではない
白
Female
14084.0
0.0
50.0
米国
> 50K
42
プライベート
159449
学士号
13
既婚-civ-配偶者
経営幹部
夫
白
Male
5178.0
0.0
40.0
米国
> 50K
Read TableおよびData Pivotingコンポーネントを追加し、コンポーネントを接続します。

[データピボット] コンポーネントをクリックし、[フィールド設定] タブをクリックします。 Target Columnパラメーターをincomeに設定し、その他の14列をFeature columnsパラメーターに指定します。 edu_num列のBIGINT型の値は、列挙値として使用されます。

パイプラインのツールバーで、
をクリックします。パイプラインの実行後、トレーニング結果を表示します。
[データピボット] を右クリックし、 を選択します。 STRINGデータ型のfamily、race、sex、income列の値は、PAIがトレーニングに使用する数値に変換されます。 これは、データフォーマット変換と同様である。

[Data Pivoting] を右クリックし、 を選択します。
説明[Feature Columns] パラメーターにSTRING型のデータを指定しない場合、[String Column Feature Mapping Table] パラメーターは空のままになります。

[データピボット] を右クリックし、 を選択します。
distribute_infoは、最大値と最小値の間の一様な分布に基づく各区間のレコード数を示します。