Machine Learning Designerが提供するデータピボットコンポーネントでは、フィーチャ値、フィーチャ列、およびラベル列の分布を表示できます。 これは、フォローアップデータ分析を容易にする。 このコンポーネントは、疎データ形式と密データ形式の両方をサポートします。 このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。
コンポーネントの設定
次のいずれかの方法を使用して、データピボットコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Data Pivotingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | フィーチャー列 | トレーニングサンプルのデータの特徴を表す列。 |
ターゲット列 | トレーニングに使用する列。 | |
列挙機能 | 列挙機能として使用する機能。 | |
スパースフォーマット (K:V、K:V) | スパース形式のデータを使用するかどうかを指定します。 | |
パラメーター設定 | 連続機能離散化間隔 | 連続フィーチャの等距離分割の間隔の最大数。 |
チューニング | コア | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTable | 可 | 入力テーブルの名前。 | None |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 有効な値:
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | None |
outputTable | 可 | 出力テーブルの名前。 | None |
mapTable | 可 | 出力マッピングテーブル。 Data Pivotingコンポーネントは、PAIがトレーニングに使用するために、STRING型データをINT型データにマッピングします。 | None |
selectedCols | 可 | 入力テーブルから選択された列。 | None |
labelCol | 不可 | トレーニングに使用する列。 | None |
categoryCols | 不可 | 列挙機能として使用するINT型またはDOUBLE型の列。 | None |
maxBins | 不可 | 連続フィーチャの等距離分割の間隔の最大数。 | 100 |
isSparse | 不可 | 入力データがスパースかどうかを指定します。 有効な値: trueとfalse。 | false |
itemSpliter | 不可 | 入力テーブルのデータがスパース形式の場合、キーと値のペアを区切るために使用される区切り文字。 | , |
kvSpliter | 不可 | 入力テーブルのデータがスパース形式の場合、keyとvalueを区切るために使用される区切り文字。 | : |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | 28 |
coreNum | 不可 | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 有効な値: 1 ~ 9999 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 | システムによって決定される |
例
入力データ
年齢
ワーククラス
fwlght
edu
edu_num
既婚
c
家族
レース
セックス
ゲイル
損失
仕事_年
国
収入
39
州政府
77516
学士号
13
未婚
Adm-clerical
家族ではない
白
Male
2174.0
0.0
40.0
米国
<=50K
50
Self-emp-not-inc
83311
学士号
13
既婚-civ-配偶者
経営幹部
夫
白
Male
0.0
0.0
13.0
米国
<=50K
38
プライベート
215646
HS-grad
9
離婚
ハンドラー-クリーナー
家族ではない
白
Male
0.0
0.0
40.0
米国
<=50K
53
プライベート
234721
11位
7
既婚-civ-配偶者
ハンドラー-クリーナー
夫
黒
Male
0.0
0.0
40.0
米国
<=50K
28
プライベート
338409
学士号
13
既婚-civ-配偶者
教授-専門
妻
黒
Female
0.0
0.0
40.0
その他
<=50K
37
プライベート
284582
マスターズ
14
既婚-civ-配偶者
経営幹部
妻
白
Female
0.0
0.0
40.0
米国
<=50K
49
プライベート
160187
9位
5
既婚-配偶者-不在
その他-サービス
家族ではない
黒
Female
0.0
0.0
16.0
Jamaica
<=50K
52
Self-emp-not-inc
209642
HS-grad
9
既婚-civ-配偶者
経営幹部
夫
白
Male
0.0
0.0
45.0
米国
> 50K
31
プライベート
45781
マスターズ
14
未婚
教授-専門
家族ではない
白
Female
14084.0
0.0
50.0
米国
> 50K
42
プライベート
159449
学士号
13
既婚-civ-配偶者
経営幹部
夫
白
Male
5178.0
0.0
40.0
米国
> 50K
モデリング
[データピボット] コンポーネントをクリックし、[フィールド設定] タブをクリックします。 Target Columnパラメーターをincomeに設定し、その他の14列をFeature columnsパラメーターに指定します。 edu_num列のBIGINT型の値は、列挙値として使用されます。
結果
[データピボット] を右クリックし、family、race、sex、income列の値は、PAIがトレーニングに使用する数値に変換されます。 これは、データフォーマット変換と同様である。
を選択します。 STRINGデータ型の[Data Pivoting] を右クリックし、
を選択します。説明[Feature Columns] パラメーターにSTRING型のデータを指定しない場合、[String Column Feature Mapping Table] パラメーターは空のままになります。
[データピボット] を右クリックし、distribute_infoは、最大値と最小値の間の一様な分布に基づく各区間のレコード数を示します。
を選択します。