データのピボット - Platform For AI - Alibaba Cloud ドキュメントセンター

Machine Learning Designerが提供するデータピボットコンポーネントでは、フィーチャ値、フィーチャ列、およびラベル列の分布を表示できます。これは、フォローアップデータ分析を容易にする。このコンポーネントは、疎データ形式と密データ形式の両方をサポートします。このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。

コンポーネントの設定

次のいずれかの方法を使用して、データピボットコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Data Pivotingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。下表に、各パラメーターを説明します。

タブ	パラメーター	説明
フィールド設定	フィーチャー列	トレーニングサンプルのデータの特徴を表す列。
	ターゲット列	トレーニングに使用する列。
	列挙機能	列挙機能として使用する機能。
	スパースフォーマット (K:V、K:V)	スパース形式のデータを使用するかどうかを指定します。
パラメーター設定	連続機能離散化間隔	連続フィーチャの等距離分割の間隔の最大数。
チューニング	コア	コンピューティングで使用されるコアの数。値は正の整数でなければなりません。
チューニング	コアあたりのメモリサイズ	各コアのメモリサイズ。有効な値: 1 ~ 65536 単位：MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「SQLスクリプト」をご参照ください。

PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;

パラメーター	必須	説明	デフォルト値
inputTable	可	入力テーブルの名前。	None
inputTablePartitions	不可	トレーニング用に入力テーブルから選択されたパーティション。有効な値： Partition_name=value name1=value1/name2=value2: マルチレベルパーティション説明複数のパーティションを指定する場合は、コンマ (,) で区切ります。	None
outputTable	可	出力テーブルの名前。	None
mapTable	可	出力マッピングテーブル。 Data Pivotingコンポーネントは、PAIがトレーニングに使用するために、STRING型データをINT型データにマッピングします。	None
selectedCols	可	入力テーブルから選択された列。	None
labelCol	不可	トレーニングに使用する列。	None
categoryCols	不可	列挙機能として使用するINT型またはDOUBLE型の列。	None
maxBins	不可	連続フィーチャの等距離分割の間隔の最大数。	100
isSparse	不可	入力データがスパースかどうかを指定します。有効な値: trueとfalse。	false
itemSpliter	不可	入力テーブルのデータがスパース形式の場合、キーと値のペアを区切るために使用される区切り文字。	,
kvSpliter	不可	入力テーブルのデータがスパース形式の場合、keyとvalueを区切るために使用される区切り文字。	:
ライフサイクル	不可	出力テーブルのライフサイクル。	28
coreNum	不可	コンピューティングで使用されるコアの数。値は正の整数でなければなりません。有効な値: 1 ~ 9999	システムによって決定される
memSizePerCore	不可	各コアのメモリサイズ。有効な値: 1 ~ 65536 単位：MB。	システムによって決定される

例

入力データ

年齢

ワーククラス

fwlght

edu

edu_num

既婚

家族

レース

セックス

ゲイル

損失

仕事_年

国

収入

州政府

77516

学士号

未婚

Adm-clerical

家族ではない

白

Male

2174.0

0.0

40.0

米国

<=50K

Self-emp-not-inc

83311

学士号

既婚-civ-配偶者

経営幹部

夫

白

Male

0.0

13.0

米国

<=50K

プライベート

215646

HS-grad

離婚

ハンドラー-クリーナー

家族ではない

白

Male

0.0

40.0

米国

<=50K

プライベート

234721

11位

既婚-civ-配偶者

ハンドラー-クリーナー

夫

黒

Male

0.0

40.0

米国

<=50K

プライベート

338409

学士号

既婚-civ-配偶者

教授-専門

妻

黒

Female

0.0

40.0

その他

<=50K

プライベート

284582

マスターズ

既婚-civ-配偶者

経営幹部

妻

白

Female

0.0

40.0

米国

<=50K

プライベート

160187

9位

既婚-配偶者-不在

その他-サービス

家族ではない

黒

Female

0.0

16.0

Jamaica

<=50K

Self-emp-not-inc

209642

HS-grad

既婚-civ-配偶者

経営幹部

夫

白

Male

0.0

45.0

米国

> 50K

プライベート

45781

マスターズ

未婚

教授-専門

家族ではない

白

Female

14084.0

0.0

50.0

米国

> 50K

プライベート

159449

学士号

既婚-civ-配偶者

経営幹部

夫

白

Male

5178.0

0.0

40.0

米国

> 50K

モデリング
[データピボット] コンポーネントをクリックし、[フィールド設定] タブをクリックします。 Target Columnパラメーターをincomeに設定し、その他の14列をFeature columnsパラメーターに指定します。 edu_num列のBIGINT型の値は、列挙値として使用されます。
結果
- [データピボット] を右クリックし、[データの表示] > [出力ポート] を選択します。 STRINGデータ型のfamily、race、sex、income列の値は、PAIがトレーニングに使用する数値に変換されます。これは、データフォーマット変換と同様である。
- [Data Pivoting] を右クリックし、[View Data] > [String Column Feature Mapping Table] を選択します。
  説明
  [Feature Columns] パラメーターにSTRING型のデータを指定しない場合、[String Column Feature Mapping Table] パラメーターは空のままになります。
- [データピボット] を右クリックし、[データの表示] > [出力メタテーブル] を選択します。 distribute_infoは、最大値と最小値の間の一様な分布に基づく各区間のレコード数を示します。