すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データのピボット

最終更新日:Jul 22, 2024

Machine Learning Designerが提供するデータピボットコンポーネントでは、フィーチャ値、フィーチャ列、およびラベル列の分布を表示できます。 これは、フォローアップデータ分析を容易にする。 このコンポーネントは、疎データ形式と密データ形式の両方をサポートします。 このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。

コンポーネントの設定

次のいずれかの方法を使用して、データピボットコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Data Pivotingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

トレーニングサンプルのデータの特徴を表す列。

ターゲット列

トレーニングに使用する列。

列挙機能

列挙機能として使用する機能。

スパースフォーマット (K:V、K:V)

スパース形式のデータを使用するかどうかを指定します。

パラメーター設定

連続機能離散化間隔

連続フィーチャの等距離分割の間隔の最大数。

チューニング

コア

コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。

コアあたりのメモリサイズ

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;

パラメーター

必須

説明

デフォルト値

inputTable

入力テーブルの名前。

None

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 有効な値:

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。

None

outputTable

出力テーブルの名前。

None

mapTable

出力マッピングテーブル。 Data Pivotingコンポーネントは、PAIがトレーニングに使用するために、STRING型データをINT型データにマッピングします。

None

selectedCols

入力テーブルから選択された列。

None

labelCol

不可

トレーニングに使用する列。

None

categoryCols

不可

列挙機能として使用するINT型またはDOUBLE型の列。

None

maxBins

不可

連続フィーチャの等距離分割の間隔の最大数。

100

isSparse

不可

入力データがスパースかどうかを指定します。 有効な値: trueとfalse

false

itemSpliter

不可

入力テーブルのデータがスパース形式の場合、キーと値のペアを区切るために使用される区切り文字。

,

kvSpliter

不可

入力テーブルのデータがスパース形式の場合、keyvalueを区切るために使用される区切り文字。

:

ライフサイクル

不可

出力テーブルのライフサイクル。

28

coreNum

不可

コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 有効な値: 1 ~ 9999

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

システムによって決定される

  • 入力データ

    年齢

    ワーククラス

    fwlght

    edu

    edu_num

    既婚

    c

    家族

    レース

    セックス

    ゲイル

    損失

    仕事_年

    収入

    39

    州政府

    77516

    学士号

    13

    未婚

    Adm-clerical

    家族ではない

    Male

    2174.0

    0.0

    40.0

    米国

    <=50K

    50

    Self-emp-not-inc

    83311

    学士号

    13

    既婚-civ-配偶者

    経営幹部

    Male

    0.0

    0.0

    13.0

    米国

    <=50K

    38

    プライベート

    215646

    HS-grad

    9

    離婚

    ハンドラー-クリーナー

    家族ではない

    Male

    0.0

    0.0

    40.0

    米国

    <=50K

    53

    プライベート

    234721

    11位

    7

    既婚-civ-配偶者

    ハンドラー-クリーナー

    Male

    0.0

    0.0

    40.0

    米国

    <=50K

    28

    プライベート

    338409

    学士号

    13

    既婚-civ-配偶者

    教授-専門

    Female

    0.0

    0.0

    40.0

    その他

    <=50K

    37

    プライベート

    284582

    マスターズ

    14

    既婚-civ-配偶者

    経営幹部

    Female

    0.0

    0.0

    40.0

    米国

    <=50K

    49

    プライベート

    160187

    9位

    5

    既婚-配偶者-不在

    その他-サービス

    家族ではない

    Female

    0.0

    0.0

    16.0

    Jamaica

    <=50K

    52

    Self-emp-not-inc

    209642

    HS-grad

    9

    既婚-civ-配偶者

    経営幹部

    Male

    0.0

    0.0

    45.0

    米国

    > 50K

    31

    プライベート

    45781

    マスターズ

    14

    未婚

    教授-専門

    家族ではない

    Female

    14084.0

    0.0

    50.0

    米国

    > 50K

    42

    プライベート

    159449

    学士号

    13

    既婚-civ-配偶者

    経営幹部

    Male

    5178.0

    0.0

    40.0

    米国

    > 50K

  • モデリング Modeling

    [データピボット] コンポーネントをクリックし、[フィールド設定] タブをクリックします。 Target Columnパラメーターをincomeに設定し、その他の14列をFeature columnsパラメーターに指定します。 edu_num列のBIGINT型の値は、列挙値として使用されます。 Configuration of the Data Pivoting compunent

  • 結果

    • [データピボット] を右クリックし、[データの表示] > [出力ポート] を選択します。 STRINGデータ型のfamilyracesexincome列の値は、PAIがトレーニングに使用する数値に変換されます。 これは、データフォーマット変換と同様である。 Output data

    • [Data Pivoting] を右クリックし、[View Data] > [String Column Feature Mapping Table] を選択します。

      説明

      [Feature Columns] パラメーターにSTRING型のデータを指定しない場合、[String Column Feature Mapping Table] パラメーターは空のままになります。

      Mapping table

    • [データピボット] を右クリックし、[データの表示] > [出力メタテーブル] を選択します。 Output the meta tabledistribute_infoは、最大値と最小値の間の一様な分布に基づく各区間のレコード数を示します。