すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データのピボット

最終更新日:Jan 10, 2025

データピボットアルゴリズムは、データセットを視覚化し、機械学習におけるデータセットの分析方法を探索するために使用されます。 グラフ、表、またはその他の視覚ツールを使用して、データの構造、分布、および関係を示します。 これにより、ユーザーはデータ特性を理解し、パターンを認識し、例外を特定できます。 データピボットアルゴリズムは、データの前処理と機能エンジニアリングに不可欠であり、モデリングと分析のための明確で直感的な参照を提供します。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインの詳細ページで、Data Pivotingコンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

視覚化または分析するフィーチャ列。 特徴の分布と関係は、チャートまたは表に示されています。

ターゲット列

予測または分析に使用する列。 この列は通常、タグまたは応答変数を指します。

列挙機能

列挙機能として使用する機能。

スパースフォーマット (K:V、K:V)

スパース形式のデータを使用するかどうかを指定します。

パラメーター設定

連続機能離散化間隔

連続フィーチャが分割される離散間隔の最大数。

チューニング

コア

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。

コアあたりのメモリサイズ

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。

PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;

パラメーター

必須 / 任意

デフォルト値

説明

inputTable

対象

なし

入力テーブルの名前。

inputTablePartitions

なし

トレーニング用に入力テーブルから選択されたパーティション。 有効な値:

  • partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。 たとえば、name1=value1,value2です。

outputTable

対象

なし

出力テーブルの名前。

mapTable

対象

なし

出力マッピングテーブル。 Data Pivotingコンポーネントは、PAIがトレーニングに使用するために、STRING型データをINT型データにマッピングします。

selectedCols

対象

なし

入力テーブルから選択された列。

labelCol

なし

トレーニングに使用する列。

categoryCols

なし

列挙機能として使用するINT型またはDOUBLE型の列。

maxBins

非対象

100

連続フィーチャの等距離分割の間隔の最大数。

isSparse

非対象

false

入力データがスパースかどうかを指定します。 有効な値: trueとfalse

itemSpliter

非対象

,

入力テーブルのデータがスパース形式の場合、キーと値のペアを区切るために使用される区切り文字。

kvSpliter

非対象

:

入力テーブルのデータがスパース形式の場合、keyvalueを区切るために使用される区切り文字。

ライフサイクル

非対象

28

出力テーブルのライフサイクル。

coreNum

非対象

システムによって決定される

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 有効な値: 1 ~ 9999

memSizePerCore

非対象

システムによって決定される

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

  1. 次のテストデータを生成します。

    年齢

    ワーククラス

    fwlght

    edu

    edu_num

    既婚

    c

    家族

    レース

    セックス

    ゲイル

    損失

    仕事_年

    収入

    39

    州政府

    77516

    学士号

    13

    未婚

    Adm-clerical

    家族ではない

    Male

    2174.0

    0.0

    40.0

    米国

    <=50K

    50

    Self-emp-not-inc

    83311

    学士号

    13

    既婚-civ-配偶者

    経営幹部

    Male

    0.0

    0.0

    13.0

    米国

    <=50K

    38

    プライベート

    215646

    HS-grad

    9

    離婚

    ハンドラー-クリーナー

    家族ではない

    Male

    0.0

    0.0

    40.0

    米国

    <=50K

    53

    プライベート

    234721

    11位

    7

    既婚-civ-配偶者

    ハンドラー-クリーナー

    Male

    0.0

    0.0

    40.0

    米国

    <=50K

    28

    プライベート

    338409

    学士号

    13

    既婚-civ-配偶者

    教授-専門

    Female

    0.0

    0.0

    40.0

    その他

    <=50K

    37

    プライベート

    284582

    マスターズ

    14

    既婚-civ-配偶者

    経営幹部

    Female

    0.0

    0.0

    40.0

    米国

    <=50K

    49

    プライベート

    160187

    9位

    5

    既婚-配偶者-不在

    その他-サービス

    家族ではない

    Female

    0.0

    0.0

    16.0

    ジャマイカ

    <=50K

    52

    Self-emp-not-inc

    209642

    HS-grad

    9

    既婚-civ-配偶者

    経営幹部

    Male

    0.0

    0.0

    45.0

    米国

    > 50K

    31

    プライベート

    45781

    マスターズ

    14

    未婚

    教授-専門

    家族ではない

    Female

    14084.0

    0.0

    50.0

    米国

    > 50K

    42

    プライベート

    159449

    学士号

    13

    既婚-civ-配偶者

    経営幹部

    Male

    5178.0

    0.0

    40.0

    米国

    > 50K

  2. Read TableおよびData Pivotingコンポーネントを追加し、コンポーネントを接続します。image

    [データピボット] コンポーネントをクリックし、[フィールド設定] タブをクリックします。 Target Columnパラメーターをincomeに設定し、その他の14列をFeature columnsパラメーターに指定します。 edu_num列のBIGINT型の値は、列挙値として使用されます。 Configuration of the Data Pivoting compunent

  3. パイプラインのツールバーで、imageをクリックします。

  4. パイプラインの実行後、トレーニング結果を表示します。

    • [データピボット] を右クリックし、[データの表示] > [出力ポート] を選択します。 STRINGデータ型のfamilyracesexincome列の値は、PAIがトレーニングに使用する数値に変換されます。 これは、データフォーマット変換と同様である。 Output data

    • [Data Pivoting] を右クリックし、[View Data] > [String Column Feature Mapping Table] を選択します。

      説明

      [Feature Columns] パラメーターにSTRING型のデータを指定しない場合、[String Column Feature Mapping Table] パラメーターは空のままになります。

      Mapping table

    • [データピボット] を右クリックし、[データの表示] > [出力メタテーブル] を選択します。 Output the meta tabledistribute_infoは、最大値と最小値の間の一様な分布に基づく各区間のレコード数を示します。