すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:機能の離散化

最終更新日:Jul 22, 2024

特徴離散化コンポーネントは、特定のルールに基づいて連続特徴を離散化する。

概要

フィーチャー離散化コンポーネントは、次のタイプの離散化をサポートします。

  • 数値データ型の密なフィーチャの離散化

  • 等周波数離散化や等幅離散化などの教師なし離散化

    説明

    デフォルトの教師なし離散化は、等幅離散化です。

  • Giniゲインベースの離散化やエントロピーゲインベースの離散化などの監視された離散化

    説明

    ラベルフィーチャ離散化のデータ型は、ENUM、STRING、またはBIGINTである必要があります。

  • 監視離散化は、一定の横断を実行することによってエントロピー利得に基づいてセグメント化点を探索するために使用される。 このタイプの離散化は、実行に長い時間を要することがある。 セグメンテーション後に取得されるビンの数は、maxBinsパラメータによって指定される値によって制限されません。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Discretizationコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

個別の機能

離散化を必要とする機能。

ラベル列

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

パラメーター設定

離散化法

離散化に使用されるメソッド。 有効な値:

  • 等しい幅の離散化

  • 等しい周波数の離散化

  • Gini利得ベースの離散化

  • エントロピー利得ベースの離散化

離散化間隔

離散区間の数。 値は1より大きい正の整数でなければなりません。

チューニング

コア

コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。

コアあたりのメモリサイズ

各コアのメモリサイズ。

方法2: PAIコマンドの使用

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name fe_discrete_runner_1 -project algo_public
   -DdiscreteMethod=SameFrequecy
   -Dlifecycle=28
   -DmaxBins=5
   -DinputTable=pai_dense_10_1
   -DdiscreteCols=nr_employed
   -DoutputTable=pai_temp_2262_20382_1
   -DmodelTable=pai_temp_2262_20382_2;

パラメーター

必須

説明

デフォルト値

inputTable

入力テーブルの名前。

なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターは、Partition_name=value形式で指定します。

マルチレベルパーティションを指定するには、このパラメーターをname1=value1/name2=value2; 形式で指定します。

複数のパーティションを指定する場合は、コンマで区切ります (,) 。

入力テーブルのすべてのパーティション

outputTable

離散化後の出力テーブル。

なし

discreteCols

離散化を必要とする機能。 スパースフィーチャは、システムによって自動的にフィルタリングされます。

""

labelCol

不可

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

なし

discreteMethod

不可

離散化に使用されるメソッド。 有効な値:

  • アイソメトリック離散化

  • 等周波数の離散化

  • ジニゲインベースの離散化

  • エントロピー利得ベースの離散化

アイソメトリック離散化

maxBins

不可

離散区間の数。 値は1より大きい正の整数でなければなりません。

100

lifecycle

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

7

coreNum

不可

コアの数。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用されます。 値は正の整数でなければなりません。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 値は正の整数でなければなりません。

システムによって決定される

  • 入力データ

    次のSQL文を実行して入力データを生成します。

    存在しない場合にテーブルを作成する

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • コンポーネントの設定

    入力テーブルはpai_dense_10_1です。 [フィールドの設定] タブで、Discrete Featuresパラメーターをnr_employedに設定します。 [パラメーターの設定] タブで、[離散化方法] パラメーターを [等しい幅の離散化] に設定し、[離散間隔] パラメーターを [5] に設定します。

  • 実行結果

    nr_employed

    4.0

    3.0

    1.0

    3.0

    2.0

    4.0

    3.0

    3.0

    2.0

    3.0