特徴離散化コンポーネントは、特定のルールに基づいて連続特徴を離散化する。
概要
フィーチャー離散化コンポーネントは、次のタイプの離散化をサポートします。
数値データ型の密なフィーチャの離散化
等周波数離散化や等幅離散化などの教師なし離散化
説明デフォルトの教師なし離散化は、等幅離散化です。
Giniゲインベースの離散化やエントロピーゲインベースの離散化などの監視された離散化
説明ラベルフィーチャ離散化のデータ型は、ENUM、STRING、またはBIGINTである必要があります。
監視離散化は、一定の横断を実行することによってエントロピー利得に基づいてセグメント化点を探索するために使用される。 このタイプの離散化は、実行に長い時間を要することがある。 セグメンテーション後に取得されるビンの数は、maxBinsパラメータによって指定される値によって制限されません。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Discretizationコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | 個別の機能 | 離散化を必要とする機能。 |
ラベル列 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | |
パラメーター設定 | 離散化法 | 離散化に使用されるメソッド。 有効な値:
|
離散化間隔 | 離散区間の数。 値は1より大きい正の整数でなければなりません。 | |
チューニング | コア | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 |
方法2: PAIコマンドの使用
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name fe_discrete_runner_1 -project algo_public
-DdiscreteMethod=SameFrequecy
-Dlifecycle=28
-DmaxBins=5
-DinputTable=pai_dense_10_1
-DdiscreteCols=nr_employed
-DoutputTable=pai_temp_2262_20382_1
-DmodelTable=pai_temp_2262_20382_2;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTable | 可 | 入力テーブルの名前。 | なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターは、 マルチレベルパーティションを指定するには、このパラメーターを 複数のパーティションを指定する場合は、コンマで区切ります (,) 。 | 入力テーブルのすべてのパーティション |
outputTable | 可 | 離散化後の出力テーブル。 | なし |
discreteCols | 可 | 離散化を必要とする機能。 スパースフィーチャは、システムによって自動的にフィルタリングされます。 | "" |
labelCol | 不可 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | なし |
discreteMethod | 不可 | 離散化に使用されるメソッド。 有効な値:
| アイソメトリック離散化 |
maxBins | 不可 | 離散区間の数。 値は1より大きい正の整数でなければなりません。 | 100 |
lifecycle | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | 7 |
coreNum | 不可 | コアの数。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用されます。 値は正の整数でなければなりません。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 値は正の整数でなければなりません。 | システムによって決定される |
例
入力データ
次のSQL文を実行して入力データを生成します。
存在しない場合にテーブルを作成する
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10;
コンポーネントの設定
入力テーブルはpai_dense_10_1です。 [フィールドの設定] タブで、Discrete Featuresパラメーターをnr_employedに設定します。 [パラメーターの設定] タブで、[離散化方法] パラメーターを [等しい幅の離散化] に設定し、[離散間隔] パラメーターを [5] に設定します。
実行結果
nr_employed
4.0
3.0
1.0
3.0
2.0
4.0
3.0
3.0
2.0
3.0