特徴異常平滑化コンポーネントは、入力データの異常な特徴を特定の間隔に平滑化することができる。 まばらで密なデータがサポートされています。
背景情報
スムージングに使用されるメソッド。 有効な値:
Z-スコア
特徴が正規分布にある場合、ノイズは − 3 × アルファから3 × アルファの範囲外に分布する。 Z-Scoreは、ノイズを [-3 × alpha,3 × alpha] の範囲に平滑化します。
例えば、正規分布の特徴について、平均値が0であり、標準偏差が3であると仮定する。 特徴量 − 10は、Z − Scoreの平滑化規則に基づいて、異常であると識別され、− 3 × 3 + 0 (− 9) に補正される。 同様に、特徴量10を3 × 3 + 0に補正する (9) 。
パーセンタイル平滑化
パーセンタイル平滑化を使用して、[minPer, maxPer] からminPerまたはmaxPer分位数までの範囲外に分布するデータを平滑化します。
例えば、年齢の特徴量が0〜200の範囲であったとする。 minPerを0に、maxPerを50% に設定します。 0〜100の範囲外の特徴量を0または100に補正する。
しきい値の平滑化
閾値平滑化は、[minThresh, maxThresh] の範囲外に分布するデータをminThreshまたはmaxThreshデータ点まで平滑化するために使用される。
例えば、年齢の特徴量が0〜200の範囲であったとする。 minThreshを10に、maxThreshを80に設定します。 0〜80の範囲外の特徴量を0 80に補正する。
Boxplotスムージング
この方法は、minThresh=q1-1.5(q3-q1) からmaxThresh=q3 + 1.5(q3-q1) の範囲にデータを平滑化するために四分位数を使用する。
Feature Anomaly Smoothingコンポーネントは、異常値を修正しますが、レコードをフィルタリングまたは削除しません。 入力データレコードのディメンションと数は変更されません。
コンポーネントの設定
次のいずれかの方法を使用して、Feature Anomaly Smoothingコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Anomaly Smoothingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | スムーズな機能列 | 滑らかにするフィーチャ列。 |
ラベル列 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | |
パラメーター設定 | スムージング法 | スムージングに使用されるメソッド。 有効な値:
|
信頼間隔 | 信頼レベル。 このパラメーターは、Smoothing MethodパラメーターがZ-Scoreに設定されている場合に必要です。 | |
最小しきい値 | 最小しきい値。 デフォルト値は -9999で、最小しきい値が設定されていないことを示します。 このパラメーターは、Smoothing MethodパラメーターがThreshold Smoothingに設定されている場合に必要です。 | |
最大しきい値 | 最大しきい値。 デフォルト値は -9999で、最大しきい値が設定されていないことを示します。 このパラメーターは、Smoothing MethodパラメーターがThreshold Smoothingに設定されている場合に必要です。 | |
最小パーセンタイル | 最小パーセンタイル。 このパラメーターは、スムージング法パラメーターがパーセンタイルまたはボックスプロットに設定されている場合に必要です。 | |
最大パーセンタイル | 最大パーセンタイル。 このパラメーターは、スムージング法パラメーターがパーセンタイルまたはボックスプロットに設定されている場合に必要です。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI名fe_soften_runner -project algo_public
-DminThresh=5000
-Dlifecycle=28
-DsoftenMethod=min-max-thresh
-DsoftenCols=nr_employed
-DmaxThresh=6000
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20381_1;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTable | 可 | 入力テーブルの名前。 | 非該当 |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターは、 マルチレベルパーティションを指定するには、このパラメーターを 複数のパーティションを指定する場合は、コンマで区切ります (,) 。 | 入力テーブルのすべてのパーティション |
outputTable | 可 | スムージング後の出力テーブル。 | 非該当 |
labelCol | 不可 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | Empty string |
categoryCols | 不可 | 列挙フィーチャとして処理される選択されたフィールド。 | Empty string |
softenCols | 可 | あなたが滑らかにしたい機能。 スパースフィーチャは、システムによって自動的に表示されます。 | 非該当 |
softenMethod | 不可 | スムージングに使用されるメソッド。 有効な値:
| ZScore |
softenTopN | 不可 | softenColsパラメーターを設定しないと、スムージングが必要な上位N個のフィーチャが自動的に選択されます。 値は正の整数でなければなりません。 | 10 |
cl | 不可 | 信頼レベル。 このパラメーターは、softenMethodパラメーターがZScoreに設定されている場合に必要です。 | 10 |
minPer | 不可 | 最小パーセンタイル。 このパラメーターは、softenMethodパラメーターがmin-max-perまたはboxplotに設定されている場合に必要です。 | 0.0 |
maxPer | 不可 | 最大パーセンタイル。 このパラメーターは、softenMethodパラメーターがmin-max-perまたはboxplotに設定されている場合に必要です。 | 1.0 |
minThresh | 不可 | 最小しきい値。 このパラメーターは、softenMethodパラメーターがmin-max-threshに設定されている場合に必要です。 | -9999 |
maxThresh | 不可 | 最大しきい値。 このパラメーターは、softenMethodパラメーターがmin-max-threshに設定されている場合に必要です。 | -9999 |
isSparse | 不可 | フィーチャがキー値形式のスパースフィーチャかどうかを指定します。 有効な値:
デフォルト値はfalseで、フィーチャが密であることを示します。 | false |
itemSpliter | 不可 | スパースキーと値のペアを区切るために使用される区切り文字。 | , |
kvSpliter | 不可 | スパースキーと値を区切るために使用される区切り文字。 | : |
lifecycle | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | 7 |
coreNum | 不可 | コアの数。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999] 。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 値は正の整数でなければなりません。 有効値: [2048,64 × 1024] 。 | システムによって決定される |
例
入力データ
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10;
nr_employed
5228.1
5195.8
4991.6
5099.1
5076.2
5228.1
5099.1
5099.1
5076.2
5099.1
パラメータ設定
[フィールドの設定] タブで、[フィーチャ列の平滑化] を [nr_employed] に設定します。 [パラメーターの設定] タブで、[スムージング方法] を [しきい値スムージング] 、[最小しきい値] を5000、[最大しきい値] を6000に設定します。 次の図は、[パラメータ設定] タブの設定を示しています。
実行結果
nr_employed
5228.1
5195.8
5000.0
5099.1
5076.2
5228.1
5099.1
5099.1
5076.2
5099.1