すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:特徴異常スムージング

最終更新日:Jul 22, 2024

特徴異常平滑化コンポーネントは、入力データの異常な特徴を特定の間隔に平滑化することができる。 まばらで密なデータがサポートされています。

背景情報

スムージングに使用されるメソッド。 有効な値:

  • Z-スコア

    特徴が正規分布にある場合、ノイズは − 3 × アルファから3 × アルファの範囲外に分布する。 Z-Scoreは、ノイズを [-3 × alpha,3 × alpha] の範囲に平滑化します。

    例えば、正規分布の特徴について、平均値が0であり、標準偏差が3であると仮定する。 特徴量 − 10は、Z − Scoreの平滑化規則に基づいて、異常であると識別され、− 3 × 3 + 0 (− 9) に補正される。 同様に、特徴量103 × 3 + 0に補正する (9) 。

  • パーセンタイル平滑化

    パーセンタイル平滑化を使用して、[minPer, maxPer] からminPerまたはmaxPer分位数までの範囲外に分布するデータを平滑化します。

    例えば、年齢の特徴量が0〜200の範囲であったとする。 minPer0に、maxPer50% に設定します。 0〜100の範囲外の特徴量を0または100に補正する。

  • しきい値の平滑化

    閾値平滑化は、[minThresh, maxThresh] の範囲外に分布するデータをminThreshまたはmaxThreshデータ点まで平滑化するために使用される。

    例えば、年齢の特徴量が0〜200の範囲であったとする。 minThresh10に、maxThresh80に設定します。 0〜80の範囲外の特徴量を0 80に補正する。

  • Boxplotスムージング

    この方法は、minThresh=q1-1.5(q3-q1) からmaxThresh=q3 + 1.5(q3-q1) の範囲にデータを平滑化するために四分位数を使用する。

説明

Feature Anomaly Smoothingコンポーネントは、異常値を修正しますが、レコードをフィルタリングまたは削除しません。 入力データレコードのディメンションと数は変更されません。

コンポーネントの設定

次のいずれかの方法を使用して、Feature Anomaly Smoothingコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Anomaly Smoothingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

スムーズな機能列

滑らかにするフィーチャ列。

ラベル列

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

パラメーター設定

スムージング法

スムージングに使用されるメソッド。 有効な値:

  • Z-スコア

  • パーセンタイル

  • しきい値スムージング

  • ボックスプロット

信頼間隔

信頼レベル。 このパラメーターは、Smoothing MethodパラメーターがZ-Scoreに設定されている場合に必要です。

最小しきい値

最小しきい値。 デフォルト値は -9999で、最小しきい値が設定されていないことを示します。

このパラメーターは、Smoothing MethodパラメーターがThreshold Smoothingに設定されている場合に必要です。

最大しきい値

最大しきい値。 デフォルト値は -9999で、最大しきい値が設定されていないことを示します。

このパラメーターは、Smoothing MethodパラメーターがThreshold Smoothingに設定されている場合に必要です。

最小パーセンタイル

最小パーセンタイル。

このパラメーターは、スムージング法パラメーターがパーセンタイルまたはボックスプロットに設定されている場合に必要です。

最大パーセンタイル

最大パーセンタイル。

このパラメーターは、スムージング法パラメーターがパーセンタイルまたはボックスプロットに設定されている場合に必要です。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI名fe_soften_runner -project algo_public
    -DminThresh=5000
    -Dlifecycle=28
    -DsoftenMethod=min-max-thresh
    -DsoftenCols=nr_employed
    -DmaxThresh=6000
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20381_1; 

パラメーター

必須

説明

デフォルト値

inputTable

入力テーブルの名前。

非該当

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターは、Partition_name=value形式で指定します。

マルチレベルパーティションを指定するには、このパラメーターをname1=value1/name2=value2; 形式で指定します。

複数のパーティションを指定する場合は、コンマで区切ります (,) 。

入力テーブルのすべてのパーティション

outputTable

スムージング後の出力テーブル。

非該当

labelCol

不可

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

Empty string

categoryCols

不可

列挙フィーチャとして処理される選択されたフィールド。

Empty string

softenCols

あなたが滑らかにしたい機能。 スパースフィーチャは、システムによって自動的に表示されます。

非該当

softenMethod

不可

スムージングに使用されるメソッド。 有効な値:

  • ZScore: Zスコア

  • min-max-per: パーセンタイル平滑化

  • min-max-thresh: threshold smoothing

  • boxplot: boxplotスムージング

ZScore

softenTopN

不可

softenColsパラメーターを設定しないと、スムージングが必要な上位N個のフィーチャが自動的に選択されます。 値は正の整数でなければなりません。

10

cl

不可

信頼レベル。 このパラメーターは、softenMethodパラメーターがZScoreに設定されている場合に必要です。

10

minPer

不可

最小パーセンタイル。 このパラメーターは、softenMethodパラメーターがmin-max-perまたはboxplotに設定されている場合に必要です。

0.0

maxPer

不可

最大パーセンタイル。 このパラメーターは、softenMethodパラメーターがmin-max-perまたはboxplotに設定されている場合に必要です。

1.0

minThresh

不可

最小しきい値。 このパラメーターは、softenMethodパラメーターがmin-max-threshに設定されている場合に必要です。

-9999

maxThresh

不可

最大しきい値。 このパラメーターは、softenMethodパラメーターがmin-max-threshに設定されている場合に必要です。

-9999

isSparse

不可

フィーチャがキー値形式のスパースフィーチャかどうかを指定します。 有効な値:

  • true

  • false

デフォルト値はfalseで、フィーチャが密であることを示します。

false

itemSpliter

不可

スパースキーと値のペアを区切るために使用される区切り文字。

,

kvSpliter

不可

スパースキーと値を区切るために使用される区切り文字。

:

lifecycle

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

7

coreNum

不可

コアの数。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999] 。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 値は正の整数でなければなりません。 有効値: [2048,64 × 1024] 。

システムによって決定される

  • 入力データ

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;

    nr_employed

    5228.1

    5195.8

    4991.6

    5099.1

    5076.2

    5228.1

    5099.1

    5099.1

    5076.2

    5099.1

  • パラメータ設定

    [フィールドの設定] タブで、[フィーチャ列の平滑化][nr_employed] に設定します。 [パラメーターの設定] タブで、[スムージング方法][しきい値スムージング][最小しきい値]5000[最大しきい値]6000に設定します。 次の図は、[パラメータ設定] タブの設定を示しています。 Smoothing features

  • 実行結果

    nr_employed

    5228.1

    5195.8

    5000.0

    5099.1

    5076.2

    5228.1

    5099.1

    5099.1

    5076.2

    5099.1