異常検出コンポーネントは、連続または列挙機能を持つデータを検出するために使用されます。 データ内の例外を検出するのに役立ちます。
背景情報
データ内の異常な特徴は、ボックスプロットまたは属性値頻度 (AVF) 法を使用することによって検出することができる。
ボックスプロットは、連続特徴を有するデータを検出するために使用される。 検出は、ボックスプロット図の最大値および最小値に基づいて実行される。
AVFは、列挙機能を持つデータを検出するために使用されます。 検出は、列挙特徴の頻度および閾値に基づいて実行される。
コンポーネントの設定
次のいずれかの方法を使用して、異常検出コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
異常検出コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | フィーチャー列 | 分析するフィールド。 |
異常検出法 | 異常なデータを検出するために使用されるメソッド。 ボックスプロットは、連続特徴を有するデータを検出するために使用される。 AVFは、列挙機能を持つデータを検出するために使用されます。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name fe_detect_runner -project algo_public
-DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
-Dlifecycle="28"
-DdetectStrategy="boxPlot"
-DmodelTable="pai_temp_2458_23565_2"
-DinputTable="pai_bank_data"
-DoutputTable="pai_temp_2458_23565_1";
パラメーター | 説明 | 必須 |
inputTable | 入力テーブルの名前。 | 可 |
inputTablePartitions | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。
| 不可 |
selectedCols | 入力フィーチャ。 特徴のデータ型は限定されない。 | 可 |
detectStrategy | 検出方法。 Box PlotとAVFがサポートされています。 ボックスプロットは、連続特徴を有するデータを検出するために使用される。 AVFは、列挙機能を持つデータを検出するために使用されます。 | 可 |
outputTable | 異常なフィーチャを持つデータを含む出力テーブル。 | 可 |
modelTable | 異常検出モデル。 | 可 |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 デフォルト値 : 7 | 不可 |
coreNum | コアの数。 このパラメーターはmemSizePerCoreパラメーターと共に使用する必要があります。 説明 このパラメーターの値は正の整数でなければなりません。 有効な値: 1 ~ 9999 | 不可 |
memSizePerCore | 各コアのメモリサイズ。 単位:MB。 有効値: [2048,64 × 1024] 。 | 不可 |