全部產品
Search
文件中心

Platform For AI:異常檢測

更新時間:Dec 26, 2024

異常檢測用於檢測連續值和枚舉值類特徵的資料,協助您挖掘資料中的異常點。異常檢測用於識別資料集中與正常模式顯著不同的資料點或模式,適用於連續值和枚舉值類特徵的資料。通過檢測和分析這些異常點,可協助使用者挖掘潛在的錯誤、欺詐或其他例外狀況事件,提高資料分析的準確性和可靠性。

組件配置

方式一:可視化方式

在Designer工作流程頁面添加異常檢測組件,並在介面右側配置相關參數:

參數

描述

特徵列

指定要進行異常檢測的特徵列。

異常檢測方法

選擇檢測的方法,取值:

  • 箱型圖:用於檢測連續值類特徵的資料,根據盒狀圖最大值和最小值檢測異常特徵。

  • Attribute Value Frequency:用於檢測枚舉值類特徵的資料,根據枚舉特徵的取值頻率及閾值檢測異常特徵。

方式二:PAI命令方式

使用PAI命令配置異常檢測組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

PAI -name fe_detect_runner -project algo_public
     -DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
     -Dlifecycle="28"
     -DdetectStrategy="boxPlot"
     -DmodelTable="pai_temp_2458_23565_2"
     -DinputTable="pai_bank_data"
     -DoutputTable="pai_temp_2458_23565_1";

參數名稱

是否必選

參數描述

inputTable

輸入表的表名。

inputTablePartitions

系統預設選擇所有分區。指定輸入表的分區:

  • 指定單個分區,格式為partition_name=value

  • 指定多個分區,格式為name1=value1,name2=value2,多個分區之間用英文逗號(,)分隔。

  • 指定多級分區,格式為name1=value1/name2=value2

selectedCols

輸入特徵,欄位類型沒有限制。

detectStrategy

系統支援Box-plot和AVF選項。Box-plot用於檢測連續值類特徵。AVF用於檢測枚舉值類特徵。

outputTable

異常檢測結果資料集,即檢測到異常特徵的資料集。

modelTable

異常檢測模型。

lifecycle

輸出表的生命週期,系統預設為7。

coreNum

節點個數,與參數memSizePerCore配對使用,取值範圍[1,9999]。

memSizePerCore

單個結點記憶體大小,取值範圍[2048,64 *1024],單位MB。