差異模式統計函數基於給定的多屬性欄位樣本,在給定的判別條件下,分析出影響該條件劃分的差異化模式集合,協助您快速診斷導致當前判別條件差異的原因。
pattern_diff
函數格式:
select pattern_diff(array_char_value, array_char_name, array_numeric_value, array_numeric_name, condition, supportScore,posSampleRatio,negSampleRatio )
參數說明如下:
參數 | 說明 | 取值 |
array_char_value | 字元型資料的輸入列。 | 數組形式,例如:array[clientIP, sourceIP, path, logstore]。 |
array_char_name | 字元型資料的輸入列的對應名稱。 | 數組形式,例如:array['clientIP', 'sourceIP', 'path', 'logstore']。 |
array_numeric_value | 數值型資料的輸入列。 | 數組形式,例如:array[Inflow, OutFlow]。 |
array_numeric_name | 數值型資料的輸入列的對應名稱。 | 數組形式,例如array['Inflow', 'OutFlow']。 |
condition | 篩選資料的條件。條件為True則為正樣本,條件為False則為負樣本。 | 例如:Latency <= 300。 |
supportScore | 正負樣本在進行模式挖掘時的支援度。 | double類型,取值為(0,1]。 |
posSampleRatio | 正樣本的採樣率。預設為0.5,表示只取50%正樣本集合。 | double類型,取值為(0,1]。 |
negSampleRatio | 負樣本的採樣率,預設為0.5,表示只取50%負樣本集合。 | double類型,取值為(0,1]。 |
樣本:
查詢分析:
* | select pattern_diff(array[ Category, ClientIP, ProjectName, LogStore, Method, Source, UserAgent ], array[ 'Category', 'ClientIP', 'ProjectName', 'LogStore', 'Method', 'Source', 'UserAgent' ], array[ InFlow, OutFlow ], array[ 'InFlow', 'OutFlow' ], Latency > 300, 0.2, 0.1, 1.0) limit 1000
輸出結果:
顯示項目如下:
顯示項目 | 說明 |
possupport | 挖掘出來的模式在正樣本中的支援度。 |
posconfidence | 挖掘出來的模式在正樣本中的信賴度。 |
negsupport | 挖掘出來的模式在負樣本中的支援度。 |
diffpattern | 挖掘出來的具體模式內容。 |