差異模式統計函數參數及樣本 - Simple Log Service

差異模式統計函數基於給定的多屬性欄位樣本，在給定的判別條件下，分析出影響該條件劃分的差異化模式集合，協助您快速診斷導致當前判別條件差異的原因。

pattern_diff

函數格式：

select pattern_diff(array_char_value, array_char_name, array_numeric_value, array_numeric_name, condition, supportScore,posSampleRatio,negSampleRatio )

參數說明如下：

參數	說明	取值
array_char_value	字元型資料的輸入列。	數組形式，例如：array[clientIP, sourceIP, path, logstore]。
array_char_name	字元型資料的輸入列的對應名稱。	數組形式，例如：array['clientIP', 'sourceIP', 'path', 'logstore']。
array_numeric_value	數值型資料的輸入列。	數組形式，例如：array[Inflow, OutFlow]。
array_numeric_name	數值型資料的輸入列的對應名稱。	數組形式，例如array['Inflow', 'OutFlow']。
condition	篩選資料的條件。條件為True則為正樣本，條件為False則為負樣本。	例如：Latency <= 300。
supportScore	正負樣本在進行模式挖掘時的支援度。	double類型，取值為(0,1]。
posSampleRatio	正樣本的採樣率。預設為0.5，表示只取50%正樣本集合。	double類型，取值為(0,1]。
negSampleRatio	負樣本的採樣率，預設為0.5，表示只取50%負樣本集合。	double類型，取值為(0,1]。

樣本：

查詢分析：

* | select pattern_diff(array[ Category, ClientIP, ProjectName, LogStore, Method, Source, UserAgent ], array[ 'Category', 'ClientIP', 'ProjectName', 'LogStore', 'Method', 'Source', 'UserAgent' ], array[ InFlow, OutFlow ], array[ 'InFlow', 'OutFlow' ], Latency > 300, 0.2, 0.1, 1.0) limit 1000

輸出結果：

顯示項目如下：

顯示項目	說明
possupport	挖掘出來的模式在正樣本中的支援度。
posconfidence	挖掘出來的模式在正樣本中的信賴度。
negsupport	挖掘出來的模式在負樣本中的支援度。
diffpattern	挖掘出來的具體模式內容。