指定された複数属性フィールドのサンプルおよび条件に基づいて、差分パターン統計関数は、条件に影響を与える差分パターンのセットを分析する。 これにより、条件間の差分の原因を迅速に診断できます。
pattern_diff
関数の形式:
select pattern_diff(array_char_value, array_char_name, array_numeric_value, array_numeric_name, condition, supportScore,posSampleRatio,negSampleRatio )
次の表に、関数のパラメーターを示します。
パラメーター | 説明 | 値 |
array_char_値 | 文字型の値の入力列。 | 値は配列形式です。 例: array[clientIP, sourceIP, path, logstore] 。 |
array_char_name | 文字型値の入力列に対応する名前。 | 値は配列形式です。 例: array['clientIP', 'sourceIP', 'path', 'logstore'] 。 |
array_numeric_value | 数値の入力列。 | 値は配列形式です。 例: array[Inflow, OutFlow] 。 |
array_numeric_name | 数値の入力列に対応する名前。 | 値は配列形式です。 例: array['Inflow', 'OutFlow'] |
条件 | データフィルタリング条件。 真は陽性サンプルを示す。 偽は陰性サンプルを示す。 | 例: レイテンシ <= 300 |
supportScore | パターンマイニングの正と負のサンプルのサポート度。 | 値はdoubleデータ型です。 有効な値: (0,1) 。 |
posSampleRatio | 陽性サンプルのサンプリング比。 デフォルト値は0.5であり、これは、陽性サンプルの半分のみが使用されることを示す。 | 値はdoubleデータ型です。 有効な値: (0,1) 。 |
negSampleRatio | 負のサンプルのサンプリング比。 デフォルト値は0.5であり、これは、陰性サンプルの半分のみが使用されることを示す。 | 値はdoubleデータ型です。 有効な値: (0,1) 。 |
例:
クエリステートメントは次のとおりです。
* | select pattern_diff(array[ Category, ClientIP, ProjectName, LogStore, Method, Source, UserAgent ], array[ 'Category', 'ClientIP', 'ProjectName', 'LogStore', 'Method', 'Source', 'UserAgent' ], array[ InFlow, OutFlow ], array[ 'InFlow', 'OutFlow' ], Latency > 300, 0.2, 0.1, 1.0) limit 1000
以下の図にテスト結果を示します。
表示項目について、次の表に説明します。
表示項目 | 説明 |
possupport | 採掘されたパターンの陽性サンプルのサポートレベル。 |
posconfidence | 採掘されたパターンに対する陽性サンプルの信頼。 |
negsupport | 採掘パターンのネガティブサンプルのサポートレベル。 |
diffpattern | 採掘されたパターンの内容。 |