K-meansクラスタリングアルゴリズム - PolarDB - Alibaba Cloud ドキュメントセンター

このトピックでは、K平均クラスタリングアルゴリズム (以下、K平均と呼ぶ) について説明します。

概要

K平均アルゴリズムは、反復クラスタリングアルゴリズムである。アルゴリズムはこのように機能します。最初にデータをK個のグループに分割し、K個のオブジェクトを初期クラスタリング中心としてランダムに選択し、各オブジェクトと各シードクラスタリング中心との間の距離を計算してから、各オブジェクトを最も近いクラスター中心に割り当てます。クラスターには、クラスターセンターと、クラスターセンターに割り当てられたオブジェクトが含まれます。 K平均アルゴリズムは、テーブルのいくつかの列を特徴として使用し、指定された類似性計算方法を使用して生データをいくつかのグループにクラスタ化します。

シナリオ

K平均アルゴリズムは、データレコードをクラスタリングするシナリオで広く使用されています。次の主要なシナリオが含まれています。

ドキュメント分類
ドキュメントは、タグ、トピック、およびコンテンツに基づいて分類されます。
まず、文書をベクトルで表すように初期化する。ドキュメントは、単語頻度で一般的な単語を識別することによって分類されます。文書ベクトルは、文書グループ間の類似性を識別するためにクラスタリングされる。
顧客分類
K平均アルゴリズムは、マーケターが顧客ベースを最適化するのに役立ちます。購入履歴、興味、および活動モニタリングデータを使用して、顧客カテゴリを分析することもできます。
例えば、K平均アルゴリズムを使用して、加入電気通信顧客の支払い方法を、トップアップ、テストメッセージ送信、およびウェブサイトブラウジングに分割することができる。顧客の分類は、企業が特定の顧客グループの広告を開発するのに役立ちます。
不正検出
K平均アルゴリズムは、不正検出においても重要な役割を果たし、自動車、医療保険、および保険不正検出で広く使用されています。過去の不正請求からの履歴データは、不正パターンのクラスタ化類似性に基づいて新しい不正を識別するために使用される。
自動クラスタークラスタリング
大企業のネットワーク、ストレージ、データベースなどのITインフラストラクチャコンポーネントは、多数のアラートを生成します。アラートには特定のアクションが含まれるため、後続のアクションの優先度を確保するために手動でフィルタリングする必要があります。 K-meansアルゴリズムを使用したデータクラスタリングにより、アラートカテゴリと平均修復時間の詳細な分析が可能になり、その後の障害の予測に役立ちます。
コールレコード分析
コール詳細レコード (CDR) は、コール、テキストメッセージ、およびネットワークアクティビティの情報を保持します。 CDRを顧客プロファイルと組み合わせると、電気通信会社が顧客のニーズについてより多く予測するのに役立ちます。
犯罪シーンの識別
K-meansアルゴリズムは、都市の特定の地域の犯罪データを分析できます。犯罪の種類、犯罪の場所、および両者の関係などの情報を分析して、地域または都市の犯罪ホットスポットの高品質な調査を支援します。

パラメーター

次の表に示すパラメーターの値は、モデルの作成に使用されるCREATE modelステートメントで指定されたmodel_parameterパラメーターの値と同じです。ビジネス要件に基づいてパラメーターを設定できます。

パラメーター	説明
n_clusters	クラスターの数です。デフォルト値: 4。

例

K-meansクラスタリングモデルを作成します。

/*polar4ai*/CREATE MODEL test_kmeans WITH
(model_class = 'kmeans', x_cols = 'dx1,dx2',
 y_cols='',model_parameter=(n_clusters=2))
 AS (select * from db4ai.testdata1);

モデル予測:

/*polar4ai*/select dx1,dx2 FROM
PREDICT(MODEL test_kmeans,
select * from db4ai.testdata1 limit 10)
WITH (x_cols = 'dx1,dx2',
      y_cols='');

説明

x_colsの列は、浮動小数点または整数データを使用する必要があります。