すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:共分散

最終更新日:Jan 17, 2026

共分散アルゴリズムは、2つの確率変数の間の線形関係を測定するために使用される統計的手法です。このアルゴリズムは、それぞれの偏差の積の期待値を計算することによって、これらの変数がどのように共同で変動するかを評価します。共分散は確率論と統計学において非常に重要であり、特徴量選択やデータ前処理などのタスクのために機械学習で広く使用されています。

アルゴリズムの説明

定義

共分散は、2つの確率変数の偏差の積の期待値として定義されます。数式は次のとおりです。

  • X と Y は2つの確率変数です。

  • μ と ν はそれぞれ X と Y の期待値です。

  • E は期待値演算です。

プロパティ

  • 正の共分散:2つの変数が正の相関を持つことを示します。つまり、一方の変数が増加すると、もう一方の変数も増加する傾向があります。

  • 負の共分散:2つの変数が負の相関を持つことを示します。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があります。

  • ゼロ共分散:2つの変数間に線形関係がないことを示します。

コンポーネントの設定

方法1:パイプラインページでのコンポーネント設定

パイプラインページで [共分散] コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

フィールド設定

入力列

入力列。BIGINT 型または DOUBLE 型の列のみ選択できます。

チューニング

コア

コンピューティングに使用されるコア数。このパラメーターを指定しない場合、システムが自動的にコア数を割り当てます。

メモリサイズ

各コアのメモリサイズ。このパラメーターを指定しない場合、システムが自動的にメモリサイズを割り当てます。単位:MB。

方法2:PAI コマンドの使用

PAI コマンドを使用してコンポーネントのパラメーターを設定します。SQL Script コンポーネントを使用して PAI コマンドを呼び出すことができます。詳細については、「SQL スクリプト」をご参照ください。

PAI -name cov
    -project algo_public
    -DinputTableName=maple_test_cov_basic12x10_input
    -DoutputTableName=maple_test_cov_basic12x10_output
    -DcoreNum=6
    -DmemSizePerCore=110;

パラメーター

必須

デフォルト値

説明

inputTableName

はい

なし

入力テーブルの名前。

inputTablePartitions

いいえ

入力テーブルのすべてのパーティション

トレーニングのために入力テーブルから選択されるパーティション。次のフォーマットがサポートされています。

  • partition_name=value

  • name1=value1/name2=value2:複数レベルのパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。例:name1=value1,value2。

outputTableName

はい

なし

出力テーブルの名前。

selectedColNames

いいえ

すべての列

入力テーブルから選択された列。

lifecycle

いいえ

なし

出力テーブルのライフサイクル。

coreNum

いいえ

システムによって決定

コンピューティングに使用されるコア数。値は正の整数である必要があります。有効な値の範囲:1~9999。

memSizePerCore

いいえ

システムによって決定

各コアのメモリサイズ。有効な値の範囲:1~65536。単位:MB。