共分散アルゴリズムは、2つの確率変数の間の線形関係を測定するために使用される統計的手法です。このアルゴリズムは、それぞれの偏差の積の期待値を計算することによって、これらの変数がどのように共同で変動するかを評価します。共分散は確率論と統計学において非常に重要であり、特徴量選択やデータ前処理などのタスクのために機械学習で広く使用されています。
アルゴリズムの説明
定義
共分散は、2つの確率変数の偏差の積の期待値として定義されます。数式は次のとおりです。
X と Y は2つの確率変数です。
μ と ν はそれぞれ X と Y の期待値です。
E は期待値演算です。
プロパティ
正の共分散:2つの変数が正の相関を持つことを示します。つまり、一方の変数が増加すると、もう一方の変数も増加する傾向があります。
負の共分散:2つの変数が負の相関を持つことを示します。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があります。
ゼロ共分散:2つの変数間に線形関係がないことを示します。
コンポーネントの設定
方法1:パイプラインページでのコンポーネント設定
パイプラインページで [共分散] コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | 入力列 | 入力列。BIGINT 型または DOUBLE 型の列のみ選択できます。 |
チューニング | コア | コンピューティングに使用されるコア数。このパラメーターを指定しない場合、システムが自動的にコア数を割り当てます。 |
メモリサイズ | 各コアのメモリサイズ。このパラメーターを指定しない場合、システムが自動的にメモリサイズを割り当てます。単位:MB。 |
方法2:PAI コマンドの使用
PAI コマンドを使用してコンポーネントのパラメーターを設定します。SQL Script コンポーネントを使用して PAI コマンドを呼び出すことができます。詳細については、「SQL スクリプト」をご参照ください。
PAI -name cov
-project algo_public
-DinputTableName=maple_test_cov_basic12x10_input
-DoutputTableName=maple_test_cov_basic12x10_output
-DcoreNum=6
-DmemSizePerCore=110;パラメーター | 必須 | デフォルト値 | 説明 |
inputTableName | はい | なし | 入力テーブルの名前。 |
inputTablePartitions | いいえ | 入力テーブルのすべてのパーティション | トレーニングのために入力テーブルから選択されるパーティション。次のフォーマットがサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。例:name1=value1,value2。 |
outputTableName | はい | なし | 出力テーブルの名前。 |
selectedColNames | いいえ | すべての列 | 入力テーブルから選択された列。 |
lifecycle | いいえ | なし | 出力テーブルのライフサイクル。 |
coreNum | いいえ | システムによって決定 | コンピューティングに使用されるコア数。値は正の整数である必要があります。有効な値の範囲:1~9999。 |
memSizePerCore | いいえ | システムによって決定 | 各コアのメモリサイズ。有効な値の範囲:1~65536。単位:MB。 |