共分散アルゴリズムは、2つの確率変数間の線形関係を測定するために使用される統計的方法です。 それらの偏差の積の期待値を計算することにより、これらの変数がどのように一緒に変化するかを評価します。 共分散は確率論と統計学において非常に重要であり、特徴選択やデータ前処理などのタスクの機械学習で広く使用されています。
アルゴリズムの説明
定義
共分散は、2つの確率変数の偏差の積の期待値として定義されます。 式:
XおよびYは2つの確率変数である。
μ および ν は、それぞれXおよびYの期待値である。
Eは期待値演算である。
プロパティ
正の共分散: 2つの変数に正の相関があることを示します。つまり、一方の変数が増加すると、もう一方の変数も増加する傾向があります。
負の共分散: 2つの変数に負の相関があることを示します。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があります。
ゼロ共分散: 2つの変数に線形関係がないことを示します。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページで共分散コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | 入力列 | 入力列。 BIGINT型またはDOUBLE型の列のみを選択できます。 |
チューニング | コア | コンピューティングで使用されるコアの数。 このパラメーターを指定しないと、システムは自動的にコア数を割り当てます。 |
メモリサイズ | 各コアのメモリサイズ。 このパラメーターを指定しない場合、システムは自動的にメモリサイズを割り当てます。 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name cov
-project algo_public
-DinputTableName=maple_test_cov_basic12x10_input
-DoutputTableName=maple_test_cov_basic12x10_output
-DcoreNum=6
-DmemSizePerCore=110;
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | 不可 | 入力テーブルのすべてのパーティション | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 たとえば、name1=value1,value2です。 |
outputTableName | 可 | なし | 出力テーブルの名前。 |
selectedColNames | 不可 | すべての列 | 入力テーブルから選択された列。 |
lifecycle | ✕ | なし | 出力テーブルのライフサイクル。 |
coreNum | 不可 | システムによって決定される | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 有効な値: 1 ~ 9999 |
memSizePerCore | 不可 | システムによって決定される | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 |