このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する共分散コンポーネントについて説明します。
確率論と統計学では、共分散は2つの確率変数の同時変動の尺度です。 分散は、2つの測定変数が同じである共分散の特殊なケースである。 期待値をE(X) = μ 、E(Y) = ν とすると、実数確率変数XとYとの共分散は、cov(X, Y) = E((X − μ) (Y − ν)) で計算される。
コンポーネントの設定
次のいずれかの方法を使用して、共分散コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、共分散コンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | 入力列 | 入力列。 BIGINT型またはDOUBLE型の列のみを選択できます。 |
チューニング | コア | コンピューティングで使用されるコアの数。 このパラメーターを指定しないと、システムは自動的にコア数を割り当てます。 |
メモリサイズ | 各コアのメモリサイズ。 このパラメーターを指定しない場合、システムは自動的にメモリサイズを割り当てます。 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name cov
-project algo_public
-DinputTableName=maple_test_cov_basic12x10_input
-DoutputTableName=maple_test_cov_basic12x10_output
-DcoreNum=6
-DmemSizePerCore=110;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | 入力テーブルのすべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
selectedColNames | 不可 | 入力テーブルから選択された列。 | すべての列 |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 不可 | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 有効な値: 1 ~ 9999 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 | システムによって決定される |