ティホノフ正則化は、不良設定問題に対処するために使用される最も一般的な正則化方法です。 リッジ回帰トレーニングコンポーネントは、Tikhonov正則化に基づいて開発されています。 このコンポーネントは、疎および密なデータをサポートし、重み付けされたデータサンプルをトレーニングに使用できます。 このトピックでは、リッジ回帰トレーニングコンポーネントを設定する方法について説明します。
制限事項
MaxCompute、Realtime Compute for Apache Flink、またはPlatform for AI (PAI) のディープラーニングコンテナ (DLC) のいずれかのコンピューティングリソースにのみ基づいて、リッジ回帰トレーニングコンポーネントを使用できます。
Tikhonov正則化の仕組み
Tikhonov正則化は、共線性データの分析専用のバイアス推定回帰法です。 それは本質的に改善された最小二乗法である。 最小二乗法の不均衡を放棄することにより、Tikhonov正則化は、回帰係数を取得するためのより現実的で信頼性が高く、最小二乗法よりも条件の悪いデータによりよく適合します。 ただし、Tikhonov正則化は、部分的な情報の損失と精度の低下も引き起こします。
PAIコンソールでコンポーネントを設定する
入力ポート
入力ポート (左から右へ)
データ型
推奨上流コンポーネント
必須
data
N/A
データ前処理
可
モデル
N/A
不可
コンポーネントパラメータ
タブ
パラメーター
説明
フィールド設定
labelCol
入力テーブルのラベル列の名前。
featureCols
vectorColパラメーターを設定した場合、このパラメーターは設定できません。
トレーニングに使用されるフィーチャ列。
説明featureColとvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。
vectorCol
featureColsパラメーターを設定した場合、このパラメーターは設定できません。
ベクトル列の名前。
説明featureColとvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。
weightCol
重み列の名前。
パラメーター設定
ラムダ
ダブルタイプの正則化係数。
イプシロン
イテレーションが停止する前にトレーニング結果から得られる値。 デフォルト値: 1.0E-6。
LearningRate
モデルトレーニング中のパラメータ更新速度。 デフォルト値: 0.1
maxIter
反復の最大数。 デフォルト値:100
optimMethod
問題解決を改善するために使用される最適化方法。 有効な値:
LBFGS
GD
ニュートン
SGD
OWLQN
実行チューニング
数の労働者
コアの数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。
ワーカあたりのメモリ、単位MB
各ワーカーのメモリサイズ。 有効な値: 1024〜65536。 単位:MB。
出力ポート
出力ポート (左から右)
データ型
下流コンポーネント
モデル
回帰モデル
モデル情報
N/A
N/A
機能の重要性
N/A
N/A
リニアモデル重量
N/A
N/A
コードを使用してコンポーネントを構成する
次のコードをPyAlink Scriptコンポーネントのコードエディターにコピーできます。 これにより、PyAlinkスクリプトコンポーネントは、リッジ回帰トレーニングコンポーネントと同じ目的を果たすことができます。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = RidgeRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()