LASSO (Least Absolute Shrinkage and Selection Operator) 回帰アルゴリズムは、圧縮推定を実施することができる。 Lasso Regression Trainingコンポーネントは、LASSOアルゴリズムに基づいて開発されています。 このコンポーネントは、疎および密なデータをサポートし、重み付けされたデータサンプルをトレーニングに使用できます。 このトピックでは、Lasso Regression Trainingコンポーネントを設定する方法について説明します。
制限事項
MaxCompute、Realtime Compute for Apache Flink、またはPlatform for AI (PAI) のディープラーニングコンテナ (DLC) のいずれかのコンピューティングリソースにのみ基づいて、リッジ回帰トレーニングコンポーネントを使用できます。
LASSOのしくみ
LASSOはペナルティ関数を作成し、より洗練されたモデルを取得します。 LASSOは、一部の回帰係数を縮小し、特定の回帰係数をゼロに設定できます。 係数が縮小される場合、係数の絶対値の合計は、固定値未満である。 このように、LASSOはサブセット縮小の有益な機能を保持し、多重共線性データにバイアス推定を実装します。
PAIコンソールでコンポーネントを設定する
入力ポート
入力ポート (左から右)
データ型
推奨上流コンポーネント
必須
data
None
可
モデル
LASSOモデル (増分トレーニング用)
Read Table (モデルデータの読み取り用)
Lasso Regression Training
不可
コンポーネントパラメータ
タブ
パラメーター
説明
フィールド設定
labelCol
入力テーブルのラベル列の名前。
featureCols
vectorColパラメーターを設定した場合、このパラメーターは設定できません。
トレーニングに使用されるフィーチャ列。
説明featureColとvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。
vectorCol
featureColsパラメーターを設定した場合、このパラメーターは設定できません。
ベクトル列の名前。
説明featureColとvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。
weightCol
重み列の名前。
パラメーター設定
ラムダ
ダブルタイプの正則化係数。
イプシロン
イテレーションが停止する前にトレーニング結果から得られる値。 デフォルト値: 1.0E-6。
LearningRate
モデルトレーニング中のパラメータ更新速度。 デフォルト値: 0.1
maxIter
反復の最大数。 デフォルト値:100
optimMethod
問題解決を改善するために使用される最適化方法。 有効な値:
LBFGS
GD
ニュートン
SGD
OWLQN
実行チューニング
数の労働者
コアの数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。
ワーカあたりのメモリ、単位MB
各ワーカーのメモリサイズ。 有効な値: 1024〜65536。 単位:MB。
出力ポート
出力ポート
データ型
下流コンポーネント
モデル
Regression model
モデル情報
None
None
特徴の重要性
None
None
リニアモデル重量
None
None
コーディングによるコンポーネントの設定
次のコードをPyAlink Scriptコンポーネントのコードエディターにコピーできます。 これにより、PyAlinkスクリプトコンポーネントは、Lasso Regression Trainingコンポーネントのように機能します。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = LassoRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()