すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:リッジ回帰トレーニング

最終更新日:Jul 22, 2024

ティホノフ正則化は、不良設定問題に対処するために使用される最も一般的な正則化方法です。 リッジ回帰トレーニングコンポーネントは、Tikhonov正則化に基づいて開発されています。 このコンポーネントは、疎および密なデータをサポートし、重み付けされたデータサンプルをトレーニングに使用できます。 このトピックでは、リッジ回帰トレーニングコンポーネントを設定する方法について説明します。

制限事項

MaxCompute、Realtime Compute for Apache Flink、またはPlatform for AI (PAI) のディープラーニングコンテナ (DLC) のいずれかのコンピューティングリソースにのみ基づいて、リッジ回帰トレーニングコンポーネントを使用できます。

Tikhonov正則化の仕組み

Tikhonov正則化は、共線性データの分析専用のバイアス推定回帰法です。 それは本質的に改善された最小二乗法である。 最小二乗法の不均衡を放棄することにより、Tikhonov正則化は、回帰係数を取得するためのより現実的で信頼性が高く、最小二乗法よりも条件の悪いデータによりよく適合します。 ただし、Tikhonov正則化は、部分的な情報の損失と精度の低下も引き起こします。

PAIコンソールでコンポーネントを設定する

  • 入力ポート

    入力ポート (左から右へ)

    データ型

    推奨上流コンポーネント

    必須

    data

    N/A

    モデル

    N/A

    読み取りテーブル

    不可

  • コンポーネントパラメータ

    タブ

    パラメーター

    説明

    フィールド設定

    labelCol

    入力テーブルのラベル列の名前。

    featureCols

    vectorColパラメーターを設定した場合、このパラメーターは設定できません。

    トレーニングに使用されるフィーチャ列。

    説明

    featureColvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。

    vectorCol

    featureColsパラメーターを設定した場合、このパラメーターは設定できません。

    ベクトル列の名前。

    説明

    featureColvectorColパラメーターは相互に排他的です。 そのうちの1つだけを使用して、アルゴリズムの入力フィーチャを記述できます。

    weightCol

    重み列の名前。

    パラメーター設定

    ラムダ

    ダブルタイプの正則化係数。

    イプシロン

    イテレーションが停止する前にトレーニング結果から得られる値。 デフォルト値: 1.0E-6。

    LearningRate

    モデルトレーニング中のパラメータ更新速度。 デフォルト値: 0.1

    maxIter

    反復の最大数。 デフォルト値:100

    optimMethod

    問題解決を改善するために使用される最適化方法。 有効な値:

    • LBFGS

    • GD

    • ニュートン

    • SGD

    • OWLQN

    実行チューニング

    数の労働者

    コアの数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。

    ワーカあたりのメモリ、単位MB

    各ワーカーのメモリサイズ。 有効な値: 1024〜65536。 単位:MB。

  • 出力ポート

    出力ポート (左から右)

    データ型

    下流コンポーネント

    モデル

    回帰モデル

    リッジ回帰予測

    モデル情報

    N/A

    N/A

    機能の重要性

    N/A

    N/A

    リニアモデル重量

    N/A

    N/A

コードを使用してコンポーネントを構成する

次のコードをPyAlink Scriptコンポーネントのコードエディターにコピーできます。 これにより、PyAlinkスクリプトコンポーネントは、リッジ回帰トレーニングコンポーネントと同じ目的を果たすことができます。

from pyalink.alink import *

def main(sources, sinks, parameter):
    batchData = sources[0]
    ridge = RidgeRegTrainBatchOp()\
        .setLambda(0.1)\
        .setFeatureCols(["f0","f1"])\
        .setLabelCol("label")
    model = batchData.link(ridge)
    model.link(sinks[0])
    BatchOperator.execute()