すべてのプロダクト
Search
ドキュメントセンター

PolarDB:ランダムフォレスト回帰アルゴリズム

最終更新日:Dec 23, 2024

このトピックでは、ランダムフォレスト回帰アルゴリズムについて説明します。

背景情報

ランダムフォレスト回帰は、ランダムフォレストのアプリケーションブランチです。 ランダムフォレスト回帰モデルは、サンプルと特徴をランダムに選択することによって複数の無関係な決定木を確立し、予測結果を並行して取得します。 各決定木は、サンプルおよび特徴を使用することによって予測結果を描くことができる。 全森の回帰予測結果は、全木の結果を平均することによって得られる。

シナリオ

ランダムフォレスト回帰は、数十のデータ次元と高い精度を必要とするシナリオで使用できます。

たとえば、ランダムフォレスト回帰モデルを使用して、Twitter上のトピックの人気を予測できます。 モデルの入力は、トピックについての議論グループの数、トピックについて議論する人の数、およびトピックの注目度などのトピックの特徴であり得る。 モデルの出力は、1時間あたりのアクティブなディスカッショングループの平均数です。 これは、人気を示す正の浮動小数点数です。

パラメーター

次の表に示すパラメーターの値は、モデルの作成に使用されるCREATE modelステートメントで指定されたmodel_parameterパラメーターの値と同じです。 ビジネス要件に基づいてパラメーターを設定できます。

パラメーター

説明

n_estimators

反復回数。 反復回数が多いほど、より良好なフィッティングを示す。 通常は正の整数です。 デフォルト値は 100 です。

客観的

学習タスクとその学習目的。 有効な値:

  • mse (デフォルト): 平均二乗誤差を使用します。

  • mae: 平均絶対誤差を使用します。

max_features

分割を決定するときに考慮するフィーチャの最大数。

  • 値が "sqrt" (デフォルト) の場合、フィーチャの最大数はsqrt(n_features) です。

  • 値が整数の場合、フィーチャの最大数はmax_featuresで、0とn_featuresの間にある必要があります。n_featuresを含みます。 n_featuresは、モデリング中に使用されるフィーチャの数です。

  • 値が浮動小数点数の場合、フィーチャの最大数はmax_features * n_featuresです。

  • 値が「log2」の場合、フィーチャの最大数はlog2(n_features) です。

random_state

ランダムな状態。 このパラメータは通常正の整数です。 デフォルト値:1

n_jobs

並列スレッドの数。 数値が大きいことは、モデル作成速度が速いことを示す。 このパラメータは通常正の整数です。 デフォルト値: 4。

max_depth

各ツリーの最大深さ。 このパラメータは通常正の整数です。 デフォルト値 : なし。

説明

このパラメーターがNoneに設定されている場合、ツリーの深さは指定されません。

ランダムフォレスト回帰モデルを作成します。

/*polar4ai*/CREATE MODEL randomforestreg1 WITH
( model_class = 'randomforestreg', x_cols = 'dx1,dx2', y_cols='y',
 model_parameter=(objective='mse')) AS (SELECT * FROM db4ai.testdata1);

モデルを評価します。

/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL randomforestreg1, 
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH 
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');

予測にモデルを使用します。

/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL randomforestreg1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');
説明

x_colsおよびy_colsの列は、浮動小数点または整数を使用する必要があります。