このトピックでは、ランダムフォレスト回帰アルゴリズムについて説明します。
背景情報
ランダムフォレスト回帰は、ランダムフォレストのアプリケーションブランチです。 ランダムフォレスト回帰モデルは、サンプルと特徴をランダムに選択することによって複数の無関係な決定木を確立し、予測結果を並行して取得します。 各決定木は、サンプルおよび特徴を使用することによって予測結果を描くことができる。 全森の回帰予測結果は、全木の結果を平均することによって得られる。
シナリオ
ランダムフォレスト回帰は、数十のデータ次元と高い精度を必要とするシナリオで使用できます。
たとえば、ランダムフォレスト回帰モデルを使用して、Twitter上のトピックの人気を予測できます。 モデルの入力は、トピックについての議論グループの数、トピックについて議論する人の数、およびトピックの注目度などのトピックの特徴であり得る。 モデルの出力は、1時間あたりのアクティブなディスカッショングループの平均数です。 これは、人気を示す正の浮動小数点数です。
パラメーター
次の表に示すパラメーターの値は、モデルの作成に使用されるCREATE model
ステートメントで指定されたmodel_parameter
パラメーターの値と同じです。 ビジネス要件に基づいてパラメーターを設定できます。
パラメーター | 説明 |
n_estimators | 反復回数。 反復回数が多いほど、より良好なフィッティングを示す。 通常は正の整数です。 デフォルト値は 100 です。 |
客観的 | 学習タスクとその学習目的。 有効な値:
|
max_features | 分割を決定するときに考慮するフィーチャの最大数。
|
random_state | ランダムな状態。 このパラメータは通常正の整数です。 デフォルト値は 1 です。 |
n_jobs | 並列スレッドの数。 大きな数値は、高いトレーニング速度を示します。 このパラメータは通常正の整数です。 デフォルト値: 4。 |
max_depth | 各ツリーの最大深さ。 このパラメータは通常正の整数です。 デフォルト値 : なし。 説明 このパラメーターがNoneに設定されている場合、ツリーの深さは指定されません。 |
例
モデルとオフライントレーニングタスクを作成します。
/* polar4ai * /
モデルrandomforestreg1を作成する
(model_class = 'randomforestreg' 、x_cols = 'dx1、dx2' 、y_cols='y' 、
model_parameter=(objective='mse')) AS (SELECT * FROM db4ai.testdata1);
モデルを評価します。
/* polar4ai * /
EVALUATEからの選択dx1、dx2 (モデルrandomforestreg1、SELECT * FROM db4ai.testdata1 LIMIT 10)
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');
予測にモデルを使用します。
/* polar4ai * /
選択dx1、dx2から
予測 (モデルrandomforestreg1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');
x_cols
およびy_cols
の列は、浮動小数点または整数を使用する必要があります。