すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:分割

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designerが提供する分割コンポーネントについて説明します。 このコンポーネントは、データをランダムに分割して、トレーニングとテスト用のデータセットを生成します。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Machine Learning Platform for AI (PAI) コンソールを使用する

PAIコンソールのMachine Learning Designerのパイプライン設定ページでコンポーネントを設定します。

タブ

パラメーター

説明

パラメーター設定

分割方法

  • 比率で分割

  • しきい値で分割

分割分

有効値: (0,1)

ランダムシード

自動的に生成されるランダムシード。

ID列 (同じIDで列を分割しない)

ID列。 同じIDの列は分割されません。 代わりに、出力テーブル1または出力テーブル2にランダムに割り当てられます。

説明

このパラメーターは、[詳細オプション] を選択した場合にのみ表示されます。 選択できるIDは1つだけです。

しきい値列

しきい値列。 この列の内容は、しきい値に基づいて分割されます。 STRING-typed列は選択できません。

しきい値

[しきい値列] で指定した列の分割に使用されるしきい値。 出力テーブル1のデータはしきい値未満でなければなりません。 出力テーブル2のデータはしきい値以上でなければなりません。

重要

しきい値でデータを分割する場合は、分割方法を [比率で分割] に設定したときに指定した情報 (分割率情報など) を消去する必要があります。

チューニング

コア

コアの数。 システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。

コアあたりのメモリサイズ

各コアのメモリサイズ。 システムは、入力データの量に基づいてメモリを自動的に割り当てます。 単位:MB。

方法2: PAIコマンドを実行する

PAIコマンドを実行してコンポーネントを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

None

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。

すべてのパーティション

output1TableName

出力テーブル1の名前。

None

output1TablePartition

不可

出力テーブル1のパーティションの名前。

パーティション分割されていないテーブル

output2TableName

出力テーブル2の名前。

None

output2TablePartition

不可

出力テーブル2のパーティションの名前。

パーティション分割されていないテーブル

分数

不可

出力テーブル1に割り当てられている分割データの割合。 有効値: (0,1)

None

randomSeed

不可

ランダムシード。 値は正の整数でなければなりません。

システムによって決定される

idColName

不可

ID列。 同じIDの列は分割できません。

None

thresholdColName

不可

しきい値列。 STRING-typed列は選択できません。

None

しきい値

不可

しきい値。

None

ライフサイクル

不可

出力テーブルのライフサイクル。 有効な値: [1,3650]

None

coreNum

不可

コアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 有効値: (1,65536)

システムによって決定される