すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:分割

最終更新日:Dec 10, 2024

Platform for AI (PAI) のMachine Learning Designerは、割合またはしきい値でデータをランダムに分割してトレーニングセットとテストセットを生成するために使用されるSplitコンポーネントを提供します。

コンポーネントの設定

次のいずれかの方法を使用して、分割コンポーネントを設定できます。 分割コンポーネントを設定すると、設定に基づいて2つのデータテーブルが生成されます。

方法1: PAIコンソールを使用する

パイプラインの詳細ページで、左側のコンポーネントリストで [分割] コンポーネントを見つけ、コンポーネントをキャンバスにドラッグして、コンポーネントを上流ノードに接続します。 次に、[分割] コンポーネントをクリックしてコンポーネントパラメーターを設定します。

説明

しきい値ベースの分割方法と比率ベースの分割方法のパラメーターを設定する場合、しきい値ベースの分割方法が優先されます。

タブ

パラメーター

説明

パラメーター設定

分割方法: 比率で分割

分割分

元のデータに対する出力表1のデータの割合。 有効値: (0,1)

ランダムシード

ランダムシードは、ランダムジェネレータの状態を固定することができる。 これにより、同じランダムシードに基づいて複数回実行されるパイプラインで同じデータ分割結果を実現できます。 このパラメーターを設定しない場合、システムは自動的に値を生成します。

ID列 (同じIDで列を分割しない)

このパラメーターは、[詳細オプション] を選択した場合にのみ設定できます。

選択できる列は1つだけです。 同じIDの列のデータは分割されず、出力表1または出力表2にランダムに割り当てられます。

分割方法: しきい値による分割

しきい値列

この列のデータはしきい値によって分割されます。 STRING型の列のデータは、しきい値で分割できません。

しきい値

しきい値列のデータはしきい値によって完全に分割されます。 [出力テーブル1] のしきい値列の値はしきい値よりも小さく、[出力テーブル2] のしきい値列の値はしきい値以上です。

チューニング

コア

システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

システムは、入力データの量に基づいてメモリを自動的に割り当てます。 単位:MB。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを実行する

パイプラインの詳細ページで、左側のコンポーネントリストでSQL Scriptコンポーネントを見つけ、そのコンポーネントをキャンバスにドラッグします。 次に、コンポーネントをクリックしてコンポーネントパラメータを設定します。 [パラメーター設定] パネルで、[テーブル作成ステートメントを追加するかどうか] をオフにし、SQLスクリプトテキストエディターに次のスクリプトを入力してから、PAIコマンドを実行してコンポーネントを構成します。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;
説明

比率ベースの分割方法としきい値ベースの分割方法で必要なパラメーターを同時に設定することはできません。

カテゴリ

パラメーター

必須 / 任意

説明

デフォルト値

共通パラメーター

inputTableName

入力テーブルの名前。

なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。

すべてのパーティション

output1TableName

出力テーブル1.

なし

output1TablePartition

不可

出力テーブル1のパーティションの名前。

パーティション分割されていないテーブル

output2TableName

出力テーブル2.

なし

output2TablePartition

不可

出力テーブル2のパーティションの名前。

パーティション分割されていないテーブル

lifecycle

不可

出力テーブルのライフサイクル。 有効な値: [1,3650]

なし

coreNum

不可

コアの数。 このパラメータはチューニングパラメータです。 システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。

デフォルトで自動割り当て

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 このパラメータはチューニングパラメータです。 システムは、入力データの量に基づいて自動的にメモリを割り当てます。 有効値: (1, 65536)

デフォルトで自動割り当て

比率パラメータで分割

fraction

出力表1のデータの割合。 有効値: (0,1)

なし

randomSeed

不可

ランダムシード。 値は正の整数である必要があります。

デフォルトで自動割り当て

idColName

不可

ID列。 選択できる列は1つだけです。 同じIDを持つ列のデータは分割されず、出力表1または出力表2にランダムに割り当てられます。

なし

しきい値パラメーターで分割

thresholdColName

しきい値列。 この列のデータはしきい値によって分割されます。 STRING型の列のデータは、しきい値で分割できません。

なし

threshold

しきい値。 しきい値列のデータはしきい値によって完全に分割されます。 出力テーブル1のしきい値列の値はしきい値より小さく、出力テーブル2のしきい値列の値はしきい値以上です。

なし