Platform for AI (PAI) のMachine Learning Designerは、割合またはしきい値でデータをランダムに分割してトレーニングセットとテストセットを生成するために使用されるSplitコンポーネントを提供します。
コンポーネントの設定
次のいずれかの方法を使用して、分割コンポーネントを設定できます。 分割コンポーネントを設定すると、設定に基づいて2つのデータテーブルが生成されます。
方法1: PAIコンソールを使用する
パイプラインの詳細ページで、左側のコンポーネントリストで [分割] コンポーネントを見つけ、コンポーネントをキャンバスにドラッグして、コンポーネントを上流ノードに接続します。 次に、[分割] コンポーネントをクリックしてコンポーネントパラメーターを設定します。
しきい値ベースの分割方法と比率ベースの分割方法のパラメーターを設定する場合、しきい値ベースの分割方法が優先されます。
タブ | パラメーター | 説明 | |
パラメーター設定 | 分割方法: 比率で分割 | 分割分 | 元のデータに対する出力表1のデータの割合。 有効値: (0,1) |
ランダムシード | ランダムシードは、ランダムジェネレータの状態を固定することができる。 これにより、同じランダムシードに基づいて複数回実行されるパイプラインで同じデータ分割結果を実現できます。 このパラメーターを設定しない場合、システムは自動的に値を生成します。 | ||
ID列 (同じIDで列を分割しない) | このパラメーターは、[詳細オプション] を選択した場合にのみ設定できます。 選択できる列は1つだけです。 同じIDの列のデータは分割されず、出力表1または出力表2にランダムに割り当てられます。 | ||
分割方法: しきい値による分割 | しきい値列 | この列のデータはしきい値によって分割されます。 STRING型の列のデータは、しきい値で分割できません。 | |
しきい値 | しきい値列のデータはしきい値によって完全に分割されます。 [出力テーブル1] のしきい値列の値はしきい値よりも小さく、[出力テーブル2] のしきい値列の値はしきい値以上です。 | ||
チューニング | コア | システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。 デフォルトでは、システムが値を決定します。 | |
コアあたりのメモリサイズ | システムは、入力データの量に基づいてメモリを自動的に割り当てます。 単位:MB。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを実行する
パイプラインの詳細ページで、左側のコンポーネントリストでSQL Scriptコンポーネントを見つけ、そのコンポーネントをキャンバスにドラッグします。 次に、コンポーネントをクリックしてコンポーネントパラメータを設定します。 [パラメーター設定] パネルで、[テーブル作成ステートメントを追加するかどうか] をオフにし、SQLスクリプトテキストエディターに次のスクリプトを入力してから、PAIコマンドを実行してコンポーネントを構成します。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
比率ベースの分割方法としきい値ベースの分割方法で必要なパラメーターを同時に設定することはできません。
カテゴリ | パラメーター | 必須 / 任意 | 説明 | デフォルト値 |
共通パラメーター | inputTableName | 可 | 入力テーブルの名前。 | なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | すべてのパーティション | |
output1TableName | 可 | 出力テーブル1. | なし | |
output1TablePartition | 不可 | 出力テーブル1のパーティションの名前。 | パーティション分割されていないテーブル | |
output2TableName | 可 | 出力テーブル2. | なし | |
output2TablePartition | 不可 | 出力テーブル2のパーティションの名前。 | パーティション分割されていないテーブル | |
lifecycle | 不可 | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 | なし | |
coreNum | 不可 | コアの数。 このパラメータはチューニングパラメータです。 システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。 | デフォルトで自動割り当て | |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 このパラメータはチューニングパラメータです。 システムは、入力データの量に基づいて自動的にメモリを割り当てます。 有効値: (1, 65536) | デフォルトで自動割り当て | |
比率パラメータで分割 | fraction | 可 | 出力表1のデータの割合。 有効値: (0,1) | なし |
randomSeed | 不可 | ランダムシード。 値は正の整数である必要があります。 | デフォルトで自動割り当て | |
idColName | 不可 | ID列。 選択できる列は1つだけです。 同じIDを持つ列のデータは分割されず、出力表1または出力表2にランダムに割り当てられます。 | なし | |
しきい値パラメーターで分割 | thresholdColName | 可 | しきい値列。 この列のデータはしきい値によって分割されます。 STRING型の列のデータは、しきい値で分割できません。 | なし |
threshold | 可 | しきい値。 しきい値列のデータはしきい値によって完全に分割されます。 出力テーブル1のしきい値列の値はしきい値より小さく、出力テーブル2のしきい値列の値はしきい値以上です。 | なし |