このトピックでは、Machine Learning Designerが提供する分割コンポーネントについて説明します。 このコンポーネントは、データをランダムに分割して、トレーニングとテスト用のデータセットを生成します。
コンポーネントの設定
次のいずれかの方法を使用してコンポーネントを設定できます。
方法1: Machine Learning Platform for AI (PAI) コンソールを使用する
PAIコンソールのMachine Learning Designerのパイプライン設定ページでコンポーネントを設定します。
タブ | パラメーター | 説明 |
パラメーター設定 | 分割方法 |
|
分割分 | 有効値: (0,1) | |
ランダムシード | 自動的に生成されるランダムシード。 | |
ID列 (同じIDで列を分割しない) | ID列。 同じIDの列は分割されません。 代わりに、出力テーブル1または出力テーブル2にランダムに割り当てられます。 説明 このパラメーターは、[詳細オプション] を選択した場合にのみ表示されます。 選択できるIDは1つだけです。 | |
しきい値列 | しきい値列。 この列の内容は、しきい値に基づいて分割されます。 STRING-typed列は選択できません。 | |
しきい値 | [しきい値列] で指定した列の分割に使用されるしきい値。 出力テーブル1のデータはしきい値未満でなければなりません。 出力テーブル2のデータはしきい値以上でなければなりません。 重要 しきい値でデータを分割する場合は、分割方法を [比率で分割] に設定したときに指定した情報 (分割率情報など) を消去する必要があります。 | |
チューニング | コア | コアの数。 システムは、入力データの量に基づいて、トレーニングに使用されるコアを自動的に割り当てます。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 システムは、入力データの量に基づいてメモリを自動的に割り当てます。 単位:MB。 |
方法2: PAIコマンドを実行する
PAIコマンドを実行してコンポーネントを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | None |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | すべてのパーティション |
output1TableName | 可 | 出力テーブル1の名前。 | None |
output1TablePartition | 不可 | 出力テーブル1のパーティションの名前。 | パーティション分割されていないテーブル |
output2TableName | 可 | 出力テーブル2の名前。 | None |
output2TablePartition | 不可 | 出力テーブル2のパーティションの名前。 | パーティション分割されていないテーブル |
分数 | 不可 | 出力テーブル1に割り当てられている分割データの割合。 有効値: (0,1) | None |
randomSeed | 不可 | ランダムシード。 値は正の整数でなければなりません。 | システムによって決定される |
idColName | 不可 | ID列。 同じIDの列は分割できません。 | None |
thresholdColName | 不可 | しきい値列。 STRING-typed列は選択できません。 | None |
しきい値 | 不可 | しきい値。 | None |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 | None |
coreNum | 不可 | コアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 有効値: (1,65536) | システムによって決定される |