このトピックでは、Machine Learning Studioが提供するID列の追加コンポーネントについて説明します。 このコンポーネントを使用すると、テーブルの最初の列にID列を追加できます。
背景情報
[ID列の追加] コンポーネントは、最大1,000,000,000x1,023行のテーブルに使用できます。
コンポーネントの設定
次のいずれかの方法を使用して、ID列の追加コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
パラメーター設定 | すべてデフォルトで選択 | デフォルトでは、入力テーブルのすべての列が選択されます。 特定の列をトレーニングに使用することはできません。 これらの列は予測結果に影響を与えません。 |
ID列 | このパラメーターのデフォルト値はappend_idです。 | |
チューニング | コア | コアの数。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 単位:MB。 有効値: (1,65536) |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
selectedColNames | 不可 | トレーニング用に入力テーブルから選択された列。 列名はコンマ (,) で区切る必要があります。 INT型とDOUBLE型の列がサポートされています。 入力データがスパース形式の場合、STRING型の列がサポートされます。 | すべての列 |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
IDColName | 不可 | 追加されたID列の名前。 | append_id |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 不可 | コアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 有効値: (1,65536) | システムによって決定される |
例:
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
入力データ
col0
col1
col2
col3
col4
10
0.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
11
1.0
aaaa
10月01日木曜日00:00:00 CST 2015
false
12
2.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
13
3.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
14
4.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
出力テーブル
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
1
11
1.0
aaaa
10月01日木曜日00:00:00 CST 2015
false
2
12
2.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
3
13
3.0
aaaa
10月01日木曜日00:00:00 CST 2015
true
4
14
4.0
aaaa
10月01日木曜日00:00:00 CST 2015
true