本文為您介紹Designer提供的增加序號列組件。您可以在資料表的第一列追加ID列。
背景資訊
支援1000000000*1023的演算法規模。
組件配置
您可以使用以下任意一種方式,配置增加序號列組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
參數設定 | 預設全選 | 預設全選,多餘列不影響預測結果。 |
序號 | 預設為append_id。 | |
執行調優 | 計算核心數 | 核心數量。 |
每個核記憶體數 | 單個核心使用的記憶體數,單位為MB,取值範圍為(1, 65536)。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
參數名稱 | 是否必選 | 參數描述 | 預設值 |
inputTableName | 是 | 輸入表的表名。 | 無 |
selectedColNames | 否 | 輸入表中,參與訓練的列。列名以英文逗號(,)分隔,支援INT和DOUBLE類型。如果輸入為稀疏格式,則支援STRING類型的列。 | 所有列 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支援以下格式:
說明 如果指定多個分區,則使用英文逗號(,)分隔。 | 所有分區 |
outputTableName | 是 | 輸出結果表。 | 無 |
IDColName | 否 | ID列列名。 | append_id |
lifecycle | 否 | 輸出表生命週期。 | 無 |
coreNum | 否 | 核心數量。 | 系統自動分配 |
memSizePerCore | 否 | 單個核心使用的記憶體數,單位為MB,取值範圍為(1, 65536)。 | 系統自動分配 |
樣本
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
資料產生
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
輸出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true