過濾與映射組件是一種資料預先處理工具,通過使用者定義的過濾運算式篩選出合格記錄,並允許修改輸出欄位的名稱。這一功能在資料清洗和特徵工程階段非常有用,能夠有效地清理資料並準備適合後續分析和建模的資料集。
配置組件
方式一:可視化方式
在Designer工作流程頁面添加過濾與映射組件,並在介面右側配置相關參數:
參數 | 描述 |
選擇欄位 | 選擇要篩選的列,預設選擇全部列。支援修改輸出欄位名稱。 |
過濾條件 | 通過where條件實現資料過濾,與SQL類似,例如age>40。 說明 支援的操作符:=、!=、>、<、>=、<=、like、rlike。 |
方式二:PAI命令方式
使用PAI命令配置過濾與映射組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name Filter
-project algo_public
-DoutTableName="test_9"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition"
-Dfilter="age>=40";
參數 | 是否必選 | 參數描述 |
outputTableName | 是 | 輸出表的名稱。 |
inputPartitions | 否 | 訓練輸入表分區。輸入表對應的輸入分區,選中全表則為None。 |
inputTableName | 是 | 輸入表的名稱。 |
filter | 否 | 通過where條件實現資料過濾,與SQL類似,例如age>40。 |