全部產品
Search
文件中心

Platform For AI:過濾與映射

更新時間:Nov 27, 2024

過濾與映射組件是一種資料預先處理工具,通過使用者定義的過濾運算式篩選出合格記錄,並允許修改輸出欄位的名稱。這一功能在資料清洗和特徵工程階段非常有用,能夠有效地清理資料並準備適合後續分析和建模的資料集。

配置組件

方式一:可視化方式

在Designer工作流程頁面添加過濾與映射組件,並在介面右側配置相關參數:

參數

描述

選擇欄位

選擇要篩選的列,預設選擇全部列。支援修改輸出欄位名稱。

過濾條件

通過where條件實現資料過濾,與SQL類似,例如age>40

說明

支援的操作符:=、!=、>、<、>=、<=、like、rlike。

方式二:PAI命令方式

使用PAI命令配置過濾與映射組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

PAI -name Filter
    -project algo_public
    -DoutTableName="test_9"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition"
    -Dfilter="age>=40";

參數

是否必選

參數描述

outputTableName

輸出表的名稱。

inputPartitions

訓練輸入表分區。輸入表對應的輸入分區,選中全表則為None。

inputTableName

輸入表的名稱。

filter

通過where條件實現資料過濾,與SQL類似,例如age>40