特徵離散是將連續的資料進行分段,使其變為多個離散化區間。針對該情境,PAI推出了分箱組件和資料轉換模組組件。首先使用分箱組件將連續特徵離散化,再使用資料轉換模組將未經處理資料從連續值轉換為離散值。本文為您介紹如何使用Designer組件進行連續特徵離散化。
前提條件
操作步驟
進入Designer頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入Designer頁面。
建立空白工作流程,並進入工作流程,詳情請參見建立自訂工作流程。
其中:
工作流程名稱:配置為基於分箱組件實現連續特徵離散化。
描述:配置為使用PAI提供的分箱組件,實現連續特徵離散化。
可見範圍:選擇僅自己可見。
構建工作流程流程。
在左側組件列表,將源/目標下的讀資料表組件拖入畫布中。
在左側組件列表,將金融板塊下的分箱和資料轉換模組組件拖入畫布中。
將以上組件拼接為如下工作流程。
配置組件參數。
單擊畫布中的讀資料表組件,在右側面板,配置工作流程資料來源。
頁簽
參數
描述
表選擇
表名
輸入pai_online_project.iris_data。
分區
該公用資料表為非分區表,因此分區複選框不支援選中。
欄位資訊
源表欄位資訊
配置表名後,系統會自動同步該資料表的源表欄位資訊,無需手動設定。
單擊畫布中的分箱組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。
頁簽
參數
描述
欄位設定
特徵列
選擇f1、f2、f3及f4列。
參數設定
分箱個數
配置為10,表示將連續特徵離散化至10個區間中。
分箱方式
支援等頻、等寬及自動分箱。使用自動分箱時,資料來源必須包含label欄位,且為二分類情境。本文以等頻分箱為例。
單擊畫布中的資料轉換模組組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。
頁簽
參數
描述
欄位設定
不進行轉換的資料列
選擇type列,該列會原樣輸出。
資料轉換的類型
選擇Index。
單擊畫布上方的運行按鈕。
查看工作流程運行結果。
工作流程運行結束後,按右鍵畫布中的資料轉換模組組件,在捷徑功能表,單擊 ,即可查看離散化結果。
按右鍵畫布中的分箱組件,在捷徑功能表,單擊我要分箱。
單擊待查看特徵(以f1特徵列為例)名稱,即可查看該特徵的分箱詳情,如下圖所示。
單擊圖表頁簽,以圖表的形式查看分箱結果。
相關文檔
您可以使用Designer完成其他的AI開發工作單位,關於Designer更詳細的內容介紹,請參見Designer概述。