全部產品
Search
文件中心

Platform For AI:基於分箱組件實現連續特徵離散化

更新時間:Jul 13, 2024

特徵離散是將連續的資料進行分段,使其變為多個離散化區間。針對該情境,PAI推出了分箱組件和資料轉換模組組件。首先使用分箱組件將連續特徵離散化,再使用資料轉換模組將未經處理資料從連續值轉換為離散值。本文為您介紹如何使用Designer組件進行連續特徵離散化。

前提條件

操作步驟

  1. 進入Designer頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。

    3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。

  2. 建立空白工作流程,並進入工作流程,詳情請參見建立自訂工作流程

    其中:

    • 工作流程名稱:配置為基於分箱組件實現連續特徵離散化

    • 描述:配置為使用PAI提供的分箱組件,實現連續特徵離散化

    • 可見範圍:選擇僅自己可見

  3. 構建工作流程流程。

    1. 在左側組件列表,將源/目標下的讀資料表組件拖入畫布中。

    2. 在左側組件列表,將金融板塊下的分箱資料轉換模組組件拖入畫布中。

    3. 將以上組件拼接為如下工作流程。特徵離散化實驗

  4. 配置組件參數。

    1. 單擊畫布中的讀資料表組件,在右側面板,配置工作流程資料來源。

      頁簽

      參數

      描述

      表選擇

      表名

      輸入pai_online_project.iris_data

      分區

      該公用資料表為非分區表,因此分區複選框不支援選中。

      欄位資訊

      源表欄位資訊

      配置表名後,系統會自動同步該資料表的源表欄位資訊,無需手動設定。

    2. 單擊畫布中的分箱組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。

      頁簽

      參數

      描述

      欄位設定

      特徵列

      選擇f1f2f3f4列。

      參數設定

      分箱個數

      配置為10,表示將連續特徵離散化至10個區間中。

      分箱方式

      支援等頻等寬自動分箱。使用自動分箱時,資料來源必須包含label欄位,且為二分類情境。本文以等頻分箱為例。

    3. 單擊畫布中的資料轉換模組組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。

      頁簽

      參數

      描述

      欄位設定

      不進行轉換的資料列

      選擇type列,該列會原樣輸出。

      資料轉換的類型

      選擇Index

  5. 單擊畫布上方的運行按鈕image

  6. 查看工作流程運行結果。

    1. 工作流程運行結束後,按右鍵畫布中的資料轉換模組組件,在捷徑功能表,單擊查看資料 > 輸出,即可查看離散化結果。image

    2. 按右鍵畫布中的分箱組件,在捷徑功能表,單擊我要分箱

    3. 單擊待查看特徵(以f1特徵列為例)名稱,即可查看該特徵的分箱詳情,如下圖所示。分箱詳情

    4. 單擊圖表頁簽,以圖表的形式查看分箱結果。分箱結果的圖表展示

相關文檔

  • 關於演算法組件更詳細的內容介紹,請參見分箱資料轉換模組

  • 您可以使用Designer完成其他的AI開發工作單位,關於Designer更詳細的內容介紹,請參見Designer概述