すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Binningコンポーネントを使用して連続フィーチャの離散化を実装する

最終更新日:Jul 22, 2024

特徴離散化は、連続データを複数の離散区間に変換するプロセスである。 機能の離散化を実装するために、Platform for AI (PAI) はビニングおよびデータ変換モジュールコンポーネントを提供します。 ビニングコンポーネントを使用して連続フィーチャを離散化し、データ変換モジュールコンポーネントを使用して、ビン内の元の連続データを離散データに変換できます。 このトピックでは、Machine Learning Designerでアルゴリズムコンポーネントを使用して連続フィーチャを離散化する方法について説明します。

前提条件

手順

  1. Machine Learning Designerページに移動します。

    1. PAIコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。

    3. ワークスペースページの左側のナビゲーションウィンドウで、モデル开発とトレーニング > ビジュアルモデリング (デザイナー)機械学習デザイナーページに移動します。

  2. 空のパイプラインを作成し、パイプラインを開きます。 詳細については、「データの準備」をご参照ください。

    次のセクションでは、パラメーターについて説明します。

    • パイプライン名: 値を [ビニングコンポーネントを使用して連続フィーチャの離散化を実装する] に設定します。

    • 説明: PAIが提供するビニングコンポーネントを使用して連続フィーチャを離散化すると入力します。

    • Visibility: 値をVisible to Meに設定します。

  3. パイプラインを設定します。

    1. 左側のコンポーネントリストで、テーブルを読むのコンポーネントデータソース /ターゲットフォルダーをキャンバスに移動します。

    2. 左側のコンポーネントリストで、ビニングデータ変換モジュールのコンポーネント金融フォルダーをキャンバスに移動します。

    3. 次の図に示すように、上記のコンポーネントを接続します。 特征离散化实验

  4. コンポーネントパラメーターを設定します。

    1. キャンバスで [テーブルの読み取り] コンポーネントをクリックします。 右側のパネルで、次の表に示すパラメーターを設定します。

      タブ

      パラメーター

      説明

      テーブルの選択

      テーブル名

      pai_online_project.iris_dataを入力します。

      パーティション

      pai_online_project.iris_dataテーブルはパーティションテーブルではありません。 そのため、[パーティション] チェックボックスは暗くなります。

      フィールド情報

      ソーステーブル列

      このパラメーターを手動で指定する必要はありません。 [テーブル名] パラメーターを指定すると、[テーブル名] パラメーターで指定されたテーブルの列の情報が [ソーステーブル列] フィールドに同期されます。

    2. キャンバスでビニングコンポーネントをクリックします。 右側のパネルで、次の表に示すパラメーターを設定し、他のパラメーターにはデフォルト値を使用します。

      タブ

      パラメーター

      説明

      フィールド設定

      フィーチャー列

      f1f2f3f4列を選択します。

      パラメーター設定

      ビン

      このパラメーターを10に設定します。 この値は、連続特徴が10個の離散区間に変換されることを示す。

      ビニングモード

      有効な値: [Equal Frequency][Equal Width] 、および [Automatic Binning] 。 このパラメーターを自動ビニングに設定した場合、バイナリ分類シナリオでラベル列を指定する必要があります。 この例では、等しい周波数が使用される。

    3. キャンバスで [データ変換モジュール] コンポーネントをクリックします。 右側のパネルで、次の表に示すパラメーターを設定し、他のパラメーターにはデフォルト値を使用します。

      タブ

      パラメーター

      説明

      フィールド設定

      データ変換なしの列

      type列を選択します。 この列の出力のデータは、入力のデータと同じです。

      データ変換モード

      [インデックス] を選択します。

  5. クリックimageキャンバスの上部でパイプラインを実行します。

  6. パイプラインの結果を表示します。

    1. パイプラインの実行後、キャンバス上で [データ変換モジュール] コンポーネントを右クリックし、[データの表示] > [出力ポート] を選択します。 次に、離散化の結果を表示します。 image

    2. を右クリックし、ビニングキャンバス上のコンポーネントを選択し、ビニング.

    3. 表示する機能の名前をクリックします。 フィーチャーのビニングの詳細は、次の図に表示されます。 この例では、f1機能が使用されます。 分箱详情

    4. [グラフ] タブをクリックして、ビニング結果を表示します。 分箱结果的图表展示

関連ドキュメント

  • アルゴリズムコンポーネントの詳細については、「ビニング」および「データ変換モジュール」をご参照ください。

  • Machine Learning Designerを使用して、他のAI開発タスクを実行できます。 詳細については、「デザイナーの概要」をご参照ください。