すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:機能スケーリング

最終更新日:Jul 22, 2024

Feature Scalingコンポーネントは、共通のスケーリング関数を使用して、密または疎な数値データをスケーリングできます。

概要

フィーチャスケーリングコンポーネントには、次の特性があります。

  • log2log10Inabssqrtなどの一般的なスケーリング機能をサポートします。

  • 密なデータと疎なデータをサポートします。

コンポーネントの設定

次のいずれかの方法を使用して、機能スケーリングコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Scalingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

スケーリングされた機能

スケーリングする機能。

ラベル列

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

スパースフィーチャ (K:V、K:V)

トレーニングデータがスパースかどうかを指定します。 データがスパースの場合、単一のデータレコードではなく、単一のフィールドにすべてのデータが含まれます。

リザーブ変換された機能

新機能のプレフィックスにscale_ を付けるかどうかを指定します。

パラメーター設定

スケーリング関数

Feature Scalingコンポーネントは、次のスケーリング機能をサポートしています。

  • log2

  • log10

  • ln

  • abs

  • sqrt

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI名fe_scale_runner -project algo_public
    -Dlifecycle=28
    -DscaleMethod=log2
    -DscaleCols=nr_employed
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20380_1; 

パラメーター

必須

説明

デフォルト値

inputTable

入力テーブルの名前。

なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターをPartition_name=value形式で設定します。

マルチレベルパーティションを指定するには、このパラメーターをname1=value1/name2=value2; 形式で設定します。

複数のパーティションを指定する場合は、コンマで区切ります (,) 。

入力テーブルのすべてのパーティション

outputTable

スケーリング後の出力テーブル。

なし

scaleCols

スケーリングする機能。

スパースフィーチャは自動的に表示されます。 数値データ型のフィーチャのみを選択できます。

なし

labelCol

不可

ラベル列。

このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

なし

categoryCols

不可

列挙フィーチャとして処理される選択されたフィールド。 これらのフィールドはスケーリングをサポートしていません。

""

scaleMethod

不可

スケーリングに使用されるメソッド。 値の値:

  • log2

  • log10

  • ln

  • abs

  • sqrt

log2

scaleTopN

不可

scaleColsパラメーターを設定しないと、スケーリングが必要な上位N個のフィーチャーが自動的に選択されます。

10

isSparse

不可

フィーチャがkey-value形式のスパースフィーチャかどうかを指定します。

密なデータ

itemSpliter

不可

スパースキーと値のペアを区切るために使用される区切り文字。

,

kvSpliter

不可

スパースキーと値を区切るために使用される区切り文字。

:

lifecycle

不可

出力テーブルのライフサイクル。

7

coreNum

不可

コアの数。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用する必要があります。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 このパラメーターの値は正の整数でなければなりません。 有効値: [2048,64 × 1024]

システムによって決定される

  • 入力データ

    次のSQL文を実行して入力データを生成します。

    存在しない場合にテーブルを作成する

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • パラメータ設定

    [フィールドの設定] タブで、[スケーリング機能] パラメーターをnr_hededに設定します。 数値データ型の機能のみがサポートされています。 次の図に示すように、[パラメーターの設定] タブで、[スケーリング関数] パラメーターをlog2に設定します。 Parameter settings

  • 結果

    nr_employed

    12.352071021075528

    12.34313018339218

    12.285286613666395

    12.316026916036957

    12.309533196497519

    12.352071021075528

    12.316026916036957

    12.316026916036957

    12.309533196497519

    12.316026916036957