Feature Scalingコンポーネントは、共通のスケーリング関数を使用して、密または疎な数値データをスケーリングできます。
概要
フィーチャスケーリングコンポーネントには、次の特性があります。
log2、log10、In、abs、sqrtなどの一般的なスケーリング機能をサポートします。
密なデータと疎なデータをサポートします。
コンポーネントの設定
次のいずれかの方法を使用して、機能スケーリングコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Scalingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | スケーリングされた機能 | スケーリングする機能。 |
ラベル列 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | |
スパースフィーチャ (K:V、K:V) | トレーニングデータがスパースかどうかを指定します。 データがスパースの場合、単一のデータレコードではなく、単一のフィールドにすべてのデータが含まれます。 | |
リザーブ変換された機能 | 新機能のプレフィックスにscale_ を付けるかどうかを指定します。 | |
パラメーター設定 | スケーリング関数 | Feature Scalingコンポーネントは、次のスケーリング機能をサポートしています。
|
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI名fe_scale_runner -project algo_public
-Dlifecycle=28
-DscaleMethod=log2
-DscaleCols=nr_employed
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20380_1;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTable | 可 | 入力テーブルの名前。 | なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターを マルチレベルパーティションを指定するには、このパラメーターを 複数のパーティションを指定する場合は、コンマで区切ります (,) 。 | 入力テーブルのすべてのパーティション |
outputTable | 可 | スケーリング後の出力テーブル。 | なし |
scaleCols | 可 | スケーリングする機能。 スパースフィーチャは自動的に表示されます。 数値データ型のフィーチャのみを選択できます。 | なし |
labelCol | 不可 | ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。 | なし |
categoryCols | 不可 | 列挙フィーチャとして処理される選択されたフィールド。 これらのフィールドはスケーリングをサポートしていません。 | "" |
scaleMethod | 不可 | スケーリングに使用されるメソッド。 値の値:
| log2 |
scaleTopN | 不可 | scaleColsパラメーターを設定しないと、スケーリングが必要な上位N個のフィーチャーが自動的に選択されます。 | 10 |
isSparse | 不可 | フィーチャがkey-value形式のスパースフィーチャかどうかを指定します。 | 密なデータ |
itemSpliter | 不可 | スパースキーと値のペアを区切るために使用される区切り文字。 | , |
kvSpliter | 不可 | スパースキーと値を区切るために使用される区切り文字。 | : |
lifecycle | 不可 | 出力テーブルのライフサイクル。 | 7 |
coreNum | 不可 | コアの数。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用する必要があります。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 このパラメーターの値は正の整数でなければなりません。 有効値: [2048,64 × 1024] | システムによって決定される |
例
入力データ
次のSQL文を実行して入力データを生成します。
存在しない場合にテーブルを作成する
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10;
パラメータ設定
[フィールドの設定] タブで、[スケーリング機能] パラメーターをnr_hededに設定します。 数値データ型の機能のみがサポートされています。 次の図に示すように、[パラメーターの設定] タブで、[スケーリング関数] パラメーターをlog2に設定します。
結果
nr_employed
12.352071021075528
12.34313018339218
12.285286613666395
12.316026916036957
12.309533196497519
12.352071021075528
12.316026916036957
12.316026916036957
12.309533196497519
12.316026916036957