機能スケーリング - Platform For AI - Alibaba Cloud ドキュメントセンター

Feature Scalingコンポーネントは、共通のスケーリング関数を使用して、密または疎な数値データをスケーリングできます。

概要

フィーチャスケーリングコンポーネントには、次の特性があります。

log2、log10、In、abs、sqrtなどの一般的なスケーリング機能をサポートします。
密なデータと疎なデータをサポートします。

コンポーネントの設定

次のいずれかの方法を使用して、機能スケーリングコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Scalingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。下表に、各パラメーターを説明します。

タブ	パラメーター	説明
フィールド設定	スケーリングされた機能	スケーリングする機能。
	ラベル列	ラベル列。このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。
	スパースフィーチャ (K:V、K:V)	トレーニングデータがスパースかどうかを指定します。データがスパースの場合、単一のデータレコードではなく、単一のフィールドにすべてのデータが含まれます。
	リザーブ変換された機能	新機能のプレフィックスにscale_ を付けるかどうかを指定します。
パラメーター設定	スケーリング関数	Feature Scalingコンポーネントは、次のスケーリング機能をサポートしています。 log2 log10 ln abs sqrt

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「SQLスクリプト」をご参照ください。

PAI名fe_scale_runner -project algo_public
    -Dlifecycle=28
    -DscaleMethod=log2
    -DscaleCols=nr_employed
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20380_1;

パラメーター	必須	説明	デフォルト値
inputTable	可	入力テーブルの名前。	なし
inputTablePartitions	不可	トレーニング用に入力テーブルから選択されたパーティション。このパラメーターを`Partition_name=value`形式で設定します。マルチレベルパーティションを指定するには、このパラメーターを`name1=value1/name2=value2;` 形式で設定します。複数のパーティションを指定する場合は、コンマで区切ります (,) 。	入力テーブルのすべてのパーティション
outputTable	可	スケーリング後の出力テーブル。	なし
scaleCols	可	スケーリングする機能。スパースフィーチャは自動的に表示されます。数値データ型のフィーチャのみを選択できます。	なし
labelCol	不可	ラベル列。このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。	なし
categoryCols	不可	列挙フィーチャとして処理される選択されたフィールド。これらのフィールドはスケーリングをサポートしていません。	""
scaleMethod	不可	スケーリングに使用されるメソッド。値の値： log2 log10 ln abs sqrt	log2
scaleTopN	不可	scaleColsパラメーターを設定しないと、スケーリングが必要な上位N個のフィーチャーが自動的に選択されます。	10
isSparse	不可	フィーチャがkey-value形式のスパースフィーチャかどうかを指定します。	密なデータ
itemSpliter	不可	スパースキーと値のペアを区切るために使用される区切り文字。	,
kvSpliter	不可	スパースキーと値を区切るために使用される区切り文字。	:
lifecycle	不可	出力テーブルのライフサイクル。	7
coreNum	不可	コアの数。このパラメーターの値は正の整数でなければなりません。有効な値: [1,9999] 。このパラメーターは、memSizePerCoreパラメーターと一緒に使用する必要があります。	システムによって決定される
memSizePerCore	不可	各コアのメモリサイズ。単位：MB。このパラメーターの値は正の整数でなければなりません。有効値: [2048,64 × 1024]	システムによって決定される

例

入力データ
次のSQL文を実行して入力データを生成します。
存在しない場合にテーブルを作成する
```
create table if not exists pai_dense_10_1 as
select
    nr_employed
from bank_data limit 10;
```
パラメータ設定
[フィールドの設定] タブで、[スケーリング機能] パラメーターをnr_hededに設定します。数値データ型の機能のみがサポートされています。次の図に示すように、[パラメーターの設定] タブで、[スケーリング関数] パラメーターをlog2に設定します。
結果
nr_employed
12.352071021075528
12.34313018339218
12.285286613666395
12.316026916036957
12.309533196497519
12.352071021075528
12.316026916036957
12.316026916036957
12.309533196497519
12.316026916036957

nr_employed
12.352071021075528
12.34313018339218
12.285286613666395
12.316026916036957
12.309533196497519
12.352071021075528
12.316026916036957
12.316026916036957
12.309533196497519
12.316026916036957