このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する条件付きランダムフィールドコンポーネントについて説明します。
条件付き確率体 (CRF) は、入力確率変数群に基づく出力確率変数群の条件付き確率分布モデルである。 このモデルは、出力確率変数がマルコフ確率場 (MRF) を構成すると仮定する。 CRFは、異なる予測シナリオで使用することができる。 特に注釈シナリオでは、線形鎖CRFが主に使用されます。 詳細については、「Wikipedia」をご参照ください。
コンポーネントの設定
次のいずれかの方法を使用して、条件付きランダムフィールドコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
条件付きランダムフィールドコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | ID列 | 各サンプルのIDを含む列。 サンプルはn − タプルに保存される。 |
フィーチャー列 | 注釈を付ける単語と、その単語に特徴がある場合はその特徴。 | |
ターゲット列 | 選択する列。 | |
パラメーター設定 | 機能生成テンプレート | デフォルト値:
. |
まれに使用されるワードフィルタリングしきい値 | デフォルト値は 1 です。 | |
L1正則化係数 | デフォルト値は 1 です。 | |
L2正則化係数 | デフォルト値:0 | |
最大イテレーション | デフォルト値:100 | |
収束しきい値 | デフォルト値: 0.00001 | |
チューニング | コア | コアの数。 デフォルトでは、システムは値を決定します。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 デフォルトでは、システムは値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name=linearcrf
-project=algo_public
-DinputTableName=crf_input_table
-DidColName=sentence_id
-DfeatureColNames=word,f1
-DlabelColName=label
-DoutputTableName=crf_model
-Dlifecycle=28
-DcoreNum=10
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力フィーチャを含むテーブル。 | デフォルト値なし |
inputTablePartitions | 不可 | 入力フィーチャを含むテーブルから選択されたパーティション。 | すべてのパーティション |
featureColNames | 不可 | 入力テーブルから選択されたフィーチャ列。 | ラベル列を除くすべての列 |
labelColName | 可 | 選択する列。 | デフォルト値なし |
idColName | 可 | サンプルラベルを含む列。 | デフォルト値なし |
outputTableName | 可 | 出力モデルを含むテーブル。 | デフォルト値なし |
outputTablePartitions | 不可 | 出力モデルテーブルから選択されたパーティション。 | すべてのパーティション |
テンプレート | 不可 | フィーチャの生成に使用されるテンプレート。 |
|
freq | 不可 | フィーチャをフィルタリングするためのパラメータ。 freq値以上の特徴値のみが保持される。 | 1 |
反復 | 不可 | 最適化の最大反復回数。 | 100 |
l1Weight | 不可 | L1正則化のパラメーターの重み。 | 1.0 |
l2Weight | 不可 | L2正則化のパラメータの重み。 | 1.0 |
イプシロン | 不可 | 収束偏差。 このパラメータは、2回の反復における対数尤度値間の偏差である、限定メモリのブロイデンフレッチャーゴールドファーブシャンノ (L-BFGS) プロセスを終了するための要件を指定する。 | 0.0001 |
lbfgsStep | 不可 | L-BFGSアルゴリズムを使用して実行される最適化の履歴ステップサイズ。 L-BFGSアルゴリズムのみがこのパラメーターをサポートしています。 | 10 |
threadNum | 不可 | モデルトレーニングに使用される並列スレッドの数。 | 3 |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 不可 | コアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 | システムによって決定される |
例:
入力データ
文_id
ワード
f1
ラベル
1
ロックウェル
NNP
B-NP
1
国際
NNP
I-NP
1
株式会社
NNP
I-NP
1
の
POS
B-NP
...
...
...
...
823
オハイオ州
NNP
B-NP
823
育った
VBD
B-VP
823
3.8
CD
B-NP
823
%
NN
I-NP
823
.
.
O
予測アルゴリズムPAIコマンド
PAI -name=crf_predict -project=algo_public -DinputTableName=crf_test_input_table -DmodelTableName=crf_model -DidColName=sentence_id -DfeatureColNames=word,f1 -DlabelColName=label -DoutputTableName=crf_predict_result -DdetailColName=prediction_detail -Dlifecycle=28 -DcoreNum=10
パラメーター
必須
説明
デフォルト値
inputTableName
可
入力フィーチャを含むテーブル。
デフォルト値なし
inputTablePartitions
不可
入力フィーチャを含むテーブルから選択されたパーティション。
すべてのパーティション
featureColNames
不可
入力テーブルから選択されたフィーチャ列。
ラベル列を除くすべての列
labelColName
不可
選択する列。
デフォルト値なし
IdColName
可
サンプルラベルを含む列。
デフォルト値なし
resultColName
不可
出力テーブルの結果列。
prediction_result
scoreColName
不可
出力テーブルのスコア列。
prediction_score
detailColName
不可
出力テーブルの詳細列。
デフォルト値なし
outputTableName
可
出力予測結果テーブル。
デフォルト値なし
outputTablePartitions
不可
出力予測結果テーブルから選択されたパーティション。
すべてのパーティション
modelTableName
可
アルゴリズムモデルテーブル。
デフォルト値なし
modelTablePartitions
不可
アルゴリズムモデルテーブルから選択されたパーティション。
すべてのパーティション
ライフサイクル
不可
出力テーブルのライフサイクル。
デフォルト値なし
coreNum
不可
コアの数。
システムによって決定される
memSizePerCore
不可
各コアのメモリサイズ。
システムによって決定される
出力データ
文_id
ワード
f1
ラベル
1
自信
NN
B-NP
1
in
IN
B-PP
1
the
DT
B-NP
1
ポンド
NN
I-NP
...
...
...
...
77
持っている
VBP
B-VP
77
発表済み
VBN
I-VP
77
類似
JJ
B-NP
77
増加
NNS
I-NP
77
.
.
O
説明ラベル列はオプションです。