条件付きランダムフィールド - Platform For AI - Alibaba Cloud ドキュメントセンター

このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する条件付きランダムフィールドコンポーネントについて説明します。

条件付き確率体 (CRF) は、入力確率変数群に基づく出力確率変数群の条件付き確率分布モデルである。このモデルは、出力確率変数がマルコフ確率場 (MRF) を構成すると仮定する。 CRFは、異なる予測シナリオで使用することができる。特に注釈シナリオでは、線形鎖CRFが主に使用されます。詳細については、「Wikipedia」をご参照ください。

コンポーネントの設定

次のいずれかの方法を使用して、条件付きランダムフィールドコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

条件付きランダムフィールドコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。下表に、各パラメーターを説明します。

タブ	パラメーター	説明
フィールド設定	ID列	各サンプルのIDを含む列。サンプルはn − タプルに保存される。
	フィーチャー列	注釈を付ける単語と、その単語に特徴がある場合はその特徴。
	ターゲット列	選択する列。
パラメーター設定	機能生成テンプレート	デフォルト値： `[-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0], [0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1], [-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1], [-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1], [0:1]/[1:1]/[2:1]` .
	まれに使用されるワードフィルタリングしきい値	デフォルト値は 1 です。
	L1正則化係数	デフォルト値は 1 です。
	L2正則化係数	デフォルト値：0
	最大イテレーション	デフォルト値：100
	収束しきい値	デフォルト値: 0.00001
チューニング	コア	コアの数。デフォルトでは、システムは値を決定します。
チューニング	コアあたりのメモリサイズ	各コアのメモリサイズ。デフォルトでは、システムは値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「SQLスクリプト」をご参照ください。

PAI -name=linearcrf    
    -project=algo_public    
    -DinputTableName=crf_input_table    
    -DidColName=sentence_id    
    -DfeatureColNames=word,f1    
    -DlabelColName=label    
    -DoutputTableName=crf_model    
    -Dlifecycle=28    
    -DcoreNum=10

パラメーター	必須	説明	デフォルト値
inputTableName	可	入力フィーチャを含むテーブル。	デフォルト値なし
inputTablePartitions	不可	入力フィーチャを含むテーブルから選択されたパーティション。	すべてのパーティション
featureColNames	不可	入力テーブルから選択されたフィーチャ列。	ラベル列を除くすべての列
labelColName	可	選択する列。	デフォルト値なし
idColName	可	サンプルラベルを含む列。	デフォルト値なし
outputTableName	可	出力モデルを含むテーブル。	デフォルト値なし
outputTablePartitions	不可	出力モデルテーブルから選択されたパーティション。	すべてのパーティション
テンプレート	不可	フィーチャの生成に使用されるテンプレート。	定義 `<template .=. <template_item,<template_item,...,<template_item <template_item .=. [row_offset:col_index]/[row_offset:col_index]/.../[row_offset:col_index] row_offset .=. integer col_index .=. integer>` デフォルト値 `[-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],[0:1]/[1:1]/[2:1]`
freq	不可	フィーチャをフィルタリングするためのパラメータ。 freq値以上の特徴値のみが保持される。	1
反復	不可	最適化の最大反復回数。	100
l1Weight	不可	L1正則化のパラメーターの重み。	1.0
l2Weight	不可	L2正則化のパラメータの重み。	1.0
イプシロン	不可	収束偏差。このパラメータは、2回の反復における対数尤度値間の偏差である、限定メモリのブロイデンフレッチャーゴールドファーブシャンノ (L-BFGS) プロセスを終了するための要件を指定する。	0.0001
lbfgsStep	不可	L-BFGSアルゴリズムを使用して実行される最適化の履歴ステップサイズ。 L-BFGSアルゴリズムのみがこのパラメーターをサポートしています。	10
threadNum	不可	モデルトレーニングに使用される並列スレッドの数。	3
ライフサイクル	不可	出力テーブルのライフサイクル。	デフォルト値なし
coreNum	不可	コアの数。	システムによって決定される
memSizePerCore	不可	各コアのメモリサイズ。	システムによって決定される

例：

入力データ
文_id
ワード
f1
ラベル
1
ロックウェル
NNP
B-NP
1
国際
NNP
I-NP
1
株式会社
NNP
I-NP
1
の
POS
B-NP
...
...
...
...
823
オハイオ州
NNP
B-NP
823
育った
VBD
B-VP
823
3.8
CD
B-NP
823
%
NN
I-NP
823
.
.
O

予測アルゴリズムPAIコマンド

PAI -name=crf_predict    
    -project=algo_public    
    -DinputTableName=crf_test_input_table    
    -DmodelTableName=crf_model    
    -DidColName=sentence_id    
    -DfeatureColNames=word,f1    
    -DlabelColName=label    
    -DoutputTableName=crf_predict_result    
    -DdetailColName=prediction_detail   
    -Dlifecycle=28    
    -DcoreNum=10

パラメーター	必須	説明	デフォルト値
inputTableName	可	入力フィーチャを含むテーブル。	デフォルト値なし
inputTablePartitions	不可	入力フィーチャを含むテーブルから選択されたパーティション。	すべてのパーティション
featureColNames	不可	入力テーブルから選択されたフィーチャ列。	ラベル列を除くすべての列
labelColName	不可	選択する列。	デフォルト値なし
IdColName	可	サンプルラベルを含む列。	デフォルト値なし
resultColName	不可	出力テーブルの結果列。	prediction_result
scoreColName	不可	出力テーブルのスコア列。	prediction_score
detailColName	不可	出力テーブルの詳細列。	デフォルト値なし
outputTableName	可	出力予測結果テーブル。	デフォルト値なし
outputTablePartitions	不可	出力予測結果テーブルから選択されたパーティション。	すべてのパーティション
modelTableName	可	アルゴリズムモデルテーブル。	デフォルト値なし
modelTablePartitions	不可	アルゴリズムモデルテーブルから選択されたパーティション。	すべてのパーティション
ライフサイクル	不可	出力テーブルのライフサイクル。	デフォルト値なし
coreNum	不可	コアの数。	システムによって決定される
memSizePerCore	不可	各コアのメモリサイズ。	システムによって決定される

出力データ
文_id
ワード
f1
ラベル
1
自信
NN
B-NP
1
in
IN
B-PP
1
the
DT
B-NP
1
ポンド
NN
I-NP
...
...
...
...
77
持っている
VBP
B-VP
77
発表済み
VBN
I-VP
77
類似
JJ
B-NP
77
増加
NNS
I-NP
77
.
.
O
説明
ラベル列はオプションです。

文_id	ワード	f1	ラベル
1	ロックウェル	NNP	B-NP
1	国際	NNP	I-NP
1	株式会社	NNP	I-NP
1	の	POS	B-NP
...	...	...	...
823	オハイオ州	NNP	B-NP
823	育った	VBD	B-VP
823	3.8	CD	B-NP
823	%	NN	I-NP
823	.	.	O