すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:条件付きランダムフィールド

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する条件付きランダムフィールドコンポーネントについて説明します。

条件付き確率体 (CRF) は、入力確率変数群に基づく出力確率変数群の条件付き確率分布モデルである。 このモデルは、出力確率変数がマルコフ確率場 (MRF) を構成すると仮定する。 CRFは、異なる予測シナリオで使用することができる。 特に注釈シナリオでは、線形鎖CRFが主に使用されます。 詳細については、「Wikipedia」をご参照ください。

コンポーネントの設定

次のいずれかの方法を使用して、条件付きランダムフィールドコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

条件付きランダムフィールドコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

ID列

各サンプルのIDを含む列。 サンプルはn − タプルに保存される。

フィーチャー列

注釈を付ける単語と、その単語に特徴がある場合はその特徴。

ターゲット列

選択する列。

パラメーター設定

機能生成テンプレート

デフォルト値:

[-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],
[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],
[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],
[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],
[0:1]/[1:1]/[2:1]

.

まれに使用されるワードフィルタリングしきい値

デフォルト値は 1 です。

L1正則化係数

デフォルト値は 1 です。

L2正則化係数

デフォルト値:0

最大イテレーション

デフォルト値:100

収束しきい値

デフォルト値: 0.00001

チューニング

コア

コアの数。 デフォルトでは、システムは値を決定します。

コアあたりのメモリサイズ

各コアのメモリサイズ。 デフォルトでは、システムは値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name=linearcrf    
    -project=algo_public    
    -DinputTableName=crf_input_table    
    -DidColName=sentence_id    
    -DfeatureColNames=word,f1    
    -DlabelColName=label    
    -DoutputTableName=crf_model    
    -Dlifecycle=28    
    -DcoreNum=10

パラメーター

必須

説明

デフォルト値

inputTableName

入力フィーチャを含むテーブル。

デフォルト値なし

inputTablePartitions

不可

入力フィーチャを含むテーブルから選択されたパーティション。

すべてのパーティション

featureColNames

不可

入力テーブルから選択されたフィーチャ列。

ラベル列を除くすべての列

labelColName

選択する列。

デフォルト値なし

idColName

サンプルラベルを含む列。

デフォルト値なし

outputTableName

出力モデルを含むテーブル。

デフォルト値なし

outputTablePartitions

不可

出力モデルテーブルから選択されたパーティション。

すべてのパーティション

テンプレート

不可

フィーチャの生成に使用されるテンプレート。

  • 定義

    <template .=. <template_item,<template_item,...,<template_item
    <template_item .=. [row_offset:col_index]/[row_offset:col_index]/.../[row_offset:col_index]
    row_offset .=. integer
    col_index .=. integer>
  • デフォルト値

    [-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],[0:1]/[1:1]/[2:1]

freq

不可

フィーチャをフィルタリングするためのパラメータ。 freq値以上の特徴値のみが保持される。

1

反復

不可

最適化の最大反復回数。

100

l1Weight

不可

L1正則化のパラメーターの重み。

1.0

l2Weight

不可

L2正則化のパラメータの重み。

1.0

イプシロン

不可

収束偏差。 このパラメータは、2回の反復における対数尤度値間の偏差である、限定メモリのブロイデンフレッチャーゴールドファーブシャンノ (L-BFGS) プロセスを終了するための要件を指定する。

0.0001

lbfgsStep

不可

L-BFGSアルゴリズムを使用して実行される最適化の履歴ステップサイズ。 L-BFGSアルゴリズムのみがこのパラメーターをサポートしています。

10

threadNum

不可

モデルトレーニングに使用される並列スレッドの数。

3

ライフサイクル

不可

出力テーブルのライフサイクル。

デフォルト値なし

coreNum

不可

コアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。

システムによって決定される

例:

  • 入力データ

    文_id

    ワード

    f1

    ラベル

    1

    ロックウェル

    NNP

    B-NP

    1

    国際

    NNP

    I-NP

    1

    株式会社

    NNP

    I-NP

    1

    POS

    B-NP

    ...

    ...

    ...

    ...

    823

    オハイオ州

    NNP

    B-NP

    823

    育った

    VBD

    B-VP

    823

    3.8

    CD

    B-NP

    823

    %

    NN

    I-NP

    823

    .

    .

    O

  • 予測アルゴリズムPAIコマンド

    PAI -name=crf_predict    
        -project=algo_public    
        -DinputTableName=crf_test_input_table    
        -DmodelTableName=crf_model    
        -DidColName=sentence_id    
        -DfeatureColNames=word,f1    
        -DlabelColName=label    
        -DoutputTableName=crf_predict_result    
        -DdetailColName=prediction_detail   
        -Dlifecycle=28    
        -DcoreNum=10

    パラメーター

    必須

    説明

    デフォルト値

    inputTableName

    入力フィーチャを含むテーブル。

    デフォルト値なし

    inputTablePartitions

    不可

    入力フィーチャを含むテーブルから選択されたパーティション。

    すべてのパーティション

    featureColNames

    不可

    入力テーブルから選択されたフィーチャ列。

    ラベル列を除くすべての列

    labelColName

    不可

    選択する列。

    デフォルト値なし

    IdColName

    サンプルラベルを含む列。

    デフォルト値なし

    resultColName

    不可

    出力テーブルの結果列。

    prediction_result

    scoreColName

    不可

    出力テーブルのスコア列。

    prediction_score

    detailColName

    不可

    出力テーブルの詳細列。

    デフォルト値なし

    outputTableName

    出力予測結果テーブル。

    デフォルト値なし

    outputTablePartitions

    不可

    出力予測結果テーブルから選択されたパーティション。

    すべてのパーティション

    modelTableName

    アルゴリズムモデルテーブル。

    デフォルト値なし

    modelTablePartitions

    不可

    アルゴリズムモデルテーブルから選択されたパーティション。

    すべてのパーティション

    ライフサイクル

    不可

    出力テーブルのライフサイクル。

    デフォルト値なし

    coreNum

    不可

    コアの数。

    システムによって決定される

    memSizePerCore

    不可

    各コアのメモリサイズ。

    システムによって決定される

  • 出力データ

    文_id

    ワード

    f1

    ラベル

    1

    自信

    NN

    B-NP

    1

    in

    IN

    B-PP

    1

    the

    DT

    B-NP

    1

    ポンド

    NN

    I-NP

    ...

    ...

    ...

    ...

    77

    持っている

    VBP

    B-VP

    77

    発表済み

    VBN

    I-VP

    77

    類似

    JJ

    B-NP

    77

    増加

    NNS

    I-NP

    77

    .

    .

    O

    説明

    ラベル列はオプションです。