條件隨機場預測是基於linearCRF線上預測模型的演算法組件,主要應用於處理序列標註問題。本文為您介紹條件隨機場預測演算法組件的參數配置和使用樣本。
參數配置
Designer支援通過可視化方式配置組件參數。
參數 | 描述 |
請選擇ID列 | 樣本以N元組的形式儲存,ID列為一條樣本的唯一ID。 |
請選擇特徵列 | 要進行標註的單詞,以及該單詞對應的特徵。 |
請選擇目標列 | 選擇目標列。 |
預測結果列列名 | 預測結果列的名稱,預設值為prediction_result。 |
預測分數列列名 | 預測分數列的名稱,預設值為prediction_score。 |
預測詳細列列名 | 預測詳細列的名稱。如果不需要詳細列,可以置空。 |
使用樣本
在LinearCRF的線上預測階段,必須使用Model IO形式的訓練模型,訓練資料表的格式如下所示。
sentence_id | word | f1 | f2 | label |
1 | Rockwell | NNP | POS | B-NP |
1 | International | NNP | NP | I-NP |
1 | Corp | NNP | PO | I-NP |
1 | 's | POS | NN | B-NP |
... | ... | ... | ... | ... |
輸入格式中特徵的名字word、f1和f2與訓練資料表中特徵的列名相同。在一個線上預測輸入請求中,不同單詞的特徵使用空格分隔。LinearCRF線上預測模型的輸入格式如下所示。
{
"inputs":[
{
"word":{
"dataType": 50,
"dataValue":"Rockwell International Corp 's ..."
},
"f1": {
"dataType": 50,
"dataValue":"NNP NNP NNP POS ..."
},
"f2": {
"dataType": 50,
"dataValue":"POS NP PO NN ..."
}
}]
}
輸出格式會在outputValue中以JSON格式輸出一個與輸入請求中所有單詞對應的prediction_result,prediction_score和prediction_detail。LinearCRF線上預測模型的輸出格式如下所示。
{
"outputs": [
{
"outputLabel": "CRFProcessor_Result",
"outputValue": {
"dataType": 50,
"dataValue": {
"Rockwell NNP POS": {
"prediction_result":"B-NP",
"prediction_score":0.99,
"prediction_detail":{"B-ADJP":0.000145, "B-NP":0.99, ...}
},
"International NNP NP": ...
}
}
}
]
}
如果您的輸入格式有錯誤,程式會給出提示資訊,具體如下所示。
{
"outputs": [
{
"outputLabel": "CRFProcessor_Result",
"outputValue": {
"dataType":50,
"dataValue": "Failed: The input format is incorrect"
}
}
]
}