您可以使用該組件對產生的機器閱讀理解訓練模型進行離線預測。本文為您介紹該組件的參數配置和使用樣本。
使用限制
支援啟動並執行計算資源為DLC。
可視化配置組件參數
輸入樁
輸入樁(從左至右)
限制資料類型
建議上遊組件
是否必選
輸入儲存的模型
OSS
是
預測資料輸入
OSS
是
組件參數
在Designer工作流程頁面配置組件參數。
頁簽
參數
描述
欄位設定
選擇語種
輸入檔案的語種,目前支援以下兩種語言的機器閱讀理解:
zh(預設值)
en
輸入資料格式
輸入檔案中每列的資料格式,多列之間使用半形逗號(,)分隔。預設值為qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。
問句列
問句在輸入檔案中對應的列名,預設值為question_text。
篇章列
篇章文本在資料檔案中對應的列名,預設值為context_text。
回複列
答案在輸入檔案中對應的列名,預設值為answer_text。
Id列
ID在輸入檔案中對應的列名,預設值為qas_id。
起始位置列
在輸入檔案中,答案在篇章文本中的起始位置對應的列名。預設值為start_position_character。
預測資料輸出
配置OSS Bucket中的目錄,用來儲存機器閱讀理解模型預測的回應檔案。
使用自訂模型
選擇是否使用自訂模型,取值如下:
否(預設值):對應上述方式一。
是:對應上述方式二。
模型儲存路徑
當使用自訂模型為是時,需要配置該參數。
配置OSS Bucket中的目錄,用來儲存自訂模型檔案。
參數設定
批次大小
訓練過程中的批處理大小。如果使用多機多卡,則表示每個GPU上的批處理大小。INT類型,預設值為256。
篇章最大長度
表示系統可處理的篇章最大長度,INT類型,預設值為384。
問句最大長度
表示系統可處理的問句最大長度,INT類型,預設值為64。
回複最大長度
表示系統可抽取的答案最大長度,INT類型,預設值為30。
滑動視窗大小
對篇章進行滑動視窗切分時,滑動視窗的大小。INT類型,預設值為128。
pretrainModelNameOrPath
系統提供的預訓練模型名稱或直接選取,取值如下:
使用者自訂
hfl/macbert-base-zh(預設值)
hfl/macbert-large-zh
bert-base-uncased
bert-large-uncased
模型額外參數
使用者自訂參數,您可以根據自己的資料對模型參數進行調整。
格式為:
{A: xxx, B: xxx}
,鍵和值之間使用半形冒號(:)分隔,多個參數之間使用半形逗號(,)分隔。執行調優
GPU機型類型
計算資源的GPU機型。預設值為gn5-c8g1.2xlarge,表示8核CPU、80 GB記憶體、P100單卡。
指定Worker的GPU卡數
每個Worker下的GPU卡數量,預設值為1。
使用樣本
您可以使用該組件構建如下工作流程。
本樣本中,您需要按照以下流程配置組件:
準備預測資料集,並上傳到OSS Bucket路徑。具體操作,請參見步驟三:上傳檔案。
資料集支援TSV或TXT格式的檔案,包含ID列、篇章列、問句列、答案列(非必須)、起始位置列(非必須)、標題列(非必須)。
本樣本以TSV檔案為例,來說明如何進行模型預測。
使用讀OSS資料-3組件讀取預測資料集。即配置讀OSS資料組件的OSS資料路徑參數為存放預測資料集的OSS路徑。
將預測資料集接入機器閱讀理解預測組件,並配置具體參數,詳情請參見上文的組件參數。
相關文檔
機器閱讀理解預測組件需要和機器閱讀理解訓練組件配合使用。關於機器閱讀理解訓練組件的使用方法,請參見機器閱讀理解訓練。
關於Designer組件更詳細的內容介紹,請參見Designer概述。
Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總。