您可以使用該組件訓練機器閱讀理解模型,針對給定的文檔及問題,進行快速理解與問答,實現基於文檔的智能問答。本文為您介紹該組件的參數配置與使用樣本。
使用限制
支援啟動並執行計算資源為DLC。
可視化配置組件參數
輸入樁
輸入樁(從左至右)
限制資料類型
建議上遊組件
是否必選
訓練資料輸入
OSS
是
驗證資料輸入
OSS
是
組件參數
頁簽
參數
描述
欄位設定
選擇語種
輸入檔案的語種,目前支援以下兩種語言的機器閱讀理解:
zh(預設值)
en
輸入資料格式
輸入檔案中每列的資料格式,多列之間使用半形逗號(,)分隔。預設值為:qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。
問句列
問句在輸入檔案中對應的列名,預設值為question_text。
篇章列
篇章文本在輸入檔案中對應的列名,預設值為context_text。
回複列
答案在輸入檔案中對應的列名,預設值為answer_text。
ID列
ID在輸入檔案中對應的列名,預設值為qas_id。
起始位置列
在輸入檔案中,答案在篇章文本中的起始位置對應的列名。預設值為start_position_character。
模型儲存路徑
配置OSS Bucket中的目錄,用來儲存機器閱讀理解模型訓練或微調後產生的模型檔案。
參數設定
批次大小
訓練過程中的批處理大小,INT類型,預設值為4。如果使用多機多卡,則表示每個GPU上的批處理大小。
篇章最大長度
表示系統可處理的篇章最大長度,INT類型,預設值為384。
問句最大長度
表示系統可處理的問句最大長度,INT類型,預設值為64。
滑動視窗大小
對篇章進行滑動視窗切分時,滑動視窗的大小。INT類型,預設值為128。
迭代輪數
訓練總Epoch的數量,INT類型,預設值為3。
學習率
模型構建過程中的學習率,FLOAT類型,預設值為3.5e-5。
儲存Checkpoint步數
表示每訓練多少步,對模型進行評價,並儲存當前最優模型。INT類型,預設值為600。
模型選擇
系統提供的預訓練模型名稱直接選取,取值如下:
自訂
hfl/macbert-base-zh(預設值)
hfl/macbert-large-zh
bert-base-uncased
bert-large-uncased
自訂模型路徑
當模型選擇參數選擇自訂時,支援配置該參數。
如果您想採用自訂的預訓練或微調好的模型時,可以在這裡聲明。格式為:
{A: xxx, B: xxx}
,鍵和值之間使用半形冒號(:)分隔,多個參數之間使用半形逗號(,)分隔。執行調優
GPU機器類型
計算資源的GPU機型。預設值為gn5-c8g1.2xlarge,表示8核CPU、80 GB記憶體、P100單卡。
指定Worker的GPU卡數
每個Worker下的GPU卡數量。預設值為1。
輸出樁
輸出樁(從左至右)
資料類型
下遊組件
模型儲存路徑
OSS路徑。該路徑是您在欄位設定頁簽的模型儲存路徑參數配置的OSS路徑。訓練產生的模型儲存在該路徑下。
使用樣本
您可以使用該組件構建如下工作流程。
本樣本中,您需要按照以下流程配置組件:
準備訓練資料集和驗證資料集,並上傳到OSS Bucket路徑。具體操作,請參見步驟三:上傳檔案。
資料集支援TSV或TXT格式的檔案,包含以下列:
訓練資料集
ID列、篇章列、問句列、答案列、起始位置列、標題列(非必須)。
驗證資料集
ID列、篇章列、問句列、答案列(非必須)、起始位置列(非必須)、標題列(非必須)。
本樣本以TSV檔案為例,來說明如何進行模型訓練。
使用讀OSS資料-1、讀OSS資料-2組件分別讀取訓練資料集和驗證資料集。即配置讀OSS資料組件的OSS資料路徑參數為存放訓練資料集和驗證資料集的OSS路徑。
將訓練資料集和驗證資料集接入機器閱讀理解訓練組件,並配置具體參數,詳情請參見上文的組件參數。
相關文檔
您可以在機器閱讀理解訓練組件的下遊接入機器閱讀理解預測組件,對產生的模型進行離線預測。詳情請參見機器閱讀理解預測。
關於Designer組件更詳細的內容介紹,請參見Designer概述。
Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總。