全部產品
Search
文件中心

Platform For AI:機器閱讀理解預測

更新時間:Jul 13, 2024

您可以使用該組件對產生的機器閱讀理解訓練模型進行離線預測。本文為您介紹該組件的參數配置和使用樣本。

使用限制

支援啟動並執行計算資源為DLC。

可視化配置組件參數

  • 輸入樁

    輸入樁(從左至右)

    限制資料類型

    建議上遊組件

    是否必選

    輸入儲存的模型

    OSS

    機器閱讀理解訓練

    預測資料輸入

    OSS

    讀OSS資料

  • 組件參數

    Designer工作流程頁面配置組件參數。

    頁簽

    參數

    描述

    欄位設定

    選擇語種

    輸入檔案的語種,目前支援以下兩種語言的機器閱讀理解:

    • zh(預設值)

    • en

    輸入資料格式

    輸入檔案中每列的資料格式,多列之間使用半形逗號(,)分隔。預設值為qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。

    問句列

    問句在輸入檔案中對應的列名,預設值為question_text。

    篇章列

    篇章文本在資料檔案中對應的列名,預設值為context_text。

    回複列

    答案在輸入檔案中對應的列名,預設值為answer_text。

    Id列

    ID在輸入檔案中對應的列名,預設值為qas_id。

    起始位置列

    在輸入檔案中,答案在篇章文本中的起始位置對應的列名。預設值為start_position_character。

    預測資料輸出

    配置OSS Bucket中的目錄,用來儲存機器閱讀理解模型預測的回應檔案。

    使用自訂模型

    選擇是否使用自訂模型,取值如下:

    • (預設值):對應上述方式一。

    • :對應上述方式二。

    模型儲存路徑

    使用自訂模型時,需要配置該參數。

    配置OSS Bucket中的目錄,用來儲存自訂模型檔案。

    參數設定

    批次大小

    訓練過程中的批處理大小。如果使用多機多卡,則表示每個GPU上的批處理大小。INT類型,預設值為256。

    篇章最大長度

    表示系統可處理的篇章最大長度,INT類型,預設值為384。

    問句最大長度

    表示系統可處理的問句最大長度,INT類型,預設值為64。

    回複最大長度

    表示系統可抽取的答案最大長度,INT類型,預設值為30。

    滑動視窗大小

    對篇章進行滑動視窗切分時,滑動視窗的大小。INT類型,預設值為128。

    pretrainModelNameOrPath

    系統提供的預訓練模型名稱或直接選取,取值如下:

    • 使用者自訂

    • hfl/macbert-base-zh(預設值)

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    模型額外參數

    使用者自訂參數,您可以根據自己的資料對模型參數進行調整。

    格式為:{A: xxx, B: xxx} ,鍵和值之間使用半形冒號(:)分隔,多個參數之間使用半形逗號(,)分隔。

    執行調優

    GPU機型類型

    計算資源的GPU機型。預設值為gn5-c8g1.2xlarge,表示8核CPU、80 GB記憶體、P100單卡。

    指定Worker的GPU卡數

    每個Worker下的GPU卡數量,預設值為1。

使用樣本

您可以使用該組件構建如下工作流程。image

本樣本中,您需要按照以下流程配置組件:

  1. 準備預測資料集,並上傳到OSS Bucket路徑。具體操作,請參見步驟三:上傳檔案

    資料集支援TSV或TXT格式的檔案,包含ID列、篇章列、問句列、答案列(非必須)、起始位置列(非必須)、標題列(非必須)。

    本樣本以TSV檔案為例,來說明如何進行模型預測。

  2. 使用讀OSS資料-3組件讀取預測資料集。即配置讀OSS資料組件的OSS資料路徑參數為存放預測資料集的OSS路徑。

  3. 將預測資料集接入機器閱讀理解預測組件,並配置具體參數,詳情請參見上文的組件參數

相關文檔

  • 機器閱讀理解預測組件需要和機器閱讀理解訓練組件配合使用。關於機器閱讀理解訓練組件的使用方法,請參見機器閱讀理解訓練

  • 關於Designer組件更詳細的內容介紹,請參見Designer概述

  • Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總