全部產品
Search
文件中心

Platform For AI:文本摘要訓練

更新時間:Jul 13, 2024

文本摘要(Text Summarization)旨在從詳盡的常值內容中抽取關鍵資訊,製作成簡明的概要。通過文本摘要訓練組件,您可以訓練出專業的模型,來自動執行諸如文本摘要和新聞標題產生等文本產生任務。本文為您介紹文本摘要訓練組件的配置方法。

使用限制

僅支援DLC計算資源。

模型結構

文本(新聞標題)摘要訓練組件的模型結構採用標準的Transformer結構,包括Encoder和Decoder兩部分,分別表示對文本進行編碼和解碼。在具體訓練的過程中,模型的輸入為新聞原文,目標為新聞的標題。

使用說明

您可以在文本摘要訓練組件的上遊接入句子拆分組件,將文本拆分成一句一行的形式。

可視化配置組件參數

您可以在Designer中,通過可視化的方式配置組件參數。

  • 輸入樁

    輸入樁(從左至右)

    資料類型

    建議上遊組件

    是否必選

    訓練資料

    OSS

    讀OSS資料

    驗證資料

    OSS

    讀OSS資料

  • 組件參數

    頁簽

    參數

    描述

    欄位設定

    輸入資料格式

    輸入檔案的文本列。預設值為title_tokens:str:1,content_tokens:str:1

    原文列選擇

    原文在輸入表中對應的列名。預設值為content_tokens

    摘要列選擇

    摘要在輸入表中對應的列名。預設值為title_tokens

    模型儲存路徑

    配置OSS Bucket中的目錄,用來儲存文本摘要訓練產生的模型檔案。

    參數設定

    預訓練模型

    預訓練模型名稱,您可以在參數設定頁簽,選擇您需要的模型名稱。預設值為alibaba-pai/mt5-title-generation-zh

    批大小

    訓練過程中的批處理大小。INT類型,預設值為8。

    如果使用多機多卡,則表示每個GPU上的批處理大小。

    文本最大長度

    表示系統可處理的序列整體最大長度。INT類型,範圍為(1,512),預設值為512。

    訓練輪數

    訓練總Epoch的數量。INT類型,預設值為3。

    學習率

    模型構建過程中的學習率。FLOAT類型,預設值為3e~5。

    儲存模型檔案步數

    表示每訓練多少步,對模型進行評價,並儲存當前最優模型。預設值為150。

    語言

    支援的語言類型:

    • zh:中文。

    • en:英文。

    是否從原文中拷貝文本

    輸出結果是否從文本中拷貝文本片段:

    • false:(預設值),表示不拷貝。

    • true:表示拷貝。

    解碼器最小長度

    模型輸出長度大於該值,INT類型,預設值為12。

    解碼器最大長度

    模型輸出長度小於該值,INT類型,預設值為32。

    最小不重複欄位

    輸出結果中最小不重複欄位,INT類型,預設值為2。例如:該參數配置為1,則輸出結果中不會出現類似“天天”等內容。

    集束搜尋數量

    模型產生候選答案時的搜尋空間,INT類型,預設值為5。該值越大,預測越慢。

    返回候選答案數量

    模型返回的排名靠前的候選結果數量,INT類型,預設值為5。

    執行調優

    GPU機型類型

    計算資源的GPU機型,預設值為gn5-c8g1.2xlarge

  • 輸出樁

    輸出樁

    資料類型

    建議下遊組件

    是否必選

    輸出模型

    OSS路徑。該路徑是您在欄位設定頁簽的模型儲存路徑參數配置的OSS路徑,訓練產生的SavedModel格式的模型儲存在該路徑下。

    文本摘要預測

使用樣本

您可以使用文本摘要訓練組件構建如下工作流程。工作流程本樣本中,您需要按照以下流程配置組件並運行工作流程:

  1. 首先準備訓練資料集(cn_train.txt)和驗證資料集(cn_dev.txt),並上傳至OSS的Bucket。本樣本使用的資料集是通過定位字元分隔的TXT檔案。

    同時支援對CSV檔案的處理,您可以通過MaxCompute用戶端的Tunnel命令,將資料集上傳至MaxCompute。關於MaxCompute用戶端的安裝及配置,詳情請參見使用用戶端(odpscmd)串連;關於Tunnel命令的更多內容,詳情請參見Tunnel命令

  2. 使用讀OSS資料-1讀OSS資料-2組件分別讀取訓練資料集和驗證資料集。即配置讀OSS資料組件的OSS資料路徑參數為存放訓練資料集和驗證資料集的OSS路徑。

  3. 將訓練資料集和驗證資料集接入文本摘要訓練-1組件,並配置具體參數,詳情請參見上文的可視化配置組件參數

  4. 單擊image.png按鈕運行工作流程。當工作流程運行成功後,您可以在文本摘要訓練-1模型儲存路徑參數配置的OSS路徑下,查看輸出的文本摘要模型。

相關文檔