文本摘要(Text Summarization)旨在從詳盡的常值內容中抽取關鍵資訊,製作成簡明的概要。通過文本摘要訓練組件,您可以訓練出專業的模型,來自動執行諸如文本摘要和新聞標題產生等文本產生任務。本文為您介紹文本摘要訓練組件的配置方法。
使用限制
僅支援DLC計算資源。
模型結構
文本(新聞標題)摘要訓練組件的模型結構採用標準的Transformer結構,包括Encoder和Decoder兩部分,分別表示對文本進行編碼和解碼。在具體訓練的過程中,模型的輸入為新聞原文,目標為新聞的標題。
使用說明
您可以在文本摘要訓練組件的上遊接入句子拆分組件,將文本拆分成一句一行的形式。
可視化配置組件參數
您可以在Designer中,通過可視化的方式配置組件參數。
輸入樁
輸入樁(從左至右)
資料類型
建議上遊組件
是否必選
訓練資料
OSS
是
驗證資料
OSS
是
組件參數
頁簽
參數
描述
欄位設定
輸入資料格式
輸入檔案的文本列。預設值為title_tokens:str:1,content_tokens:str:1。
原文列選擇
原文在輸入表中對應的列名。預設值為content_tokens。
摘要列選擇
摘要在輸入表中對應的列名。預設值為title_tokens。
模型儲存路徑
配置OSS Bucket中的目錄,用來儲存文本摘要訓練產生的模型檔案。
參數設定
預訓練模型
預訓練模型名稱,您可以在參數設定頁簽,選擇您需要的模型名稱。預設值為alibaba-pai/mt5-title-generation-zh。
批大小
訓練過程中的批處理大小。INT類型,預設值為8。
如果使用多機多卡,則表示每個GPU上的批處理大小。
文本最大長度
表示系統可處理的序列整體最大長度。INT類型,範圍為(1,512),預設值為512。
訓練輪數
訓練總Epoch的數量。INT類型,預設值為3。
學習率
模型構建過程中的學習率。FLOAT類型,預設值為3e~5。
儲存模型檔案步數
表示每訓練多少步,對模型進行評價,並儲存當前最優模型。預設值為150。
語言
支援的語言類型:
zh:中文。
en:英文。
是否從原文中拷貝文本
輸出結果是否從文本中拷貝文本片段:
false:(預設值),表示不拷貝。
true:表示拷貝。
解碼器最小長度
模型輸出長度大於該值,INT類型,預設值為12。
解碼器最大長度
模型輸出長度小於該值,INT類型,預設值為32。
最小不重複欄位
輸出結果中最小不重複欄位,INT類型,預設值為2。例如:該參數配置為1,則輸出結果中不會出現類似“天天”等內容。
集束搜尋數量
模型產生候選答案時的搜尋空間,INT類型,預設值為5。該值越大,預測越慢。
返回候選答案數量
模型返回的排名靠前的候選結果數量,INT類型,預設值為5。
執行調優
GPU機型類型
計算資源的GPU機型,預設值為gn5-c8g1.2xlarge。
輸出樁
輸出樁
資料類型
建議下遊組件
是否必選
輸出模型
OSS路徑。該路徑是您在欄位設定頁簽的模型儲存路徑參數配置的OSS路徑,訓練產生的SavedModel格式的模型儲存在該路徑下。
否
使用樣本
您可以使用文本摘要訓練組件構建如下工作流程。本樣本中,您需要按照以下流程配置組件並運行工作流程:
首先準備訓練資料集(cn_train.txt)和驗證資料集(cn_dev.txt),並上傳至OSS的Bucket。本樣本使用的資料集是通過定位字元分隔的TXT檔案。
同時支援對CSV檔案的處理,您可以通過MaxCompute用戶端的Tunnel命令,將資料集上傳至MaxCompute。關於MaxCompute用戶端的安裝及配置,詳情請參見使用用戶端(odpscmd)串連;關於Tunnel命令的更多內容,詳情請參見Tunnel命令。
使用讀OSS資料-1和讀OSS資料-2組件分別讀取訓練資料集和驗證資料集。即配置讀OSS資料組件的OSS資料路徑參數為存放訓練資料集和驗證資料集的OSS路徑。
將訓練資料集和驗證資料集接入文本摘要訓練-1組件,並配置具體參數,詳情請參見上文的可視化配置組件參數。
單擊按鈕運行工作流程。當工作流程運行成功後,您可以在文本摘要訓練-1的模型儲存路徑參數配置的OSS路徑下,查看輸出的文本摘要模型。
相關文檔
關於文本摘要預測組件的配置詳情,請參見文本摘要預測。