文本摘要組件採用自動文摘演算法,基於TextRank模型,從原文獻中提取關鍵句子來產生一段簡潔且連貫的短文,即文本摘要。該摘要能準確全面地捕捉並反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。
使用限制
支援的計算引擎為MaxCompute。
使用說明
您可以在文本摘要組件的上遊接入句子拆分組件,將文本拆分成一句一行的形式。
組件配置
您可以使用以下任意一種方式,配置文本摘要組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 標識文章ID的列名 | 輸入標識文檔ID的列名。 |
句子列 | 可指定一列。 | |
參數設定 | 輸出前的關鍵句個數 | 預設是3。 |
句子相似性的計算方法 | 句子相似性計算方法:
| |
匹配字串的權重 | 句子相似性的計算方法取值ssk時,該參數生效。預設為0.5。 | |
子串的長度 | 句子相似性的計算方法取值ssk/cosine時,該參數生效。預設為2。 | |
阻尼係數 | 預設為0.85。 | |
最大迭代次數 | 預設為100。 | |
收斂係數 | 預設為0.000001。 | |
執行調優 | 核心數 | 預設自動分配。 |
單個核心的記憶體 | 預設自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表名。 | 無 |
inputTablePartitions | 否 | 輸入表中指定參與計算的分區。 | 輸入表所有分區 |
outputTableName | 是 | 輸出表名。 | 無 |
docIdCol | 是 | 標識文章ID的列名。 | 無 |
sentenceCol | 是 | 句子列,僅可指定一列。 | 無 |
topN | 否 | 輸出前幾個關鍵句。 | 3 |
similarityType | 否 | 句子相似性計算方法:
| lcs_sim |
lambda | 否 | 匹配字串的權重,ssk中可用。 | 0.5 |
k | 否 | 子串的長度,ssk和cosine中可用。 | 2 |
dampingFactor | 否 | 阻尼係數。 | 0.85 |
maxIter | 否 | 最大迭代次數。 | 100 |
epsilon | 否 | 收斂係數。 | 0.000001 |
lifecycle | 否 | 輸入出表的生命週期。 | 無 |
coreNum | 否 | 參與計算的核心數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心需要的記憶體。 | 系統自動分配 |
樣本
準備輸入表test_input,表內容樣本如下。
您可以使用MaxCompute用戶端建立表,並使用Tunnel命令上傳資料。關於MaxCompute用戶端的安裝及配置請參見使用本地用戶端(odpscmd)串連,關於Tunnel命令使用詳情請參見Tunnel命令。
doc_id
sentence
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。由此給公用衛生安全帶來的巨大隱患,引發社會廣泛關注。全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、評鑑難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。
其中:
doc_id:文章ID列。
sentence:句子列。
使用句子拆分組件,將sentence列的文本拆分成一句一行的形式,輸出表名test_output,表內容如下表所示。具體操作,請參見句子拆分。
doc_id
sentence
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。
1000897
由此給公用衛生安全帶來的巨大隱患,引發社會廣泛關注。
1000897
全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。
1000897
執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、評鑑難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。
執行以下PAI命令,產生文本摘要。
您可以使用SQL指令碼執行如下PAI命令,也可以使用ODPS SQL節點執行如下PAI命令。
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;
輸出表為兩列,分別是doc_id和abstract。
doc_id
abstract
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。 全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。
相關文檔
使用句子拆分組件對資料進行預先處理,將一段文本拆分成一句一行的形式。具體操作,請參見句子拆分。
關於Designer更詳細的內容介紹,請參見Designer概述。