全部產品
Search
文件中心

Platform For AI:文本摘要

更新時間:Jul 13, 2024

文本摘要組件採用自動文摘演算法,基於TextRank模型,從原文獻中提取關鍵句子來產生一段簡潔且連貫的短文,即文本摘要。該摘要能準確全面地捕捉並反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。

使用限制

支援的計算引擎為MaxCompute。

使用說明

您可以在文本摘要組件的上遊接入句子拆分組件,將文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式,配置文本摘要組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

標識文章ID的列名

輸入標識文檔ID的列名。

句子列

可指定一列。

參數設定

輸出前的關鍵句個數

預設是3。

句子相似性的計算方法

句子相似性計算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

匹配字串的權重

句子相似性的計算方法取值ssk時,該參數生效。預設為0.5。

子串的長度

句子相似性的計算方法取值ssk/cosine時,該參數生效。預設為2。

阻尼係數

預設為0.85。

最大迭代次數

預設為100。

收斂係數

預設為0.000001。

執行調優

核心數

預設自動分配。

單個核心的記憶體

預設自動分配。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

參數名稱

是否必選

描述

預設值

inputTableName

輸入表名。

inputTablePartitions

輸入表中指定參與計算的分區。

輸入表所有分區

outputTableName

輸出表名。

docIdCol

標識文章ID的列名。

sentenceCol

句子列,僅可指定一列。

topN

輸出前幾個關鍵句。

3

similarityType

句子相似性計算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

lcs_sim

lambda

匹配字串的權重,ssk中可用。

0.5

k

子串的長度,sskcosine中可用。

2

dampingFactor

阻尼係數。

0.85

maxIter

最大迭代次數。

100

epsilon

收斂係數。

0.000001

lifecycle

輸入出表的生命週期。

coreNum

參與計算的核心數。

系統自動分配

memSizePerCore

每個核心需要的記憶體。

系統自動分配

樣本

  1. 準備輸入表test_input,表內容樣本如下。

    您可以使用MaxCompute用戶端建立表,並使用Tunnel命令上傳資料。關於MaxCompute用戶端的安裝及配置請參見使用本地用戶端(odpscmd)串連,關於Tunnel命令使用詳情請參見Tunnel命令

    doc_id

    sentence

    1000897

    新冠肺炎疫情發生以來,濫食野生動物的突出問題。由此給公用衛生安全帶來的巨大隱患,引發社會廣泛關注。全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、評鑑難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。

    其中:

    • doc_id:文章ID列。

    • sentence:句子列。

  2. 使用句子拆分組件,將sentence列的文本拆分成一句一行的形式,輸出表名test_output,表內容如下表所示。具體操作,請參見句子拆分

    doc_id

    sentence

    1000897

    新冠肺炎疫情發生以來,濫食野生動物的突出問題。

    1000897

    由此給公用衛生安全帶來的巨大隱患,引發社會廣泛關注。

    1000897

    全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。

    1000897

    執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、評鑑難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。

  3. 執行以下PAI命令,產生文本摘要。

    您可以使用SQL指令碼執行如下PAI命令,也可以使用ODPS SQL節點執行如下PAI命令。

    PAI -name TextSummarization
        -project algo_public
        -DinputTableName="test_output"
        -DoutputTableName="test_output1"
        -DdocIdCol="doc_id"
        -DsentenceCol="sentence"
        -DtopN=2
        -Dlifecycle=30;

    輸出表為兩列,分別是doc_idabstract

    doc_id

    abstract

    1000897

    新冠肺炎疫情發生以來,濫食野生動物的突出問題。 全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。

相關文檔

  • 使用句子拆分組件對資料進行預先處理,將一段文本拆分成一句一行的形式。具體操作,請參見句子拆分

  • 關於Designer更詳細的內容介紹,請參見Designer概述