文本摘要组件采用自动文摘算法,基于TextRank模型,从原文献中提取关键句子来生成一段简洁且连贯的短文,即文本摘要。该摘要能准确全面地捕捉并反映出原文的中心思想。本文为您介绍文本摘要组件的配置方法。
使用限制
支持的计算引擎为MaxCompute。
使用说明
您可以在文本摘要组件的上游接入句子拆分组件,将文本拆分成一句一行的形式。
组件配置
您可以使用以下任意一种方式,配置文本摘要组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 标识文章ID的列名 | 输入标识文档ID的列名。 |
句子列 | 可指定一列。 | |
参数设置 | 输出前的关键句个数 | 默认是3。 |
句子相似度的计算方法 | 句子相似度计算方法:
| |
匹配字符串的权重 | 句子相似度的计算方法取值ssk时,该参数生效。默认为0.5。 | |
子串的长度 | 句子相似度的计算方法取值ssk/cosine时,该参数生效。默认为2。 | |
阻尼系数 | 默认为0.85。 | |
最大迭代次数 | 默认为100。 | |
收敛系数 | 默认为0.000001。 | |
执行调优 | 核心数 | 默认自动分配。 |
单个核心的内存 | 默认自动分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
参数名称 | 是否必选 | 描述 | 默认值 |
inputTableName | 是 | 输入表名。 | 无 |
inputTablePartitions | 否 | 输入表中指定参与计算的分区。 | 输入表所有分区 |
outputTableName | 是 | 输出表名。 | 无 |
docIdCol | 是 | 标识文章ID的列名。 | 无 |
sentenceCol | 是 | 句子列,仅可指定一列。 | 无 |
topN | 否 | 输出前几个关键句。 | 3 |
similarityType | 否 | 句子相似度计算方法:
| lcs_sim |
lambda | 否 | 匹配字符串的权重,ssk中可用。 | 0.5 |
k | 否 | 子串的长度,ssk和cosine中可用。 | 2 |
dampingFactor | 否 | 阻尼系数。 | 0.85 |
maxIter | 否 | 最大迭代次数。 | 100 |
epsilon | 否 | 收敛系数。 | 0.000001 |
lifecycle | 否 | 输入出表的生命周期。 | 无 |
coreNum | 否 | 参与计算的核心数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心需要的内存。 | 系统自动分配 |
示例
准备输入表test_input,表内容示例如下。
您可以使用MaxCompute客户端创建表,并使用Tunnel命令上传数据。关于MaxCompute客户端的安装及配置请参见使用本地客户端(odpscmd)连接,关于Tunnel命令使用详情请参见Tunnel命令。
doc_id
sentence
1000897
新冠肺炎疫情发生以来,滥食野生动物的突出问题。由此给公共卫生安全带来的巨大隐患,引发社会广泛关注。全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。执法部门在打击涉野生动物违法犯罪活动的过程中发现,野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题,成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。
其中:
doc_id:文章ID列。
sentence:句子列。
使用句子拆分组件,将sentence列的文本拆分成一句一行的形式,输出表名test_output,表内容如下表所示。具体操作,请参见句子拆分。
doc_id
sentence
1000897
新冠肺炎疫情发生以来,滥食野生动物的突出问题。
1000897
由此给公共卫生安全带来的巨大隐患,引发社会广泛关注。
1000897
全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。
1000897
执法部门在打击涉野生动物违法犯罪活动的过程中发现,野味消费群体庞大、盗猎利润惊人、鉴定难度大成本高等问题,成为盗猎野生动物黑色利益链条得以在地下运转的重要原因。
执行以下PAI命令,生成文本摘要。
您可以使用SQL脚本执行如下PAI命令,也可以使用ODPS SQL节点执行如下PAI命令。
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;
输出表为两列,分别是doc_id和abstract。
doc_id
abstract
1000897
新冠肺炎疫情发生以来,滥食野生动物的突出问题。 全国多地公安、林业以及市场监管部门开展相关专项行动,对非法猎捕、贩卖、食用野生动物进行全链条打击,效果显著。
相关文档
使用句子拆分组件对数据进行预处理,将一段文本拆分成一句一行的形式。具体操作,请参见句子拆分。
关于Designer更详细的内容介绍,请参见Designer概述。