本文为您介绍Designer提供的句子拆分算法组件。
将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。
组件配置
您可以使用以下任意一种方式,配置句子拆分组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 标识文章ID的列名 | 输入标识文章ID的列名 |
标示文章内容的列名 | 输入标示文章内容的列名 | |
句子的间隔字符集合 | 默认“。!?” | |
执行调优 | 核心数 | 默认自动分配 |
每个核心的内容 | 默认自动分配 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30
参数名称 | 是否必选 | 描述 | 默认值 |
inputTableName | 是 | 输入表名 | 无 |
inputTablePartitions | 否 | 输入表中指定参与计算的分区 | 输入表的所有分区 |
outputTableName | 是 | 输出表名 | 无 |
docIdCol | 是 | 标识文章ID的列名 | 无 |
docContent | 是 | 标识文章内容的列名,仅可指定一列。 | 无 |
delimiter | 否 | 句子的间隔字符集合 | “。!?” |
lifecycle | 否 | 输入出表的生命周期 | 无 |
coreNum | 否 | 参与计算的核心数 | 系统自动计算 |
memSizePerCore | 否 | 每个核心需要的内存 | 系统自动计算 |
示例
输出表为两列,分别是doc_id和sentence。
doc_id | sentence |
1000894 | 早在2008年,上交所便发布了上市公司社会责任披露相关指引,强制要求三类公司披露社会责任报告,同时鼓励其他有条件的上市公司进行自愿披露。 |
1000894 | 统计显示,2012年,沪市上市公司共计379家披露社会责任报告,包括强制披露公司305家和自愿披露公司74家,合计占沪市全部上市公司的40%。 |