本文为您介绍Designer提供的ngram-count算法组件。
ngram-count是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。其结果是全局的个数,而不是单个文档的个数。详情请参见ngram-count。
组件配置
您可以使用以下任意一种方式,配置ngram-count组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 输入表中句子所在的列 | 输入表中句子所在列字段。 |
词袋中词所在的列名 | 选择词袋中词所在的列名。 | |
输入的count结果表的words列 | 输入的count结果表的words列。 | |
输入的count结果表的count列 | 输入的count结果表的count列。 | |
句子的权重列 | 输入句子的权重列。 | |
参数设置 | N-grams的最大长度 | 设置N-grams的最大长度,默认为3。 |
执行调优 | 可选,核心个数 | 默认自动选择。 |
可选,单个核心使用的内存数 | 默认自动选择,单位为MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name ngram_count
-project algo_public
-DinputTableName=pai_ngram_input
-DoutputTableName=pai_ngram_output
-DinputSelectedColNames=col0
-DweightColName=weight
-DcoreNum=2
-DmemSizePerCore=1000;
参数名称 | 是否必选 | 默认值 | 描述 |
inputTableName | 是 | 无 | 输入表。 |
outputTableName | 是 | 无 | 输出表。 |
inputSelectedColNames | 否 | 第一个字符类型的列 | 输入表选择列。 |
weightColName | 否 | 1 | 权重列名。 |
inputTablePartitions | 否 | 选择全表 | 输入表指定分区。 |
countTableName | 否 | 无 | ngram-count以往的输出表,最终结果将合并这张表。 |
countWordColName | 否 | 选择第二列 | count表中词所在的列名。 |
countCountColName | 否 | 选择第三列 | count表中count所在的列。 |
countTablePartitions | 否 | 无 | count表指定分区。 |
vocabTableName | 否 | 无 | 词袋表,不在词袋中的词在结果中会被标识为\<unk\。 |
vocabSelectedColName | 否 | 选择第一个字符类型的列 | 词袋所在的列名。 |
vocabTablePartitions | 否 | 无 | 词袋表指定分区。 |
order | 否 | 3 | N-grams的最大长度。 |
lifecycle | 否 | 无 | 输出表的生命周期。 |
coreNum | 否 | 无 | 核心个数。 |
memSizePerCore | 否 | 无 | 单个核心使用的内存数。单位为MB。 |