Doc2Vec算法将文档ID视为一个词来进行训练,其中句向量表示与该文档ID相对应的向量,词向量是在文档ID充当上下文时训练得到的向量。您可以通过Doc2Vec算法组件将文章映射为向量,输入为词汇表,输出为文档向量表、词向量表或词汇表。本文为您介绍Doc2Vec算法组件的配置方法。
使用限制
支持的计算引擎为MaxCompute。
组件配置
您可以使用以下任意一种方式,配置Doc2Vec组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 文档ID列名 | 用来进行训练的文档列名。 |
文档内容 | 用来进行训练的词汇,以空格分隔。 | |
参数设置 | 单词的特征维度 | 单词的特征维度数量。取值范围为0~1000,默认值为100。 |
语言模型 | 训练使用的语言模型。取值范围为
| |
单词窗口大小 | 单词的窗口大小。取值范围为正整数,默认值为5。 | |
截断的最小词频 | 取值范围为正整数,默认值为5。 | |
Hierarchical Softmax | 是否采用HIERARCHICAL SOFTMAX。默认采用。 | |
Negative Sampling | 负采样的窗口大小。取值范围为正整数,默认值为5,0表示不可用。 | |
向下采样阈值 | 向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。 | |
开始学习速率 | 取值大于0,默认值为0.025。 | |
训练的迭代次数 | 取值大于等于1,默认值为1。 | |
Window是否随机 | 指定单词窗口的展示方式。取值范围为大小在1~5间随机和不随机,其值由window参数指定,默认值为不随机,其值由window参数指定。 | |
执行调优 | 计算的核心数 | 默认为系统自动分配。 |
每个核心的内存(MB) | 默认为系统自动分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name pai_doc2vec
-project algo_public
-DinputTableName="d2v_input"
-DdocIdColName="docid"
-DdocColName="text_seg"
-DoutputWordTableName="d2v_word_output"
-DoutputDocTableName="d2v_doc_output";
参数名称 | 是否必选 | 描述 | 默认值 |
inputTableName | 是 | 输入词汇表的名称。 | 无 |
inputTablePartitions | 否 | 输入词汇表中参与分词的分区名称。格式为 | 无 |
docIdColName | 是 | 用来进行训练的文档列名。 | 无 |
docColName | 是 | 用来进行训练的词汇,以空格分隔。 | 无 |
layerSize | 否 | 单词的特征维度数量。取值范围为0~1000。 | 100 |
cbow | 否 | 训练使用的语言模型。取值范围为0(skip-gram模型)和1(cbow模型)。 | 0 |
window | 否 | 单词的窗口大小。取值范围为正整数。 | 5 |
minCount | 否 | 截断的最小词频。取值范围为正整数。 | 5 |
hs | 否 | 是否采用HIERARCHICAL SOFTMAX。取值范围为0(不采用)和1(采用)。 | 1 |
negative | 否 | 负采样的窗口大小。取值范围为正整数,0表示不可用。 | 5 |
sample | 否 | 向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。 | 1e-3 |
alpha | 否 | 取值大于0。 | 0.025 |
iterTrain | 否 | 取值大于等于1。 | 1 |
randomWindow | 否 | 指定单词窗口的展示方式。取值范围为0(不随机,其值由window参数指定)和1(大小在1~5间随机)。 | 1 |
outVocabularyTableName | 否 | 输出词汇表名称。 | 无 |
outputWordTableName | 是 | 输出词向量表名称。 | 无 |
outputDocTableName | 是 | 输出文档向量表名称。 | 无 |
lifecycle | 否 | 输出表的生命周期。取值范围为正整数。 | 无 |
coreNum | 否 | 核心数,需要与memSizePerCore参数同时设置才生效。取值范围为正整数。 | 系统自动分配 |
memSizePerCore | 否 | 内存数,需要与coreNum参数同时设置才生效。取值范围为正整数。 | 系统自动分配 |
相关文档
关于Designer更详细的内容介绍,请参见Designer概述。