Doc2Vec演算法將文檔ID視為一個詞來進行訓練,其中句向量表示與該文檔ID相對應的向量,詞向量是在文檔ID充當上下文時訓練得到的向量。您可以通過Doc2Vec演算法組件將文章映射為向量,輸入為詞彙表,輸出為文檔向量表、詞向量表或詞彙表。本文為您介紹Doc2Vec演算法組件的配置方法。
使用限制
支援的計算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置Doc2Vec組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 文檔ID列名 | 用來進行訓練的文檔列名。 |
文檔內容 | 用來進行訓練的詞彙,以空格分隔。 | |
參數設定 | 單詞的特徵維度 | 單詞的特徵維度數量。取值範圍為0~1000,預設值為100。 |
語言模型 | 訓練使用的語言模型。取值範圍為
| |
單詞視窗大小 | 單詞的視窗大小。取值範圍為正整數,預設值為5。 | |
截斷的最小詞頻 | 取值範圍為正整數,預設值為5。 | |
Hierarchical Softmax | 是否採用HIERARCHICAL SOFTMAX。預設採用。 | |
Negative Sampling | 負採樣的視窗大小。取值範圍為正整數,預設值為5,0表示不可用。 | |
向下採樣閾值 | 向下採樣的閾值。取值範圍為1e-3~1e-5,預設值為1e-3,0表示不可用。 | |
開始學習速率 | 取值大於0,預設值為0.025。 | |
訓練的迭代次數 | 取值大於等於1,預設值為1。 | |
Window是否隨機 | 指定單詞視窗的展示方式。取值範圍為大小在1~5間隨機和不隨機,其值由window參數指定,預設值為不隨機,其值由window參數指定。 | |
執行調優 | 計算的核心數 | 預設為系統自動分配。 |
每個核心的記憶體(MB) | 預設為系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name pai_doc2vec
-project algo_public
-DinputTableName="d2v_input"
-DdocIdColName="docid"
-DdocColName="text_seg"
-DoutputWordTableName="d2v_word_output"
-DoutputDocTableName="d2v_doc_output";
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入詞彙表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入詞彙表中參與分詞的分區名稱。格式為 | 無 |
docIdColName | 是 | 用來進行訓練的文檔列名。 | 無 |
docColName | 是 | 用來進行訓練的詞彙,以空格分隔。 | 無 |
layerSize | 否 | 單詞的特徵維度數量。取值範圍為0~1000。 | 100 |
cbow | 否 | 訓練使用的語言模型。取值範圍為0(skip-gram模型)和1(cbow模型)。 | 0 |
window | 否 | 單詞的視窗大小。取值範圍為正整數。 | 5 |
minCount | 否 | 截斷的最小詞頻。取值範圍為正整數。 | 5 |
hs | 否 | 是否採用HIERARCHICAL SOFTMAX。取值範圍為0(不採用)和1(採用)。 | 1 |
negative | 否 | 負採樣的視窗大小。取值範圍為正整數,0表示不可用。 | 5 |
sample | 否 | 向下採樣的閾值。取值範圍為1e-3~1e-5,預設值為1e-3,0表示不可用。 | 1e-3 |
alpha | 否 | 取值大於0。 | 0.025 |
iterTrain | 否 | 取值大於等於1。 | 1 |
randomWindow | 否 | 指定單詞視窗的展示方式。取值範圍為0(不隨機,其值由window參數指定)和1(大小在1~5間隨機)。 | 1 |
outVocabularyTableName | 否 | 輸出詞彙表名稱。 | 無 |
outputWordTableName | 是 | 輸出詞向量表名稱。 | 無 |
outputDocTableName | 是 | 輸出文檔向量表名稱。 | 無 |
lifecycle | 否 | 輸出表的生命週期。取值範圍為正整數。 | 無 |
coreNum | 否 | 核心數,需要與memSizePerCore參數同時設定才生效。取值範圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 記憶體數,需要與coreNum參數同時設定才生效。取值範圍為正整數。 | 系統自動分配 |
相關文檔
關於Designer更詳細的內容介紹,請參見Designer概述。