本文為您介紹Designer提供的ngram-count演算法組件。
ngram-count是語言模型訓練其中一個步驟。在詞的基礎上產生n-gram,並統計在全部語料集上,對應n-gram的個數。其結果是全域的個數,而不是單個文檔的個數。詳情請參見ngram-count。
組件配置
您可以使用以下任意一種方式,配置ngram-count組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 輸入表中句子所在的列 | 輸入表中句子所在欄欄位。 |
詞袋中詞所在的列名 | 選擇詞袋中詞所在的列名。 | |
輸入的count結果表的words列 | 輸入的count結果表的words列。 | |
輸入的count結果表的count列 | 輸入的count結果表的count列。 | |
句子的權重列 | 輸入句子的權重列。 | |
參數設定 | N-grams的最大長度 | 設定N-grams的最大長度,預設為3。 |
執行調優 | 可選,核心個數 | 預設自動選擇。 |
可選,單個核心使用的記憶體數 | 預設自動選擇,單位為MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name ngram_count
-project algo_public
-DinputTableName=pai_ngram_input
-DoutputTableName=pai_ngram_output
-DinputSelectedColNames=col0
-DweightColName=weight
-DcoreNum=2
-DmemSizePerCore=1000;
參數名稱 | 是否必選 | 預設值 | 描述 |
inputTableName | 是 | 無 | 輸入表。 |
outputTableName | 是 | 無 | 輸出表。 |
inputSelectedColNames | 否 | 第一個字元類型的列 | 輸入表選擇列。 |
weightColName | 否 | 1 | 權重列名。 |
inputTablePartitions | 否 | 選擇全表 | 輸入表指定分區。 |
countTableName | 否 | 無 | ngram-count以往的輸出表,最終結果將合并這張表。 |
countWordColName | 否 | 選擇第二列 | count表中詞所在的列名。 |
countCountColName | 否 | 選擇第三列 | count表中count所在的列。 |
countTablePartitions | 否 | 無 | count表指定分區。 |
vocabTableName | 否 | 無 | 詞袋錶,不在詞袋中的詞在結果中會被標識為\<unk\。 |
vocabSelectedColName | 否 | 選擇第一個字元類型的列 | 詞袋所在的列名。 |
vocabTablePartitions | 否 | 無 | 詞袋錶指定分區。 |
order | 否 | 3 | N-grams的最大長度。 |
lifecycle | 否 | 無 | 輸出表的生命週期。 |
coreNum | 否 | 無 | 核心個數。 |
memSizePerCore | 否 | 無 | 單個核心使用的記憶體數。單位為MB。 |