ngram-count - Platform For AI

ngram-count是語言模型訓練過程中的一個關鍵步驟，涉及產生和統計n-gram的出現頻率。在此過程中，演算法在整個語料庫中識別連續的n個詞（n-gram），並計算其出現次數，以構建詞彙之間的統計關聯式模式。結果反映的是n-gram在整個語料集上的全域計數，而非局限於單個文檔的統計。

組件配置

方式一：可視化方式

在Designer工作流程頁面添加ngram-count組件，並在介面右側配置相關參數：

參數類型	參數	描述
欄位設定	輸入表中句子所在的列	輸入表中句子所在欄欄位。
	詞袋中詞所在的列名	選擇詞袋中詞所在的列名。
	輸入的count結果表的words列	輸入的count結果表的words列。
	輸入的count結果表的count列	輸入的count結果表的count列。
	句子的權重列	輸入句子的權重列。
參數設定	N-grams的最大長度	設定N-grams的最大長度，預設為3。
執行調優	可選，核心個數	預設自動選擇。
執行調優	可選，單個核心使用的記憶體數	預設自動選擇，單位為MB。

方式二：PAI命令方式

使用PAI命令配置ngram-count組件參數。您可以使用SQL指令碼組件進行PAI命令調用，詳情請參見SQL指令碼。

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

參數	是否必選	預設值	描述
inputTableName	是	無	輸入表。
outputTableName	是	無	輸出表。
inputSelectedColNames	否	第一個字元類型的列	輸入表選擇列。
weightColName	否	1	權重列名。
inputTablePartitions	否	選擇全表	輸入表指定分區。
countTableName	否	無	ngram-count以往的輸出表，最終結果將合并這張表。
countWordColName	否	選擇第二列	count表中詞所在的列名。
countCountColName	否	選擇第三列	count表中count所在的列。
countTablePartitions	否	無	count表指定分區。
vocabTableName	否	無	詞袋錶，不在詞袋中的詞在結果中會被標識為\<unk\。
vocabSelectedColName	否	選擇第一個字元類型的列	詞袋所在的列名。
vocabTablePartitions	否	無	詞袋錶指定分區。
order	否	3	N-grams的最大長度。
lifecycle	否	無	輸出表的生命週期。
coreNum	否	無	核心個數。
memSizePerCore	否	無	單個核心使用的記憶體數。單位為MB。