全部產品
Search
文件中心

Platform For AI:ngram-count

更新時間:Jul 13, 2024

本文為您介紹Designer提供的ngram-count演算法組件。

ngram-count是語言模型訓練其中一個步驟。在詞的基礎上產生n-gram,並統計在全部語料集上,對應n-gram的個數。其結果是全域的個數,而不是單個文檔的個數。詳情請參見ngram-count

組件配置

您可以使用以下任意一種方式,配置ngram-count組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

輸入表中句子所在的列

輸入表中句子所在欄欄位。

詞袋中詞所在的列名

選擇詞袋中詞所在的列名。

輸入的count結果表的words列

輸入的count結果表的words列。

輸入的count結果表的count列

輸入的count結果表的count列。

句子的權重列

輸入句子的權重列。

參數設定

N-grams的最大長度

設定N-grams的最大長度,預設為3。

執行調優

可選,核心個數

預設自動選擇。

可選,單個核心使用的記憶體數

預設自動選擇,單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

參數名稱

是否必選

預設值

描述

inputTableName

輸入表。

outputTableName

輸出表。

inputSelectedColNames

第一個字元類型的列

輸入表選擇列。

weightColName

1

權重列名。

inputTablePartitions

選擇全表

輸入表指定分區。

countTableName

ngram-count以往的輸出表,最終結果將合并這張表。

countWordColName

選擇第二列

count表中詞所在的列名。

countCountColName

選擇第三列

count表中count所在的列。

countTablePartitions

count表指定分區。

vocabTableName

詞袋錶,不在詞袋中的詞在結果中會被標識為\<unk\。

vocabSelectedColName

選擇第一個字元類型的列

詞袋所在的列名。

vocabTablePartitions

詞袋錶指定分區。

order

3

N-grams的最大長度。

lifecycle

輸出表的生命週期。

coreNum

核心個數。

memSizePerCore

單個核心使用的記憶體數。單位為MB。