詞頻統計 - Platform For AI

詞頻統計演算法是一種基本的文本分析方法，通過計算每個單詞在文本中出現的次數，將文本資料轉換為數值特徵。這一過程產生的結果常用於特徵提取階段，為後續的自然語言處理任務，如文本分類、聚類和資訊檢索等提供基礎資料。

演算法說明

詞頻是指某個詞在特定語料中出現的次數，用于衡量詞在文本中的重要性。為統計詞頻，首先需對文檔進行分詞，即將文檔內容（docContent）拆分為單獨的詞語。接下來，對於每個文檔，按照輸入順序輸出其文檔ID（docId）及相關詞彙資料。最後，計算每個詞在指定文檔中的出現次數。這一過程不僅有助於揭示文本的詞彙結構，還為後續的文本分析任務提供基礎資料支援，如文本分類、主題建模和資訊檢索等。

輸入/輸出

輸入樁

Split Word

輸出樁

組件配置

方式一：可視化方式

在Designer工作流程頁面添加詞頻統計組件，並在介面右側配置相關參數：

參數類型	參數	描述
欄位設定	選擇文檔ID列	選擇文檔ID列（docId）。
欄位設定	選擇文檔內容列	選擇文檔內容列（docContent）。該列中的常值內容將被用於詞頻統計分析，即對其進行分詞並計算每個詞的出現頻率。
執行調優	核心數	節點數量。
執行調優	每個核心的記憶體	單個節點記憶體大小，單位為MB。

方式二：PAI命令方式

使用PAI命令配置詞頻統計組件參數。您可以使用SQL指令碼組件進行PAI命令調用，詳情請參見情境4：在SQL指令碼組件中執行PAI命令。

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -DinputTablePartitions="region=cctv_news"
    -Dlifecycle=7

參數	是否必選	預設值	描述
inputTableName	是	無	輸入表名稱。
docId	是	無	標識文檔ID的列名，僅可指定一列。
docContent	是	無	標識文檔內容的列名，僅可指定一列。
outputTableNameMulti	是	無	輸出保序詞語表名。用於儲存分詞後的結果，其中包含文檔ID列（docId）及其對應文檔內容（docContent）的分詞資料。各個詞語按照它們在文檔中出現的順序逐一輸出。
outputTableNameTriple	否	無	輸出詞頻統計表名。用於輸出文檔ID列（docId）及其對應的文檔內容（docContent）。
inputTablePartitions	否	選擇所有分區	輸入表中，參與訓練的分區。系統支援以下格式： Partition_name=value name1=value1/name2=value2：多級分區說明指定多個分區時，分區之間使用英文逗號（,）分隔，例如name1=value1,value2。
lifecycle	否	-1	輸出表生命週期，正整數。