詞頻統計演算法是一種基本的文本分析方法,通過計算每個單詞在文本中出現的次數,將文本資料轉換為數值特徵。這一過程產生的結果常用於特徵提取階段,為後續的自然語言處理任務,如文本分類、聚類和資訊檢索等提供基礎資料。
演算法說明
詞頻是指某個詞在特定語料中出現的次數,用于衡量詞在文本中的重要性。為統計詞頻,首先需對文檔進行分詞,即將文檔內容(docContent)拆分為單獨的詞語。接下來,對於每個文檔,按照輸入順序輸出其文檔ID(docId)及相關詞彙資料。最後,計算每個詞在指定文檔中的出現次數。這一過程不僅有助於揭示文本的詞彙結構,還為後續的文本分析任務提供基礎資料支援,如文本分類、主題建模和資訊檢索等。
輸入/輸出
輸入樁
輸出樁
組件配置
方式一:可視化方式
在Designer工作流程頁面添加詞頻統計組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
欄位設定 | 選擇文檔ID列 | 選擇文檔ID列(docId)。 |
選擇文檔內容列 | 選擇文檔內容列(docContent)。該列中的常值內容將被用於詞頻統計分析,即對其進行分詞並計算每個詞的出現頻率。 | |
執行調優 | 核心數 | 節點數量。 |
每個核心的記憶體 | 單個節點記憶體大小,單位為MB。 |
方式二:PAI命令方式
使用PAI命令配置詞頻統計組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
pai -name doc_word_stat
-project algo_public
-DinputTableName=tdl_doc_test_split_word
-DdocId=docid
-DdocContent=content
-DoutputTableNameMulti=doc_test_stat_multi
-DoutputTableNameTriple=doc_test_stat_triple
-DinputTablePartitions="region=cctv_news"
-Dlifecycle=7
參數 | 是否必選 | 預設值 | 描述 |
inputTableName | 是 | 無 | 輸入表名稱。 |
docId | 是 | 無 | 標識文檔ID的列名,僅可指定一列。 |
docContent | 是 | 無 | 標識文檔內容的列名,僅可指定一列。 |
outputTableNameMulti | 是 | 無 | 輸出保序詞語表名。用於儲存分詞後的結果,其中包含文檔ID列(docId)及其對應文檔內容(docContent)的分詞資料。各個詞語按照它們在文檔中出現的順序逐一輸出。 |
outputTableNameTriple | 否 | 無 | 輸出詞頻統計表名。用於輸出文檔ID列(docId)及其對應的文檔內容(docContent)。 |
inputTablePartitions | 否 | 選擇所有分區 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。 |
lifecycle | 否 | -1 | 輸出表生命週期,正整數。 |