詞頻統計是指輸入一些字串(手動輸入或者從指定的檔案讀取),用程式來統計這些字串中總共有多少個單詞,每個單詞出現的次數。單詞的總數(即為Total)為不重複的單詞數總和。本文為您介紹Designer提供的詞頻統計。
詞頻指詞的頻率,即詞在一定的語料中出現的次數。請在對文檔進行分詞的基礎上,按行保序輸出對應文檔ID列(docId)對應的詞,統計指定文檔ID列對應文檔內容(docContent)的詞頻。
組件配置
您可以使用以下任意一種方式,配置詞頻統計組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 選擇文檔ID列 | 選擇文檔ID列。 |
選擇文檔內容列 | 選擇文檔內容列。 | |
執行調優 | 核心數 | 節點數量。 |
每個核心的記憶體 | 單個節點記憶體大小,單位為MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
pai -name doc_word_stat
-project algo_public
-DinputTableName=tdl_doc_test_split_word
-DdocId=docid
-DdocContent=content
-DoutputTableNameMulti=doc_test_stat_multi
-DoutputTableNameTriple=doc_test_stat_triple
-Dlifecycle=7
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表名稱。 | 無 |
docId | 是 | 標識文檔ID的列名,僅可指定一列。 | 無 |
docContent | 是 | 標識文檔內容的列名,僅可指定一列。 | 無 |
outputTableNameMulti | 是 | 輸出保序詞語表名。 | 無 |
outputTableNameTriple | 否 | 輸出詞頻統計表名。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 選擇所有分區 |
lifecycle | 否 | 輸出表生命週期。正整數。 | -1 |
常見問題
參數outputTableNameMulti指定的表是docId列及docId列對應的文檔內容(docContent)完成分詞後,按各個詞語在文檔中出現的順序依次輸出。
參數outputTableNameTriple指定的表輸出docId列及docId列對應的文檔內容(docContent)。