全部產品
Search
文件中心

Platform For AI:詞頻統計

更新時間:Nov 27, 2024

詞頻統計演算法是一種基本的文本分析方法,通過計算每個單詞在文本中出現的次數,將文本資料轉換為數值特徵。這一過程產生的結果常用於特徵提取階段,為後續的自然語言處理任務,如文本分類、聚類和資訊檢索等提供基礎資料。

演算法說明

詞頻是指某個詞在特定語料中出現的次數,用于衡量詞在文本中的重要性。為統計詞頻,首先需對文檔進行分詞,即將文檔內容(docContent)拆分為單獨的詞語。接下來,對於每個文檔,按照輸入順序輸出其文檔ID(docId)及相關詞彙資料。最後,計算每個詞在指定文檔中的出現次數。這一過程不僅有助於揭示文本的詞彙結構,還為後續的文本分析任務提供基礎資料支援,如文本分類、主題建模和資訊檢索等。

輸入/輸出

輸入樁

Split Word

輸出樁

組件配置

方式一:可視化方式

在Designer工作流程頁面添加詞頻統計組件,並在介面右側配置相關參數:

參數類型

參數

描述

欄位設定

選擇文檔ID列

選擇文檔ID列(docId)。

選擇文檔內容列

選擇文檔內容列(docContent)。該列中的常值內容將被用於詞頻統計分析,即對其進行分詞並計算每個詞的出現頻率。

執行調優

核心數

節點數量。

每個核心的記憶體

單個節點記憶體大小,單位為MB。

方式二:PAI命令方式

使用PAI命令配置詞頻統計組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -DinputTablePartitions="region=cctv_news"
    -Dlifecycle=7

參數

是否必選

預設值

描述

inputTableName

輸入表名稱。

docId

標識文檔ID的列名,僅可指定一列。

docContent

標識文檔內容的列名,僅可指定一列。

outputTableNameMulti

輸出保序詞語表名。用於儲存分詞後的結果,其中包含文檔ID列(docId)及其對應文檔內容(docContent)的分詞資料。各個詞語按照它們在文檔中出現的順序逐一輸出。

outputTableNameTriple

輸出詞頻統計表名。用於輸出文檔ID列(docId)及其對應的文檔內容(docContent)。

inputTablePartitions

選擇所有分區

輸入表中,參與訓練的分區。系統支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級分區

說明

指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。

lifecycle

-1

輸出表生命週期,正整數。