全部產品
Search
文件中心

Platform For AI:詞頻統計

更新時間:Jul 13, 2024

詞頻統計是指輸入一些字串(手動輸入或者從指定的檔案讀取),用程式來統計這些字串中總共有多少個單詞,每個單詞出現的次數。單詞的總數(即為Total)為不重複的單詞數總和。本文為您介紹Designer提供的詞頻統計。

詞頻指詞的頻率,即詞在一定的語料中出現的次數。請在對文檔進行分詞的基礎上,按行保序輸出對應文檔ID列(docId)對應的詞,統計指定文檔ID列對應文檔內容(docContent)的詞頻。

組件配置

您可以使用以下任意一種方式,配置詞頻統計組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇文檔ID列

選擇文檔ID列。

選擇文檔內容列

選擇文檔內容列。

執行調優

核心數

節點數量。

每個核心的記憶體

單個節點記憶體大小,單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -Dlifecycle=7

參數名稱

是否必選

描述

預設值

inputTableName

輸入表名稱。

docId

標識文檔ID的列名,僅可指定一列。

docContent

標識文檔內容的列名,僅可指定一列。

outputTableNameMulti

輸出保序詞語表名。

outputTableNameTriple

輸出詞頻統計表名。

inputTablePartitions

輸入表中,參與訓練的分區。系統支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級分區

說明

指定多個分區時,分區之間使用英文逗號(,)分隔。

選擇所有分區

lifecycle

輸出表生命週期。正整數。

-1

常見問題

  • 參數outputTableNameMulti指定的表是docId列及docId列對應的文檔內容(docContent)完成分詞後,按各個詞語在文檔中出現的順序依次輸出。

  • 參數outputTableNameTriple指定的表輸出docId列及docId列對應的文檔內容(docContent)。