TF-IDF - Platform For AI

TF-IDF（Term Frequency-Inverse Document Frequency）是一種用於評估一個詞在一個文檔中的重要性的統計方法。它通過結合詞頻（TF）和反文檔頻率（IDF）來衡量詞的權重，從而提高文本檢索和資訊挖掘的準確性。

TF詞頻（Term Frequency）是指某一個給定的詞語在該檔案中出現的次數。IDF反文檔頻率（Inverse Document Frequency）是指如果包含詞條的文檔越少，IDF越大，則說明詞條的類別區分能力越強。

TF-IDF是一種統計方法，用於評估字詞或檔案的重要程度。例如：

在檔案集中的字詞會隨著出現次數的增加呈正比增加趨勢。
在語料庫中的檔案會隨著出現頻率的增加呈反比下降趨勢。

TF-IDF組件基於詞頻統計演算法的輸出結果（而不是基於原始文檔），計算各詞語對於各文章的TF-IDF值。

使用說明

由於TF-IDF組件是基於詞頻統計演算法的輸出結果，因此TF-IDF組件需要接入到詞頻統計組件的下遊。

組件配置

方式一：可視化方式

在Designer工作流程頁面添加TF-IDF組件，並在介面右側配置相關參數：

參數類型	參數	描述
欄位設定	選擇文檔ID列	您可以直接選擇詞頻統計組件輸出的文檔ID列（id列）或自行將原始文檔處理為相應格式，詳情請參見詞頻統計樣本部分的輸出介紹。
	選擇單詞列	您可以直接選擇詞頻統計組件輸出的單詞列（word列）或自行將原始文檔處理為相應格式，詳情請參見詞頻統計樣本部分的輸出介紹。
	選擇單詞計數列	您可以直接選擇詞頻統計組件輸出的單詞計數列（count列）或自行將原始文檔處理為相應格式，詳情請參見詞頻統計樣本部分的輸出介紹。
執行調優	計算核心數	節點個數，預設自動計算。
執行調優	每個核心記憶體	單個節點記憶體大小，單位為MB。

方式二：PAI命令方式

使用PAI命令配置TF-IDF組件參數。您可以使用SQL指令碼組件進行PAI命令調用，詳情請參見SQL指令碼。

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

參數	是否必選	預設值	描述
inputTableName	是	無	輸入表名稱。
inputTablePartitions	否	輸入表的所有分區	輸入表中，參與訓練的分區。格式為`partition_name=value`。如果是多級格式為`name1=value1/name2=value2`。如果是指定多個分區，中間用英文逗號分開。
docIdCol	是	無	標識文章ID的列名，僅可指定一列。
wordCol	是	無	Word列名，僅可指定一列。
countCol	是	無	Count列名，僅可指定一列。
outputTableName	是	無	輸出表名稱。
lifecycle	否	無	輸出表生命週期。正整數。單位：天
coreNum	否	自動計算	核心數，與memSizePerCore同時設定才生效。
memSizePerCore	否	自動計算	記憶體數，與coreNum同時設定才生效。