TF-IDF(Term Frequency-Inverse Document Frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。通常在搜尋引擎中應用,可以作為檔案與使用者查詢之間相關程度的度量或評級。
TF詞頻(Term Frequency)是指某一個給定的詞語在該檔案中出現的次數。IDF反文檔頻率(Inverse Document Frequency)是指如果包含詞條的文檔越少,IDF越大,則說明詞條的類別區分能力越強。
TF-IDF是一種統計方法,用於評估字詞或檔案的重要程度。例如:
在檔案集中的字詞會隨著出現次數的增加呈正比增加趨勢。
在語料庫中的檔案會隨著出現頻率的增加呈反比下降趨勢。
TF-IDF組件基於詞頻統計演算法的輸出結果(而不是基於原始文檔),計算各詞語對於各文章的TF-IDF值。
使用說明
由於TF-IDF組件是基於詞頻統計演算法的輸出結果,因此TF-IDF組件需要接入到詞頻統計組件的下遊。
組件配置
您可以使用以下任意一種方式,配置TF-IDF組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 選擇文檔ID列 | 您可以直接選擇詞頻統計組件輸出的文檔ID列(id列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。 |
選擇單詞列 | 您可以直接選擇詞頻統計組件輸出的單詞列(word列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。 | |
選擇單詞計數列 | 您可以直接選擇詞頻統計組件輸出的單詞計數列(count列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。 | |
執行調優 | 計算核心數 | 節點個數,預設自動計算。 |
每個核心記憶體 | 單個節點記憶體大小,單位為MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name tfidf
-project algo_public
-DinputTableName=rgdoc_split_triple_out
-DdocIdCol=id
-DwordCol=word
-DcountCol=count
-DoutputTableName=rg_tfidf_out;
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。 格式為 | 輸入表的所有分區 |
docIdCol | 是 | 標識文章ID的列名,僅可指定一列。 | 無 |
wordCol | 是 | Word列名,僅可指定一列。 | 無 |
countCol | 是 | Count列名,僅可指定一列。 | 無 |
outputTableName | 是 | 輸出表名稱。 | 無 |
lifecycle | 否 | 輸出表生命週期。正整數。單位:天 | 無 |
coreNum | 否 | 核心數,與memSizePerCore同時設定才生效。 | 自動計算 |
memSizePerCore | 否 | 記憶體數,與coreNum同時設定才生效。 | 自動計算 |