全部產品
Search
文件中心

Platform For AI:TF-IDF

更新時間:Jul 13, 2024

TF-IDF(Term Frequency-Inverse Document Frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。通常在搜尋引擎中應用,可以作為檔案與使用者查詢之間相關程度的度量或評級。

TF詞頻(Term Frequency)是指某一個給定的詞語在該檔案中出現的次數。IDF反文檔頻率(Inverse Document Frequency)是指如果包含詞條的文檔越少,IDF越大,則說明詞條的類別區分能力越強。

TF-IDF是一種統計方法,用於評估字詞或檔案的重要程度。例如:

  • 在檔案集中的字詞會隨著出現次數的增加呈正比增加趨勢。

  • 在語料庫中的檔案會隨著出現頻率的增加呈反比下降趨勢。

TF-IDF組件基於詞頻統計演算法的輸出結果(而不是基於原始文檔),計算各詞語對於各文章的TF-IDF值。

使用說明

由於TF-IDF組件是基於詞頻統計演算法的輸出結果,因此TF-IDF組件需要接入到詞頻統計組件的下遊。

組件配置

您可以使用以下任意一種方式,配置TF-IDF組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇文檔ID列

您可以直接選擇詞頻統計組件輸出的文檔ID列(id列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

選擇單詞列

您可以直接選擇詞頻統計組件輸出的單詞列(word列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

選擇單詞計數列

您可以直接選擇詞頻統計組件輸出的單詞計數列(count列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

執行調優

計算核心數

節點個數,預設自動計算。

每個核心記憶體

單個節點記憶體大小,單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

參數名稱

是否必選

描述

預設值

inputTableName

輸入表名稱。

inputTablePartitions

輸入表中,參與訓練的分區。

格式為partition_name=value。如果是多級格式為name1=value1/name2=value2。如果是指定多個分區,中間用英文逗號分開。

輸入表的所有分區

docIdCol

標識文章ID的列名,僅可指定一列。

wordCol

Word列名,僅可指定一列。

countCol

Count列名,僅可指定一列。

outputTableName

輸出表名稱。

lifecycle

輸出表生命週期。正整數。單位:天

coreNum

核心數,與memSizePerCore同時設定才生效。

自動計算

memSizePerCore

記憶體數,與coreNum同時設定才生效。

自動計算