用語頻度-逆ドキュメント頻度 (TF-IDF) は、情報検索とテキストマイニングに一般的に使用される重み付け手法です。 TF-IDFは、所与の検索クエリに対する文書の関連性をスコアリングおよびランク付けする際のツールとして検索エンジンによって使用される。
用語頻度 (TF) は、所与の単語が文書に現れる回数を指す。 逆文書頻度 (IDF) に基づいて、所与の単語を含む文書の数が少ないほど、その単語のIDFスコアが高く、その単語を区別する能力が強いことを示す。
TF-IDFは、単語または文書の重要性を評価するために使用される統計的尺度である。 例:
単語の重要性は、それが文書に現れる回数が増加すると比例して増加する。
単語の重要性は、それがコーパスに現れる回数が増えると減少する。
TF-IDFコンポーネントは、単語頻度統計コンポーネントの出力に基づいて、ドキュメントのコレクションに表示される各単語のTF-IDF値を計算するために使用されます。 計算は文書に基づいていません。
使用上の注意
TF-IDFコンポーネントは、単語頻度統計コンポーネントによって生成されたデータを処理します。 そのため、Word Frequency StatisticsコンポーネントをTF-IDFコンポーネントの上流ノードとして接続する必要があります。
コンポーネントの設定
次のいずれかの方法を使用してコンポーネントを設定できます。
方法1: Machine Learning Designerでコンポーネントを構成する
Machine Learning Platform for AIコンソールのMachine Learning Designerの [パイプライン設定] タブでコンポーネントを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | ドキュメントID列 | パラメーターをidに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。 |
ワード列 | パラメーターをwordに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。 | |
ワードカウント列 | パラメーターをcountに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。 | |
チューニング | コア | 計算に使用されるコアの数。 値はデフォルトで自動的に計算されます。 |
コアあたりのメモリサイズ | コアあたりのメモリサイズ。 単位:MB。 |
方法2: AIコマンド用の機械学習プラットフォームの実行
Machine Learning Platform for AIコマンドを使用してコンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用して、Machine Learning Platform for AIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。 このコンポーネントの設定に使用するコマンドのパラメーターを次の表に示します。
PAI -name tfidf
-project algo_public
-DinputTableName=rgdoc_split_triple_out
-DdocIdCol=id
-DwordCol=word
-DcountCol=count
-DoutputTableName=rg_tfidf_out;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 この値は、 | すべてのパーティション |
docIdCol | 可 | ドキュメントID列の名前。 指定できる列は1つだけです。 | なし |
wordCol | 可 | 単語列の名前。 指定できる列は1つだけです。 | なし |
countCol | 可 | ワードカウント列の番号。 指定できる列は1つだけです。 | なし |
outputTableName | 可 | 出力テーブルの名前。 | なし |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 単位:日 | なし |
coreNum | 不可 | コアの数。 このパラメーターとmemSizePerCoreパラメーターは、両方が設定されている場合にのみ有効になります。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 このパラメーターとcoreNumパラメーターは、両方が設定されている場合にのみ有効になります。 | システムによって決定される |