すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:TF-IDF

最終更新日:Jul 22, 2024

用語頻度-逆ドキュメント頻度 (TF-IDF) は、情報検索とテキストマイニングに一般的に使用される重み付け手法です。 TF-IDFは、所与の検索クエリに対する文書の関連性をスコアリングおよびランク付けする際のツールとして検索エンジンによって使用される。

用語頻度 (TF) は、所与の単語が文書に現れる回数を指す。 逆文書頻度 (IDF) に基づいて、所与の単語を含む文書の数が少ないほど、その単語のIDFスコアが高く、その単語を区別する能力が強いことを示す。

TF-IDFは、単語または文書の重要性を評価するために使用される統計的尺度である。 例:

  • 単語の重要性は、それが文書に現れる回数が増加すると比例して増加する。

  • 単語の重要性は、それがコーパスに現れる回数が増えると減少する。

TF-IDFコンポーネントは、単語頻度統計コンポーネントの出力に基づいて、ドキュメントのコレクションに表示される各単語のTF-IDF値を計算するために使用されます。 計算は文書に基づいていません。

使用上の注意

TF-IDFコンポーネントは、単語頻度統計コンポーネントによって生成されたデータを処理します。 そのため、Word Frequency StatisticsコンポーネントをTF-IDFコンポーネントの上流ノードとして接続する必要があります。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Machine Learning Designerでコンポーネントを構成する

Machine Learning Platform for AIコンソールのMachine Learning Designerの [パイプライン設定] タブでコンポーネントを設定します。

タブ

パラメーター

説明

フィールド設定

ドキュメントID列

パラメーターをidに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。

ワード列

パラメーターをwordに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。

ワードカウント列

パラメーターをcountに設定できます。これは、Word Frequency Statisticsコンポーネントの出力列です。 または、元のドキュメントを処理して、Word Frequency Statisticsコンポーネントの出力形式に従うこともできます。 詳細については、「単語頻度統計」のサンプル出力をご参照ください。

チューニング

コア

計算に使用されるコアの数。 値はデフォルトで自動的に計算されます。

コアあたりのメモリサイズ

コアあたりのメモリサイズ。 単位:MB。

方法2: AIコマンド用の機械学習プラットフォームの実行

Machine Learning Platform for AIコマンドを使用してコンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用して、Machine Learning Platform for AIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。 このコンポーネントの設定に使用するコマンドのパラメーターを次の表に示します。

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。

この値は、partition_name=value形式である必要があります。 複数レベルのパーティションを指定する場合は、name1=value1/name2=value2の形式を使用します。 複数のパーティションを指定する場合は、コンマ (,) で区切ります。

すべてのパーティション

docIdCol

ドキュメントID列の名前。 指定できる列は1つだけです。

なし

wordCol

単語列の名前。 指定できる列は1つだけです。

なし

countCol

ワードカウント列の番号。 指定できる列は1つだけです。

なし

outputTableName

出力テーブルの名前。

なし

ライフサイクル

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。 単位:日

なし

coreNum

不可

コアの数。 このパラメーターとmemSizePerCoreパラメーターは、両方が設定されている場合にのみ有効になります。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 このパラメーターとcoreNumパラメーターは、両方が設定されている場合にのみ有効になります。

システムによって決定される