単語頻度の計算中に、プログラムを使用して、文字列内の単語の総数と、各単語が文字列に現れる回数を計算します。 文字列は、手動で入力したり、指定したファイルから読み取ったりできます。 ワードの総数は、別個のワードの数である。 このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供するWord Frequency Statisticsコンポーネントについて説明します。
単語頻度とは、単語がコーパスに現れる回数を指します。 このコンポーネントは、単語セグメンテーション結果に基づいて、元の順序で単語を生成します。 そして、文書ID列 (docId) で特定される文書の内容 (docContent) に各単語が出現する回数を算出する。
コンポーネントの設定
次のいずれかの方法を使用して、Wordの頻度統計コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Word Frequency Statisticsコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | ドキュメントID列 | 指定されたドキュメントのIDを含む列。 |
ドキュメントコンテンツ列 | 指定されたドキュメントの内容を含む列。 | |
チューニング | コア | 計算に使用されるコアの数。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
pai -name doc_word_stat
-project algo_public
-DinputTableName=tdl_doc_test_split_word
-DdocId=docid
-DdocContent=content
-DoutputTableNameMulti=doc_test_stat_multi
-DoutputTableNameTriple=doc_test_stat_triple
-Dlifecycle=7
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
docId | 可 | ドキュメントID列の名前。 指定できる列は1つだけです。 | デフォルト値なし |
docContent | 可 | ドキュメントコンテンツ列の名前。 指定できる列は1つだけです。 | デフォルト値なし |
outputTableNameMulti | 可 | 単語分割後の元の順序で単語を一覧表示する出力テーブルの名前。 | デフォルト値なし |
outputTableNameTriple | 不可 | 各単語がドキュメントに表示される回数をリストする出力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | すべてのパーティション |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | -1 |
使用上の注意
outputTableNameMultiパラメーターは、単語分割後のドキュメントで単語を元の順序で一覧表示する出力テーブルを指定します。 単語のセグメンテーションは、docIdとdocContentに基づいて実行されます。
outputTableNameTripleパラメーターは、単語分割後に各単語がドキュメントに表示される回数をリストする出力テーブルを指定します。 単語のセグメンテーションは、docIdとdocContentに基づいて実行されます。