単語頻度統計は、テキスト内の各単語の出現を集計することによってテキストデータを定量化する基本的なテキスト分析手法です。 これらの結果は、特徴抽出フェーズにとって重要であり、テキスト分類、クラスタリング、および情報検索などのさらなる自然言語処理タスクの基礎を築きます。
アルゴリズムの説明
単語頻度は、テキストにおけるその重要性を反映して、単語が特定のコーパスに表示される頻度を示します。 単語頻度を決定するには、テキスト (docContent) を最初に個々の単語に分割する必要があります。 次に、各テキストについて、その一意の文書ID (docId) を、それらが入力された順序で関連する単語データと共に出力します。 最後に、指定されたテキスト内の各単語の頻度を計算します。 この方法は、テキストの語彙構造を明らかにするだけでなく、テキスト分類、トピックモデリング、および情報検索などのさらなるテキスト分析タスクに不可欠なデータサポートも提供します。
入力と出力
入力ポート
出力ポート
コンポーネントの設定
方法1: Visualizedメソッド
パイプラインページにWordの頻度統計コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールドの設定 | ドキュメントID列 | 指定されたドキュメントのID (docId) を含む列。 |
ドキュメントコンテンツ列 | 指定されたドキュメントのコンテンツを含む列 (docContent) 。 この列のテキストは、各単語のセグメンテーションと頻度計算を含む単語頻度統計分析に使用されます。 | |
チューニング | コア | 使用するコアの数。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 単位:MB。 |
方法2: PAIコマンドメソッド
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
pai -name doc_word_stat
-project algo_public
-DinputTableName=tdl_doc_test_split_word
-DdocId=docid
-DdocContent=content
-DoutputTableNameMulti=doc_test_stat_multi
-DoutputTableNameTriple=doc_test_stat_triple
-DinputTablePartitions="region=cctv_news"
-Dlifecycle=7
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
docId | 可 | なし | ドキュメントID列の名前。 指定できる列は1つだけです。 |
docContent | 可 | なし | ドキュメントコンテンツ列の名前。 指定できる列は1つだけです。 |
outputTableNameMulti | 可 | なし | ドキュメントID列 (docId) と対応するドキュメントコンテンツ (docContent) を含む、単語分割後の元の順序で単語を一覧表示する出力テーブルの名前。 |
outputTableNameTriple | ✕ | なし | ドキュメントID列 (docId) と対応するドキュメントコンテンツ (docContent) を含む、ドキュメントに各単語が表示される回数をリストする出力テーブルの名前。 |
inputTablePartitions | 不可 | すべてのパーティション | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 たとえば、name1=value1,value2です。 |
lifecycle | 不可 | -1 | 出力テーブルのライフサイクル。 値は正の整数である必要があります。 |