すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Nグラムのカウント

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供するN-gram Countingコンポーネントについて説明します。

Nグラムのカウントは、言語モデルのトレーニングのステップです。 Nグラムは、単語に基づいて生成される。 すべてのコーパスにおけるNグラムの数をカウントする。 カウント結果は、単一の文書のNグラム数ではなく、すべての文書のNグラム数です。 詳細については、「ngram-count」をご参照ください。

コンポーネントの設定

次のいずれかの方法を使用して、N-gram Countingコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

AI (PAI) のMachine Learning Designerのパイプラインページで、N-gram Countingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

入力テーブルの文の列

入力テーブルの文を含む列。

Column of Words in the Bag-of-Words

単語のバッグ内の単語を含む列。

入力カウント結果テーブルの単語列

入力カウント結果テーブルの単語列。

入力カウント結果テーブルの列のカウント

入力カウント結果テーブルのカウント列。

文重量コラム

入力文の重みを含む列。

パラメーター設定

最大Nグラムの長さ

Nグラムの最大長。 デフォルト値: 3。

チューニング

オプション。 コアの数。

コアの数。 デフォルトでは、システムが値を決定します。

オプション。 コアあたりのメモリサイズ。

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

パラメーター

必須

デフォルト値

説明

inputTableName

デフォルト値なし

入力テーブルの名前。

outputTableName

デフォルト値なし

出力テーブルの名前。

inputSelectedColNames

不可

最初のSTRING列の名前

入力テーブルから選択された列の名前。

weightColName

いいえ

1

重み列の名前。

inputTablePartitions

不可

すべてのパーティション

入力テーブルから選択されたパーティション。

countTableName

不可

デフォルト値なし

以前に生成されたNグラムカウント出力テーブル。 テーブルは出力結果にマージされます。

countWordColName

不可

2列目

カウントテーブルの単語列の名前。

countCountColName

不可

第3列

カウントテーブルのカウント列の名前。

countTablePartitions

不可

デフォルト値なし

カウントテーブル内のパーティション。

vocabTableName

不可

デフォルト値なし

bag-of-wordsテーブルの名前。 単語の袋に含まれていない単語は \<unk \とマークされます。

vocabSelectedColName

不可

最初のストリング列

単語のバッグ内の単語を含む列の名前。

vocabTablePartitions

不可

デフォルト値なし

bag-of-wordsテーブルのパーティション。

注文

不可

3

Nグラムの最大長。

ライフサイクル

不可

デフォルト値なし

出力テーブルのライフサイクル。

coreNum

不可

デフォルト値なし

コアの数。

memSizePerCore

不可

デフォルト値なし

各コアのメモリサイズ。 単位:MB。