このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供するN-gram Countingコンポーネントについて説明します。
Nグラムのカウントは、言語モデルのトレーニングのステップです。 Nグラムは、単語に基づいて生成される。 すべてのコーパスにおけるNグラムの数をカウントする。 カウント結果は、単一の文書のNグラム数ではなく、すべての文書のNグラム数です。 詳細については、「ngram-count」をご参照ください。
コンポーネントの設定
次のいずれかの方法を使用して、N-gram Countingコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
AI (PAI) のMachine Learning Designerのパイプラインページで、N-gram Countingコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | 入力テーブルの文の列 | 入力テーブルの文を含む列。 |
Column of Words in the Bag-of-Words | 単語のバッグ内の単語を含む列。 | |
入力カウント結果テーブルの単語列 | 入力カウント結果テーブルの単語列。 | |
入力カウント結果テーブルの列のカウント | 入力カウント結果テーブルのカウント列。 | |
文重量コラム | 入力文の重みを含む列。 | |
パラメーター設定 | 最大Nグラムの長さ | Nグラムの最大長。 デフォルト値: 3。 |
チューニング | オプション。 コアの数。 | コアの数。 デフォルトでは、システムが値を決定します。 |
オプション。 コアあたりのメモリサイズ。 | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name ngram_count
-project algo_public
-DinputTableName=pai_ngram_input
-DoutputTableName=pai_ngram_output
-DinputSelectedColNames=col0
-DweightColName=weight
-DcoreNum=2
-DmemSizePerCore=1000;
パラメーター | 必須 | デフォルト値 | 説明 |
inputTableName | 可 | デフォルト値なし | 入力テーブルの名前。 |
outputTableName | 可 | デフォルト値なし | 出力テーブルの名前。 |
inputSelectedColNames | 不可 | 最初のSTRING列の名前 | 入力テーブルから選択された列の名前。 |
weightColName | いいえ | 1 | 重み列の名前。 |
inputTablePartitions | 不可 | すべてのパーティション | 入力テーブルから選択されたパーティション。 |
countTableName | 不可 | デフォルト値なし | 以前に生成されたNグラムカウント出力テーブル。 テーブルは出力結果にマージされます。 |
countWordColName | 不可 | 2列目 | カウントテーブルの単語列の名前。 |
countCountColName | 不可 | 第3列 | カウントテーブルのカウント列の名前。 |
countTablePartitions | 不可 | デフォルト値なし | カウントテーブル内のパーティション。 |
vocabTableName | 不可 | デフォルト値なし | bag-of-wordsテーブルの名前。 単語の袋に含まれていない単語は \<unk \とマークされます。 |
vocabSelectedColName | 不可 | 最初のストリング列 | 単語のバッグ内の単語を含む列の名前。 |
vocabTablePartitions | 不可 | デフォルト値なし | bag-of-wordsテーブルのパーティション。 |
注文 | 不可 | 3 | Nグラムの最大長。 |
ライフサイクル | 不可 | デフォルト値なし | 出力テーブルのライフサイクル。 |
coreNum | 不可 | デフォルト値なし | コアの数。 |
memSizePerCore | 不可 | デフォルト値なし | 各コアのメモリサイズ。 単位:MB。 |