Doc2Vecコンポーネントは、トレーニング中にドキュメントIDをドキュメント内の単語として使用します。 このコンポーネントは、各文書を文ベクトルとして表現し、文書IDをコンテキストとして単語ベクトルを得る。 Doc2Vecコンポーネントを使用して、記事をベクトルにマッピングできます。 入力は語彙表である。 出力は、文書ベクトルテーブル、単語ベクトルテーブル、または語彙テーブルである。 このトピックでは、Platform for AI (PAI) が提供するDoc2Vecコンポーネントを設定する方法について説明します。
制限事項
MaxComputeのコンピューティングリソースに基づいてDoc2Vecコンポーネントを使用できます。
コンポーネントの設定
次のいずれかの方法を使用して、Doc2Vecコンポーネントを設定できます。
方法1: PAIコンソールでコンポーネントを設定する
Machine Learning Designerのパイプラインページで、Doc2Vecコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | ドキュメントID列 | トレーニングに使用されるドキュメント列の名前。 |
ドキュメントコンテンツ | トレーニングに使用される言葉。 これらの単語をスペースで区切ります。 | |
パラメーター設定 | Dimensions of Word Features | 単語の次元の数。 有効な値: 0 ~ 1000 デフォルト値:100 |
言語モデル | トレーニングに使用される言語モデル。 有効な値:
| |
Wordウィンドウのサイズ | 単語のウィンドウサイズ。 値は正の整数でなければなりません。 既定値:5 | |
最小ワード | 切り捨ての単語の最小頻度。 値は正の整数でなければなりません。 既定値:5 | |
階層Softmax | 階層型softmaxを使用するかどうかを指定します。 デフォルトでは、Hierarchical Softmaxが選択されています。 | |
ネガティブサンプリング | 負のサンプリングのウィンドウサイズ。 値は正の整数でなければなりません。 既定値:5 0の値は、負のサンプリング機能が利用できないことを示します。 | |
ダウンサンプリングしきい値 | ダウンサンプリングのしきい値。 有効値: 1e-3 ~ 1e-5。 デフォルト値: 1e-3。 値0は、ダウンサンプリング機能が利用できないことを示します。 | |
初期学習率 | 初期学習率。 値は0より大きくなければなりません。 デフォルト値: 0.025 | |
トレーニング反復 | 反復回数。 値は1以上である必要があります。 デフォルト値は 1 です。 | |
ランダムウィンドウの使用 | 単語ウィンドウを表示するために使用されるモード。 有効な値: 1 ~ 5のランダム値と [ウィンドウパラメーターで指定] 。 デフォルト値: [ウィンドウパラメーターで指定] | |
チューニング | コンピューティングコア数 | コンピューティングコアの数。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ (MB) | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用してコンポーネントを構成する
PAIコマンドを使用してコンポーネントパラメータを設定します。 次のセクションでは、パラメーターについて説明します。 SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name pai_doc2vec
-project algo_public
-DinputTableName="d2v_input"
-DdocIdColName="docid"
-DdocColName="text_seg"
-DoutputWordTableName="d2v_word_output"
-DoutputDocTableName="d2v_doc_output";
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力語彙テーブルの名前。 | N/A |
inputTablePartitions | 不可 | 入力語彙テーブルで単語のセグメンテーションに使用されるパーティションの名前。 形式: | N/A |
docIdColName | 可 | トレーニングに使用されるドキュメント列の名前。 | N/A |
docColName | 可 | トレーニングに使用される言葉。 これらの単語をスペースで区切ります。 | N/A |
layerSize | 不可 | 単語の次元の数。 有効な値: 0 ~ 1000 | 100 |
cbow | 不可 | トレーニングに使用される言語モデル。 有効な値: 0と1。 0の値はスキップ・グラム・モデルを示し、1の値はCBOWモデルを示す。 | 0 |
ウィンドウ | 不可 | 単語のウィンドウサイズ。 値は正の整数でなければなりません。 | 5 |
minCount | 不可 | 切り捨ての単語の最小頻度。 値は正の整数でなければなりません。 | 5 |
hs | 不可 | 階層型softmaxを使用するかどうかを指定します。 有効な値: 0と1。 0の値は、階層的softmaxが使用されないことを示し、1の値は、階層的softmaxが使用されることを示す。 | 1 |
ネガティブ | 不可 | 負のサンプリングのウィンドウサイズ。 値は正の整数でなければなりません。 0の値は、ネガティブサンプル機能が利用できないことを示します。 | 5 |
サンプル | 不可 | ダウンサンプリングのしきい値。 有効値: 1e-3 ~ 1e-5。 デフォルト値: 1e-3。 値0は、ダウンサンプリング機能が利用できないことを示します。 | 1e-3 |
アルファ | 不可 | 値は0より大きくなければなりません。 | 0.025 |
iterTrain | 不可 | 値は1以上である必要があります。 | 1 |
randomWindow | 不可 | 単語ウィンドウを表示するために使用されるモード。 有効な値: 0と1。 値が0の場合はwindowパラメーターで指定されていることを示し、値が1の場合は1から5までのランダムな値を示します。 | 1 |
outVocabularyTableName | 不可 | 出力語彙テーブルの名前。 | N/A |
outputWordTableName | 可 | 出力単語ベクトルテーブルの名前。 | N/A |
outputDocTableName | 可 | 出力ドキュメントベクトルテーブルの名前。 | N/A |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | N/A |
coreNum | 不可 | コアの数。 このパラメーターとmemSizePerCoreパラメーターは、両方のパラメーターを設定した場合にのみ有効になります。 値は正の整数でなければなりません。 | 自動割り当て |
memSizePerCore | 不可 | 各コアのメモリサイズ。 このパラメーターとcoreNumパラメーターは、両方のパラメーターを設定した場合にのみ有効になります。 値は正の整数でなければなりません。 | 自動割り当て |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。