すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Doc2Vec

最終更新日:Jul 22, 2024

Doc2Vecコンポーネントは、トレーニング中にドキュメントIDをドキュメント内の単語として使用します。 このコンポーネントは、各文書を文ベクトルとして表現し、文書IDをコンテキストとして単語ベクトルを得る。 Doc2Vecコンポーネントを使用して、記事をベクトルにマッピングできます。 入力は語彙表である。 出力は、文書ベクトルテーブル、単語ベクトルテーブル、または語彙テーブルである。 このトピックでは、Platform for AI (PAI) が提供するDoc2Vecコンポーネントを設定する方法について説明します。

制限事項

MaxComputeのコンピューティングリソースに基づいてDoc2Vecコンポーネントを使用できます。

コンポーネントの設定

次のいずれかの方法を使用して、Doc2Vecコンポーネントを設定できます。

方法1: PAIコンソールでコンポーネントを設定する

Machine Learning Designerのパイプラインページで、Doc2Vecコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

ドキュメントID列

トレーニングに使用されるドキュメント列の名前。

ドキュメントコンテンツ

トレーニングに使用される言葉。 これらの単語をスペースで区切ります。

パラメーター設定

Dimensions of Word Features

単語の次元の数。 有効な値: 0 ~ 1000 デフォルト値:100

言語モデル

トレーニングに使用される言語モデル。 有効な値:

  • Skip-gram Model (デフォルト)

  • CBOWモデル

Wordウィンドウのサイズ

単語のウィンドウサイズ。 値は正の整数でなければなりません。 既定値:5

最小ワード

切り捨ての単語の最小頻度。 値は正の整数でなければなりません。 既定値:5

階層Softmax

階層型softmaxを使用するかどうかを指定します。 デフォルトでは、Hierarchical Softmaxが選択されています。

ネガティブサンプリング

負のサンプリングのウィンドウサイズ。 値は正の整数でなければなりません。 既定値:5 0の値は、負のサンプリング機能が利用できないことを示します。

ダウンサンプリングしきい値

ダウンサンプリングのしきい値。 有効値: 1e-3 ~ 1e-5。 デフォルト値: 1e-3。 値0は、ダウンサンプリング機能が利用できないことを示します。

初期学習率

初期学習率。 値は0より大きくなければなりません。 デフォルト値: 0.025

トレーニング反復

反復回数。 値は1以上である必要があります。 デフォルト値は 1 です。

ランダムウィンドウの使用

単語ウィンドウを表示するために使用されるモード。 有効な値: 1 ~ 5のランダム値[ウィンドウパラメーターで指定] 。 デフォルト値: [ウィンドウパラメーターで指定]

チューニング

コンピューティングコア数

コンピューティングコアの数。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ (MB)

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用してコンポーネントを構成する

PAIコマンドを使用してコンポーネントパラメータを設定します。 次のセクションでは、パラメーターについて説明します。 SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name pai_doc2vec
    -project algo_public
    -DinputTableName="d2v_input"
    -DdocIdColName="docid"
    -DdocColName="text_seg"
    -DoutputWordTableName="d2v_word_output"
    -DoutputDocTableName="d2v_doc_output";

パラメーター

必須

説明

デフォルト値

inputTableName

入力語彙テーブルの名前。

N/A

inputTablePartitions

不可

入力語彙テーブルで単語のセグメンテーションに使用されるパーティションの名前。 形式: partition_name=value name1=value1/name2=value2の形式で複数のパーティションを指定します。 複数のパーティションはコンマ (,) で区切ります。

N/A

docIdColName

トレーニングに使用されるドキュメント列の名前。

N/A

docColName

トレーニングに使用される言葉。 これらの単語をスペースで区切ります。

N/A

layerSize

不可

単語の次元の数。 有効な値: 0 ~ 1000

100

cbow

不可

トレーニングに使用される言語モデル。 有効な値: 0と1。 0の値はスキップ・グラム・モデルを示し、1の値はCBOWモデルを示す。

0

ウィンドウ

不可

単語のウィンドウサイズ。 値は正の整数でなければなりません。

5

minCount

不可

切り捨ての単語の最小頻度。 値は正の整数でなければなりません。

5

hs

不可

階層型softmaxを使用するかどうかを指定します。 有効な値: 0と1。 0の値は、階層的softmaxが使用されないことを示し、1の値は、階層的softmaxが使用されることを示す。

1

ネガティブ

不可

負のサンプリングのウィンドウサイズ。 値は正の整数でなければなりません。 0の値は、ネガティブサンプル機能が利用できないことを示します。

5

サンプル

不可

ダウンサンプリングのしきい値。 有効値: 1e-3 ~ 1e-5。 デフォルト値: 1e-3。 値0は、ダウンサンプリング機能が利用できないことを示します。

1e-3

アルファ

不可

値は0より大きくなければなりません。

0.025

iterTrain

不可

値は1以上である必要があります。

1

randomWindow

不可

単語ウィンドウを表示するために使用されるモード。 有効な値: 0と1。 値が0の場合はwindowパラメーターで指定されていることを示し、値が1の場合は1から5までのランダムな値を示します。

1

outVocabularyTableName

不可

出力語彙テーブルの名前。

N/A

outputWordTableName

出力単語ベクトルテーブルの名前。

N/A

outputDocTableName

出力ドキュメントベクトルテーブルの名前。

N/A

ライフサイクル

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

N/A

coreNum

不可

コアの数。 このパラメーターとmemSizePerCoreパラメーターは、両方のパラメーターを設定した場合にのみ有効になります。 値は正の整数でなければなりません。

自動割り当て

memSizePerCore

不可

各コアのメモリサイズ。 このパラメーターとcoreNumパラメーターは、両方のパラメーターを設定した場合にのみ有効になります。 値は正の整数でなければなりません。

自動割り当て

関連ドキュメント

Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。