すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:セマンティックベクトル距離

最終更新日:Dec 11, 2024

意味ベクトル距離アルゴリズムは、Word2Vecなどの単語埋め込みモデルによって生成された単語ベクトル間の距離を計算することによって、意味空間内の単語またはテキスト断片の類似性を評価します。 一般的な距離測定方法には、ユークリッド距離、コサイン類似度、マンハッタン距離などがあります。 このアルゴリズムは、同義語生成、テキスト類似性計算、意味検索などの自然言語処理タスクで広く使用されています。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページにセマンティックベクトル距離コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

フィールド設定

ID列

  • ID列の名前。 このパラメーターはデフォルトで空です。これは、入力テーブル内のすべてのベクトルが計算に使用されることを示します。

  • ID列には、2番目の入力ポートを使用してインポートされたIDリストが含まれます。 各IDはセルを占有します。 例:

    1
    2
    4
    6
    8

ベクトル列

ベクトルを含む列の名前。 例: f1、f2

パラメーター設定

出力する最も近いベクトルの数

出力の最も近いベクトルの数。 既定値:5

距離計算モード

ベクトル間の距離を計算するために使用されるメソッド。 有効な値:

  • euclidean

  • cosine

  • マンハッタン

デフォルト値: Euclidean。

距離しきい値

ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 デフォルト値: + ∞ 。

この閾値以下の距離を有するベクトルのみが類似しているとみなされ、出力される。 例えば、コサイン類似性閾値が0.8に設定される場合、0.8以上の類似性を有するベクトルのみが類似ベクトルとみなされます。

チューニング

コンピューティングコア

計算に使用されるコアの数。 値は自動的に割り当てられます。

コアあたりのメモリサイズ (単位: MB)

各コアのメモリサイズ。 値は自動的に割り当てられます。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name SemanticVectorDistance 
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DidColName="word"    
    -DvectorColNames="f0,f1,f2,f3,f4,f5"    
    -Dlifecycle=30

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

なし

入力テーブルの名前。

inputTablePartitions

不可

すべてのパーティション

計算のために入力テーブルから選択されたパーティション。

outputTableName

なし

出力テーブルの名前。

idTableName

なし

ベクトル計算用のベクトルIDテーブルの名前。 テーブルには1つの列のみが含まれ、各行にはベクトルIDが格納されます。 このパラメーターはデフォルトで空です。これは、入力テーブル内のすべてのベクトルが計算に使用されることを示します。

idTablePartitions

なし

計算のためにIDテーブルから選択されたパーティション。 デフォルトでは、すべてのパーティションが計算用に選択されます。

idColName

3

ID列の名前。

vectorColNames

なし

ベクトルを含む列の名前。 例: f1、f2

topN

不可

5

出力の最も近いベクトルの数。 有効値: [1,+ ∞] 。

distanceType

不可

euclidean

ベクトル間の距離を計算するために使用されるメソッド。

distanceThreshold

不可

+∞

ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 有効値 :( 0,+ ∞) 。

lifecycle

なし

出力テーブルのライフサイクル。 値は正の整数である必要があります。

coreNum

不可

システムによって決定される

計算に使用されるコアの数。 値は正の整数である必要があります。

memSizePerCore

不可

システムによって決定される

各コアのメモリサイズ。 値は正の整数である必要があります。

サンプル出力

出力テーブルには、original_id、near_id、distance、rankの4つの列があります。

original_id

_idの近く

距離

ランク

hello

こんにちは

0.2

1

hello

xxx

xx

2

マン

女性

0.3

1

マン

xx

xx

2