意味ベクトル距離アルゴリズムは、Word2Vecなどの単語埋め込みモデルによって生成された単語ベクトル間の距離を計算することによって、意味空間内の単語またはテキスト断片の類似性を評価します。 一般的な距離測定方法には、ユークリッド距離、コサイン類似度、マンハッタン距離などがあります。 このアルゴリズムは、同義語生成、テキスト類似性計算、意味検索などの自然言語処理タスクで広く使用されています。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページにセマンティックベクトル距離コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | ID列 |
|
ベクトル列 | ベクトルを含む列の名前。 例: f1、f2 | |
パラメーター設定 | 出力する最も近いベクトルの数 | 出力の最も近いベクトルの数。 既定値:5 |
距離計算モード | ベクトル間の距離を計算するために使用されるメソッド。 有効な値:
デフォルト値: Euclidean。 | |
距離しきい値 | ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 デフォルト値: + ∞ 。 この閾値以下の距離を有するベクトルのみが類似しているとみなされ、出力される。 例えば、コサイン類似性閾値が0.8に設定される場合、0.8以上の類似性を有するベクトルのみが類似ベクトルとみなされます。 | |
チューニング | コンピューティングコア | 計算に使用されるコアの数。 値は自動的に割り当てられます。 |
コアあたりのメモリサイズ (単位: MB) | 各コアのメモリサイズ。 値は自動的に割り当てられます。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name SemanticVectorDistance
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DidColName="word"
-DvectorColNames="f0,f1,f2,f3,f4,f5"
-Dlifecycle=30
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | 不可 | すべてのパーティション | 計算のために入力テーブルから選択されたパーティション。 |
outputTableName | 可 | なし | 出力テーブルの名前。 |
idTableName | ✕ | なし | ベクトル計算用のベクトルIDテーブルの名前。 テーブルには1つの列のみが含まれ、各行にはベクトルIDが格納されます。 このパラメーターはデフォルトで空です。これは、入力テーブル内のすべてのベクトルが計算に使用されることを示します。 |
idTablePartitions | ✕ | なし | 計算のためにIDテーブルから選択されたパーティション。 デフォルトでは、すべてのパーティションが計算用に選択されます。 |
idColName | 可 | 3 | ID列の名前。 |
vectorColNames | ✕ | なし | ベクトルを含む列の名前。 例: f1、f2 |
topN | 不可 | 5 | 出力の最も近いベクトルの数。 有効値: [1,+ ∞] 。 |
distanceType | 不可 | euclidean | ベクトル間の距離を計算するために使用されるメソッド。 |
distanceThreshold | 不可 | +∞ | ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 有効値 :( 0,+ ∞) 。 |
lifecycle | ✕ | なし | 出力テーブルのライフサイクル。 値は正の整数である必要があります。 |
coreNum | 不可 | システムによって決定される | 計算に使用されるコアの数。 値は正の整数である必要があります。 |
memSizePerCore | 不可 | システムによって決定される | 各コアのメモリサイズ。 値は正の整数である必要があります。 |
サンプル出力
出力テーブルには、original_id、near_id、distance、rankの4つの列があります。
original_id | _idの近く | 距離 | ランク |
hello | こんにちは | 0.2 | 1 |
hello | xxx | xx | 2 |
マン | 女性 | 0.3 | 1 |
マン | xx | xx | 2 |