すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:セマンティックベクトル距離

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designerが提供するセマンティックベクトル距離コンポーネントについて説明します。

Word2Vecコンポーネントによって計算された単語ベクトルなど、計算された意味ベクトルに基づいて、指定された単語または文の拡張単語または文を計算できます。 拡張単語または拡張文は、あるベクトルに最も近いベクトルの集合である。 たとえば、特定の単語に最も似ている単語のリストを生成できます。 これは、Word2Vecコンポーネントによって返されるセマンティックベクトルに基づいています。

コンポーネントの設定

Machine Learning Designerを使用するか、Machine Learning Platform for AIコマンドを実行してコンポーネントを設定できます。

  • Machine Learning Designerでコンポーネントを構成する

    タブ

    パラメーター

    説明

    フィールド設定

    ID列

    ID列の名前。 このパラメーターはデフォルトで空です。これは、入力テーブル内のすべてのベクトルが計算に使用されることを示します。

    ID列には、2番目の入力ポートを使用してインポートされたIDリストが含まれます。 各IDはセルを占有する。 例:

    1
    2
    4
    6
    8 

    ベクトル列

    ベクトルを含む列の名前。 例: f1、f2

    パラメーター設定

    出力する最も近いベクトルの数

    出力の最も近いベクトルの数。 既定値:5

    距離計算モード

    ベクトル間の距離を計算するために使用されるメソッド。 有効な値:

    • euclidean

    • cosine

    • manhattan

    デフォルト値: Euclidean。

    距離しきい値

    ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 デフォルト値: + ∞ 。

    チューニング

    コンピューティングコア

    計算に使用されるコアの数。 値は自動的に割り当てられます。

    コアあたりのメモリサイズ (単位: MB)

    各コアのメモリサイズ。 値は自動的に割り当てられます。

  • Machine Learning Platform for AIコマンド

    PAI -name SemanticVectorDistance 
        -project algo_public    
        -DinputTableName="test_input"    
        -DoutputTableName="test_output"    
        -DidColName="word"    
        -DvectorColNames="f0,f1,f2,f3,f4,f5"    
        -Dlifecycle=30

    パラメーター

    必須

    説明

    デフォルト値

    inputTableName

    入力テーブルの名前。

    None

    inputTablePartitions

    不可

    計算のために入力テーブルから選択されたパーティション。

    すべてのパーティション

    outputTableName

    出力テーブルの名前。

    None

    idTableName

    不可

    ベクトル計算用のベクトルIDテーブルの名前。 テーブルには1つの列のみが含まれ、各行にはベクトルIDが格納されます。 このパラメーターはデフォルトで空です。これは、入力テーブル内のすべてのベクトルが計算に使用されることを示します。

    None

    idTablePartitions

    不可

    計算のためにIDテーブルから選択されたパーティション。 デフォルトでは、すべてのパーティションが計算用に選択されます。

    None

    idColName

    ID列の名前。

    3

    vectorColNames

    不可

    ベクトルを含む列の名前。 例: f1、f2

    None

    topN

    不可

    出力の最も近いベクトルの数。 有効値: [1,+ ∞] 。

    5

    distanceType

    不可

    ベクトル間の距離を計算するために使用されるメソッド。

    euclidean

    distanceThreshold

    不可

    ベクトル間の距離のしきい値。 閾値は、2つのベクトル間の距離がこの値より小さい場合に提供される。 有効値 :( 0,+ ∞) 。

    +∞

    ライフサイクル

    不可

    入力テーブルのライフサイクル。 値は正の整数でなければなりません。

    None

    coreNum

    不可

    計算に使用されるコアの数。 値は正の整数でなければなりません。

    システムによって決定される

    memSizePerCore

    不可

    各コアのメモリサイズ。 値は正の整数でなければなりません。

    システムによって決定される

例:

出力テーブルには、original_id、near_id、distance、rankの4つの列があります。

original_id

_idの近く

距離

ランク

hello

hi

0.2

1

hello

xxx

xx

2

Man

Woman

0.3

1

Man

xx

xx

2