概要
Text Embedding は、大規模言語モデル(LLM)に基づいて Tongyi Lab によって開発された多言語対応の統合テキスト埋め込みモデルです。 Text Embedding は、開発者が複数の主要言語のテキストを高品質のベクトルに変換するのに役立ちます。
モデル | 名前 | ベクトルの次元 | リクエストの最大行数 | 1 行あたりの最大トークン長 | サポートされている言語 |
Text Embedding | text-embedding-v1 | 1,536 | 25 | 2,048 | 中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語 |
text-embedding-async-v1 | 1,536 | 100,000 | 2,048 | 中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語 | |
text-embedding-v2 | 1,536 | 25 | 2,048 | 中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語 | |
text-embedding-async-v2 | 1,536 | 100,000 | 2,048 | 中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語 | |
text-embedding-v3 | 1,024、768、または 512 | 6 | 8,192 | 中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語を含む 50 以上の言語 |
現在、text-embedding-v3 のみがサポートされています。
text-embedding-v2 モデルには、text-embedding-v1 に基づいて次の更新が組み込まれています。
サポートされる言語の追加: text-embedding-v2 は、日本語、韓国語、ドイツ語、ロシア語をサポートしています。
パフォーマンス: 公開されているデータセットの評価結果によると、事前トレーニング済みモデルを基盤として使用し、特定のファインチューニング(SFT)戦略を適用することで、text-embedding-v2 の全体的なパフォーマンスが向上しています。
text-embedding-v3 モデルには、text-embedding-v2 に基づく以下の更新が組み込まれています。
さらに多くの言語をサポート: text-embedding-v3 は、イタリア語、ポーランド語、ベトナム語、タイ語など、50 以上の言語をサポートしています。
入力トークン長: 最大トークン長が 2,048 から 8,192 に増加しました。
可変密ベクトル次元: text-embedding-v3 では、密ベクトルの次元を 512、768、または 1,024 から選択できます。ダウンストリームタスクのコストを削減しながら高パフォーマンスを維持するために、text-embedding-v3 の最大ベクトル次元は 1,024 に削減されています。
クエリとドキュメントタイプの統一処理: text-embedding-v3 は、入力テキストのタイプを区別せず、高パフォーマンスを維持します。 text_type パラメーターにクエリまたはドキュメントを指定する必要はありません。
スパースベクトルのサポート: text-embedding-v3 は、密ベクトルとスパースベクトルをサポートしています。 output_type パラメーターを指定して、出力が密ベクトル、スパースベクトル、またはその両方であるかを制御できます。
パフォーマンス: 公開されているデータセットの評価結果によると、事前トレーニング済みモデルを基盤として使用し、SFT 戦略を適用することで、text-embedding-v3 の全体的なパフォーマンスが向上しています。
モデル | MTEB | MTEB(検索タスク) | CMTEB | CMTEB(検索タスク) |
text-embedding-v1 | 58.30 | 45.47 | 59.84 | 56.59 |
text-embedding-v2 | 60.13 | 49.49 | 62.17 | 62.78 |
text-embedding-v3 | 63.39 | 55.41 | 68.92 | 73.23 |
text-embedding-v3 のさまざまなベクトル次元
モデル | ベクトルの次元 | MTEB | MTEB(検索タスク) | CMTEB | CMTEB(検索タスク) |
text-embedding-v3 | 1,024 | 63.39 | 55.41 | 68.92 | 73.23 |
text-embedding-v3 | 768 | 62.43 | 54.74 | 67.90 | 72.29 |
text-embedding-v3 | 512 | 62.11 | 54.30 | 66.81 | 71.88 |
正規化: デフォルトでは、text-embedding-v2 と text-embedding-v3 は出力ベクトルを正規化します。