通用文本向量是一種人工智慧技術,通過將文本轉換為高維向量表示,捕捉其語義資訊,從而支援文本相似性計算、分類和檢索等多種自然語言處理任務。
模型介紹
通用文本向量,是通義實驗室基於LLM底座的多語言文本統一向量模型,面向全球多個主流語種,提供高水準的向量服務,協助開發人員將文本資料快速轉換為高品質的向量資料。
向量維度指的是向量中包含的元素數量。例如,一個 1024 維的向量包含 1024 個數值。維度越高,向量能表示的資訊就越豐富,從而更細緻地捕捉文本的特性。
模型中文名 | 模型英文名 | 向量維度 | 單次請求文本最大行數 | 單行最大輸入token長度 | 支援語種 |
通用文本向量 | text-embedding-v3 | 1024/768/512 | 6 | 8192 | 中文、英語、西班牙語、法語、葡萄牙語、印尼語、日語、韓語、德語、俄羅斯語等50+語種 |