通過ModelScope開源Embedding模型將文本轉換為向量

0.0.201

本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

本文介紹如何通過ModelScope魔搭社區中的文本向量開源模型將文本轉換為向量，併入庫至向量檢索服務DashVector中進行向量檢索。

ModelScope魔搭社區旨在打造下一代開源的模型即服務共用平台，為泛AI開發人員提供靈活、易用、低成本的一站式模型服務供應項目，讓模型應用更簡單。

ModelScope魔搭社區的願景是彙集行業領先的預訓練模型，減少開發人員的重複研發成本，提供更加綠色環保、開源開放的AI開發環境和模型服務，助力綠色“數字經濟”事業的建設。 ModelScope魔搭社區將以開源的方式提供多類優質模型，開發人員可在平台上免費體驗與下載使用。

在ModelScope魔搭社區，您可以：

免費使用平台提供的預訓練模型，支援免費下載運行
一行命令實現模型預測，簡單快速驗證模型效果
用自己的資料對模型進行調優，定製自己的個人化模型
學習系統性的知識，結合實訓，有效提升模型研發能力
分享和貢獻你的想法、評論與模型，讓更多人認識你，在社區中成長

前提條件

DashVector：
- 已建立Cluster：建立Cluster
- 已獲得API-KEY：API-KEY管理
- 已安裝最新版SDK：安裝DashVector SDK
ModelScope：
- 已安裝最新版SDK：pip install -U modelscope

CoROM文本向量

簡介

模型ID	向量維度	度量方式	向量資料類型	備忘

模型ID	向量維度	度量方式	向量資料類型	備忘
damo/nlp_corom_sentence-embedding_chinese-base	768	Cosine	Float32	中文-通用領域-base 最長文本長度：512
damo/nlp_corom_sentence-embedding_english-base	768	Cosine	Float32	英文-通用領域-base 最長文本長度：512
damo/nlp_corom_sentence-embedding_chinese-base-ecom	768	Cosine	Float32	中文-電商領域-base 最長文本長度：512
damo/nlp_corom_sentence-embedding_chinese-base-medical	768	Cosine	Float32	中文-醫學領域-base 最長文本長度：512
damo/nlp_corom_sentence-embedding_chinese-tiny	256	Cosine	Float32	中文-通用領域-tiny 最長文本長度：512
damo/nlp_corom_sentence-embedding_english-tiny	256	Cosine	Float32	英文-通用領域-tiny 最長文本長度：512
damo/nlp_corom_sentence-embedding_chinese-tiny-ecom	256	Cosine	Float32	中文-電商領域-tiny 最長文本長度：512
damo/nlp_corom_sentence-embedding_chinese-tiny-medical	256	Cosine	Float32	中文-醫學領域-tiny 最長文本長度：512

說明

關於CoROM文本向量模型更多資訊請參考：CoROM文本向量

使用樣本

說明

需要進行如下替換代碼才能正常運行：

DashVector api-key替換樣本中的{your-dashvector-api-key}
DashVector Cluster Endpoint替換樣本中的{your-dashvector-cluster-endpoint}
使用上表中模型ID替換樣本中的{model_id}
需注意，若所使用的模型若為tiny模型，則向量維度為256

Python

            
            
          
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from typing import List
from dashvector import Client


pipeline_se = pipeline(Tasks.sentence_embedding, model='{model_id}')


def generate_embeddings(texts: List[str]):
    inputs = {'source_sentence': texts}
    result = pipeline_se(input=inputs)
    return result['text_embedding']


########### 以下為通用樣本：向量入庫DashVector和向量檢索代碼參考###########
# 建立DashVector Client
client = Client(
    api_key='{your-dashvector-api-key}',
    endpoint='{your-dashvector-cluster-endpoint}'
)

# 建立DashVector Collection
# 注意：需根據模型對應向量維度調整dimension參數
rsp = client.create('CoROM-text-embedding', dimension=768)
assert rsp
collection = client.get('CoROM-text-embedding')
assert collection

# 向量入庫DashVector
collection.insert(
    ('ID1', generate_embeddings(['阿里雲向量檢索服務DashVector是效能、性價比具佳的向量資料庫之一'])[0])
)

# 向量檢索
docs = collection.query(
    generate_embeddings(['The best vector database'])[0]
)
print(docs)

GTE文本向量

簡介

模型ID	向量維度	度量方式	向量資料類型	備忘

模型ID	向量維度	度量方式	向量資料類型	備忘
damo/nlp_gte_sentence-embedding_chinese-base	768	Cosine	Float32	中文-通用領域-base 最長文本長度：512
damo/nlp_gte_sentence-embedding_chinese-large	768	Cosine	Float32	中文-通用領域-large 最長文本長度：512
damo/nlp_gte_sentence-embedding_chinese-small	512	Cosine	Float32	中文-通用領域-small 最長文本長度：512
damo/nlp_gte_sentence-embedding_english-base	768	Cosine	Float32	英文-通用領域-base 最長文本長度：512
damo/nlp_gte_sentence-embedding_english-large	768	Cosine	Float32	英文-通用領域-large 最長文本長度：512
damo/nlp_gte_sentence-embedding_english-small	384	Cosine	Float32	英文-通用領域-small 最長文本長度：512

說明

關於GTE文本向量模型更多資訊請參考：GTE文本向量

使用樣本

本模型使用樣本同CoROM文本向量-使用樣本，進行相應模型ID和向量維度替換即可運行。

Udever 多語言通用文本表示模型

簡介

模型ID	向量維度	度量方式	向量資料類型	備忘

模型ID	向量維度	度量方式	向量資料類型	備忘
damo/udever-bloom-560m	1024	Cosine	Float32	模型參數：560m 最長文本長度：2048
damo/udever-bloom-1b1	1536	Cosine	Float32	模型參數：1b1 最長文本長度：2048
damo/udever-bloom-3b	2048	Cosine	Float32	模型參數：3b 最長文本長度：2048
damo/udever-bloom-7b1	4096	Cosine	Float32	模型參數：7b1 最長文本長度：2048

說明

關於Udever 多語言通用文本表示模型更多資訊請參考：Udever 多語言通用文本表示模型

使用樣本

本模型使用樣本同CoROM文本向量-使用樣本，進行相應模型ID和向量維度替換即可運行。

StructBERT FAQ問答

簡介

模型ID	向量維度	度量方式	向量資料類型	備忘

模型ID	向量維度	度量方式	向量資料類型	備忘
damo/nlp_structbert_faq-question-answering_chinese-base	768	Cosine	Float32	中文-通用領域-base 最長文本長度：不限制
damo/nlp_structbert_faq-question-answering_chinese-finance-base	768	Cosine	Float32	中文-金融領域-base 最長文本長度：不限制
damo/nlp_structbert_faq-question-answering_chinese-gov-base	768	Cosine	Float32	中文-政務領域-base 最長文本長度：不限制

說明

關於StructBERT FAQ問答模型更多資訊請參考：StructBERT FAQ問答

使用樣本

說明

需要進行如下替換代碼才能正常運行：

使用上表中模型ID替換樣本中的{model_id}

Python

            
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from typing import List

pipeline = pipeline(Tasks.faq_question_answering, model='{model_id}')

def generate_embeddings(texts: List[str], max_len=30):
    return pipeline.get_sentence_embedding(texts)

說明

本樣本中，向量入庫DashVector和向量檢索代碼，參考CoROM文本向量-使用樣本中的通用樣本部分

前提條件

CoROM文本向量

簡介

使用樣本

GTE文本向量

簡介

使用樣本

Udever 多語言通用文本表示模型

簡介

使用樣本

StructBERT FAQ問答

簡介

使用樣本

更多文本向量模型

銷售支援

技術支援

聯絡我們 & 報告濫用行為

模型名稱	模型ID	向量維度	度量方式	向量資料類型	備忘
Bert實體向量-中文-通用領域-base	damo/nlp_bert_entity-embedding_chinese-base	768	Cosine	Float32	預設最長文本長度：128 詳情
英文文本向量表示模型-TextRetrieval	damo/nlp_minilm_ibkd_sentence-embedding_english-msmarco	384	Cosine	Float32	預設最長文本長度：128 詳情
英文文本向量表示模型MiniLM-IBKD-STS	damo/nlp_minilm_ibkd_sentence-embedding_english-sts	384	Cosine	Float32	預設最長文本長度：128 詳情
text2vec-base-chinese	thomas/text2vec-base-chinese	768	Cosine	Float32	預設最長文本長度：未知詳情
text2vec-large-chinese	thomas/text2vec-large-chinese	1024	Cosine	Float32	預設最長文本長度：未知詳情

關於 Alibaba Cloud

環球網絡

快速入門

環球辦公室

2024年巴黎奧運會 New

羅蘭加洛斯球場 — 昔日榮光 New

協和廣場 —「打破」障礙 New

馬恩河畔韋爾航海體育場 — 可持續運動 New

國際廣播中心 — 吸引數十億人的影像、聲音和數據 New

客戶成功案例 New

阿里雲信任中心

合規計劃

雲端合規資源

合規常見問題

最新產品及功能 New

Cloud Forward

新聞發佈室

阿里雲電子期刊 New

Alibaba Cloud 分析師研究

公告

阿里雲出海業務 New

“橙”雲出海服務聯盟

Asia Accelerator Hot

資訊合規

China Gateway - MLPS 2.0 合規 New

China Gateway - 網絡

China Gateway - 全球加速應用程式 New

China Gateway - 安全

China Gateway - 數據安全 New

ICP 支援 Hot

China Gateway - 全域數據中台 New

China Gateway - 組織數據中端 New

China Gateway - 業務中端 New

China Gateway - 智慧客服解決方案 New

China Gateway - 網上教育

China Gateway - 網域註冊

工作在阿里雲

資深專業人士

學生和畢業生

免费试用

定價

優惠中心

減價

付出更少金錢，進行更多部署

FinOps

Elastic Compute Service (ECS)

Simple Application Server (SAS)

Elastic GPU Service

Elastic Desktop Service (EDS)

Object Storage Service (OSS)

Cloud Enterprise Network (CEN)

Web Application Firewall (WAF)

Domain Names

Container Compute Service (ACS)

Secure Access Service Edge (SASE)

Intelligent Media Services(IMS)

Edge Security Acceleration (ESA)(Original DCDN)

Intelligent Media Management

DingTalk Enterprise

YiDA

Alibaba Cloud Model Studio

Apsara Prime - 更輕鬆選擇雲端產品

阿裡雲ECS-滿足您所有的雲託管需求

1TB CDN—立即獲享免費 1 TB 輸出流量方案

安全性—面臨攻擊？ 獲享免費安全支援

Short Message Service - 免費測試現已登場

Elastic Compute Service (ECS) Hot

CloudBox

Compute Nest

Dedicated Host Hot

ECS Bare Metal Instance

Elastic GPU Service Featured

Simple Application Server (SAS) Hot

Auto Scaling

Cloud Phone Beta

Elastic Desktop Service (EDS) Featured

Batch Compute

Elastic High Performance Computing (E-HPC)

Super Computing Cluster (SCC)

Function Compute (FC)

安全性—面臨攻擊？獲享免費安全支援