通过PythonSDK向Collection中插入Doc - 向量检索服务 DashVector

本文介绍如何通过Python SDK向Collection中插入Doc。

说明

插入Doc时若指定id已存在，已存在的Doc不会被覆盖，本次插入Doc操作无效。
插入Doc时若不指定id，则在插入过程中会自动生成id，并在返回结果中携带id信息。

前提条件

已创建Cluster：创建Cluster。
已获得API-KEY：API-KEY管理。
已安装最新版SDK：安装DashVector SDK。

接口定义

Python

Collection.insert(
    docs: Union[Doc, List[Doc], Tuple, List[Tuple]],
    partition: Optional[str] = None,
    async_req: False
) -> DashVectorResponse

使用示例

说明

需要使用您的api-key替换示例中的YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT，代码才能正常运行。
本示例需要参考新建Collection-使用示例提前创建好名称为quickstart的Collection。

Python

import dashvector
from dashvector import Doc
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')

插入Doc

Python

# 通过Doc对象insert
ret = collection.insert(
    Doc(
        id='1',
        vector=[0.1, 0.2, 0.3, 0.4]
    )
)
# 判断insert是否成功
assert ret

# 简化形式：通过Tuple insert
ret = collection.insert(
    ('2', [0.1, 0.1, 0.1, 0.1])               # (id, vector)
)

插入不带有Id的Doc

Python

# 插入Doc不携带id
ret = collection.insert(
  Doc(vector=[0.1, 0.2, 0.3, 0.4])
)

# 简化形式：通过Tuple insert
ret = collection.insert(
  ([0.1, 0.1, 0.1, 0.1],)
)

插入带有Fields的Doc

Python

# insert单条数据，并设置Fields Value
ret = collection.insert(
    Doc(
        id='3',
        vector=np.random.rand(4),
        fields={
            # 设置创建Collection时预定义的Fields Value
            # name:str, weight:float, age:int, id:dashvector.long, tags:List[str], numbers:List[int], bank_cards:List[long], grades:List[float]
            'name': 'zhangsan', 'weight':70.0, 'age':30, 'id':1234567890,
            'tags': ["male", "sport", "music"],
            'numbers': [1, 2, 3],
            'bank_cards': [1001, 1002, 1003],
            'grades': [92.5, 87.5, 78.5],            
            # 设置Schema-Free的Field & Value
            'anykey1': 'str-value', 'anykey2': 1,
            'anykey3': True, 'anykey4': 3.1415926
        }
    )
)

# insert单条数据，并设置Fields Value
ret = collection.insert(
    ('4', np.random.rand(4), {'foo': 'bar'})  # (id, vector, fields)
)

批量插入Doc

Python

# 通过Doc对象，批量insert 10条数据
ret = collection.insert(
    [
        Doc(id=str(i+5), vector=np.random.rand(4)) for i in range(10)
    ]
)

# 简化形式：通过Tuple，批量insert 3条数据
ret = collection.insert(
    [
        ('15', [0.2,0.7,0.8,1.3], {'age': 20}),
        ('16', [0.3,0.6,0.9,1.2], {'age': 30}),
        ('17', [0.4,0.5,1.0,1.1], {'age': 40})
    ]                                         # List[(id, vector, fields)]
)

# 判断批量insert是否成功
assert ret

异步插入Doc

Python

# 异步批量insert 10条数据
ret_funture = collection.insert(
    [
        Doc(id=str(i+18), vector=np.random.rand(4), fields={'name': 'foo' + str(i)}) for i in range(10)
    ],
    async_req=True
)
# 等待并获取异步insert结果
ret = ret_funture.get()

插入带有Sparse Vector的Doc

Python

ret = collection.insert(
    Doc(
        id='28',
        vector=[0.1, 0.2, 0.3, 0.4],
        sparse_vector={1:0.4, 10000:0.6, 222222:0.8}
    )
)

插入多向量的Doc

Python

collection = client.get(name='multi_vector_demo')
docs = []
docs.append(Doc(id='1', vectors={"title": [0.3, 0.4, 0.5, 0.6], "content": [0.3, 0.4, 0.5, 0.6, 0.7, 0.8]}))
docs.append(Doc(id='2', vectors={"title": [0.3, 0.4, 0.5, 0.6]}, fields={'author':'zhangsan'}))
docs.append(Doc(id='3', vectors={"content": [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]}, fields={'anykey':'anyvalue'}))
docs.append(Doc(id='4', vectors={"title": [0.3, 0.4, 0.5, 0.6], "content": [0.3, 0.4, 0.5, 0.6, 0.7, 0.8]}, sparse_vectors={"abstruct": {0: 0.1, 1: 0.32, 2: 0.482}}))
docs.append(Doc(id='5', sparse_vectors={"abstruct": {0: 0.3, 1: 0.232, 2: 0.4482, 3: 0.6672}}, fields={'author':'lisi'}))
ret = collection.insert(docs)
print(ret)

说明

多向量Collection中，稠密向量+稀疏向量字段总共不能超过4条

入参描述

参数	类型	默认值	说明
docs	Union[Doc, List[Doc], Tuple, List[Tuple]]	-	插入的数据或数据list
partition（可选）	Optional[str]	None	Partition名称
async_req（可选）	bool	False	是否异步

说明

docs参数，id为非必填项。当类型为Tuple时，可以为(vector)、(id, vector)、(vector, fields)或(id, vector, fields)顺序，等同于Doc对象。
Doc对象的fields参数，可自由设置“任意”的KeyValue数据，Key必须为str类型，Value必须为str or int or bool or float or long or List[long] or List[str] or List[int] or List[float]。
1. 当Key在创建Collection时预先定义过，则Value的类型必须为预定义时的类型
2. 当Key未在创建Collection时预先定义过，则Value的类型可为str or int or bool or float or long
是否预先定义Fields，可参考Schema Free。

出参描述

说明

返回结果为DashVectorResponse对象，DashVectorResponse对象中可获取本次操作结果信息，如下表所示。

字段	类型	描述	示例
code	int	返回值，参考返回状态码说明	0
message	str	返回消息	success
request_id	str	请求唯一id	19215409-ea66-4db9-8764-26ce2eb5bb99
output	List[DocOpResult]	返回插入Doc的结果