全部產品
Search
文件中心

Vector Retrieval Service:插入Doc

更新時間:Aug 28, 2024

本文介紹如何通過Python SDK向Collection中插入Doc。

說明
  1. 插入Doc時若指定id已存在,已存在的Doc不會被覆蓋,本次插入Doc操作無效。

  2. 插入Doc時若不指定id,則在插入過程中會自動產生id,並在返回結果中攜帶id資訊。

前提條件

介面定義

Collection.insert(
    docs: Union[Doc, List[Doc], Tuple, List[Tuple]],
    partition: Optional[str] = None,
    async_req: False
) -> DashVectorResponse

使用樣本

說明
  1. 需要使用您的api-key替換樣本中的YOUR_API_KEY、您的Cluster Endpoint替換樣本中的YOUR_CLUSTER_ENDPOINT,代碼才能正常運行。

  2. 本樣本需要參考建立Collection-使用樣本提前建立好名稱為quickstart的Collection。

import dashvector
from dashvector import Doc
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')

插入Doc

# 通過Doc對象insert
ret = collection.insert(
    Doc(
        id='1',
        vector=[0.1, 0.2, 0.3, 0.4]
    )
)
# 判斷insert是否成功
assert ret

# 簡化形式:通過Tuple insert
ret = collection.insert(
    ('2', [0.1, 0.1, 0.1, 0.1])               # (id, vector)
)

插入不帶有Id的Doc

# 插入Doc不攜帶id
ret = collection.insert(
  Doc(vector=[0.1, 0.2, 0.3, 0.4])
)

# 簡化形式:通過Tuple insert
ret = collection.insert(
  ([0.1, 0.1, 0.1, 0.1],)
)

插入帶有Fields的Doc

# insert單條資料,並設定Fields Value
ret = collection.insert(
    Doc(
        id='3',
        vector=np.random.rand(4),
        fields={
            # 設定建立Collection時預定義的Fields Value
            'name': 'zhangsan', 'weight':70.0, 'age':30, 
            # 設定Schema-Free的Field & Value
            'anykey1': 'str-value', 'anykey2': 1,
            'anykey3': True, 'anykey4': 3.1415926
        }
    )
)

# insert單條資料,並設定Fields Value
ret = collection.insert(
    ('4', np.random.rand(4), {'foo': 'bar'})  # (id, vector, fields)
)

批量插入Doc

# 通過Doc對象,批量insert 10條資料
ret = collection.insert(
    [
        Doc(id=str(i+5), vector=np.random.rand(4)) for i in range(10)
    ]
)

# 簡化形式:通過Tuple,批量insert 3條資料
ret = collection.insert(
    [
        ('15', [0.2,0.7,0.8,1.3], {'age': 20}),
        ('16', [0.3,0.6,0.9,1.2], {'age': 30}),
        ('17', [0.4,0.5,1.0,1.1], {'age': 40})
    ]                                         # List[(id, vector, fields)]
)

# 判斷批量insert是否成功
assert ret

非同步插入Doc

# 非同步批量insert 10條資料
ret_funture = collection.insert(
    [
        Doc(id=str(i+18), vector=np.random.rand(4), fields={'name': 'foo' + str(i)}) for i in range(10)
    ],
    async_req=True
)
# 等待並擷取非同步insert結果
ret = ret_funture.get()

插入帶有Sparse Vector的Doc

ret = collection.insert(
    Doc(
        id='28',
        vector=[0.1, 0.2, 0.3, 0.4],
        sparse_vector={1:0.4, 10000:0.6, 222222:0.8}
    )
)

入參描述

參數

類型

預設值

說明

docs

Union[Doc, List[Doc], Tuple, List[Tuple]]

-

插入的資料或資料list

partition(可選)

Optional[str]

None

Partition名稱

async_req(可選)

bool

False

是否非同步

說明
  1. docs參數,id為非必填項。當類型為Tuple時,可以為(vector)(id, vector)(vector, fields)(id, vector, fields)順序,等同於Doc對象。

  2. Doc對象的fields參數,可自由設定“任意”的KeyValue資料,Key必須為str類型,Value必須為str or int or bool or float

    1. 當Key在建立Collection時預先定義過,則Value的類型必須為預定義時的類型

    2. 當Key未在建立Collection時預先定義過,則Value的類型可為str or int or bool or float

  3. 是否預先定義Fields,可參考Schema Free

出參描述

說明

返回結果為DashVectorResponse對象,DashVectorResponse對象中可擷取本次操作結果資訊,如下表所示。

欄位

類型

描述

樣本

code

int

傳回值,參考返回狀態代碼說明

0

message

str

返回訊息

success

request_id

str

請求唯一id

19215409-ea66-4db9-8764-26ce2eb5bb99

output

List[DocOpResult]

返回插入Doc的結果