创建一个非结构化知识库,并将一个或多个已解析的文档导入该知识库。暂不支持通过API创建结构化知识库,请通过控制台创建。
接口说明
- 您必须预先将您的原始文档上传至百炼的数据管理并获得相应的
FileId
,以作为创建知识库时的初始知识来源。可以调用 AddFile 接口上传。 - 本接口仅初始化知识库创建作业,接下来还需要再调用 SubmitIndexJob 接口以完成创建。
- 本接口不具备幂等性。
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。
授权信息
下表是API对应的授权信息,可以在RAM权限策略语句的Action
元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:
- 操作:是指具体的权限点。
- 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
- 资源类型:是指操作中支持授权的资源类型。具体说明如下:
- 对于必选的资源类型,用背景高亮的方式表示。
- 对于不支持资源级授权的操作,用
全部资源
表示。
- 条件关键字:是指云产品自身定义的条件关键字。
- 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作 | 访问级别 | 资源类型 | 条件关键字 | 关联操作 |
---|---|---|---|---|
sfm:CreateIndex | create | *全部资源 * |
| 无 |
请求语法
POST /{WorkspaceId}/index/create HTTP/1.1
请求参数
名称 | 类型 | 必填 | 描述 | 示例值 |
---|---|---|---|---|
WorkspaceId | string | 是 | 知识库所属的业务空间 ID。在百炼的控制台首页,单击页面左上角业务空间详情图标获取。 | llm-3z7uw7fwz0vexxxx |
Name | string | 是 | 知识库的名称。长度为 1~20 个字符,支持 Unicode 中 letter 分类下的字符(其中包括英文、中文和数字等)。可以包含半角冒号(:)、下划线(_)、半角句号(.)或者短划线(-)。 | 企业帮助文档库 |
StructureType | string | 是 | 知识库的数据类型。更多信息,请参见知识库。取值范围:
说明
请注意,知识库创建后将无法更改其数据类型,且管理结构化文档的知识库暂不支持通过 API 进行创建,请通过控制台创建此类知识库。
| unstructured |
EmbeddingModelName | string | 否 | Embedding 模型名称。Embedding 模型用于将原始输入 prompt 和知识文本转化为数值化向量,以便对二者进行相似度比较。默认的 DashScope text-embedding-v2 模型(暂不支持更改)除了支持中英文双语外,还支持多种语言,并对向量结果进行归一化处理。更多信息,请参见知识库。取值范围:
默认值为空,采用 text-embedding-v2 模型。 | text-embedding-v2 |
RerankModelName | string | 否 | Rank 模型名称。Rank 模型是一种位于知识库外部的评分系统,它会计算用户问题与知识库中每个文本切片的相似度分数并按此降序排列,并返回分数最高的前 K 个文本切片。更多信息,请参见知识库。取值范围:
默认值为空,采用 gte-rerank-hybrid,即官方排序。 说明
如只需语义排序,建议您使用 gte-rerank 排序;若同时需要语义排序和文本匹配特征以确保相关性,则建议您采用官方排序。
| gte-rerank-hybrid |
RerankMinScore | double | 否 | 相似度阈值。该阈值表示允许召回的文本切片的最低相似度分数,用于筛选 Rank 模型返回的文本切片,即只有分数超过此数值的文本切片才会被召回。更多信息,请参见知识库。取值范围[0.01-1.00]。 默认值为 0.20。 | 0.20 |
ChunkSize | integer | 否 | 分段预估长度。它表示文本切片的字符数上限。超过该长度时,文本将被强制切割。更多信息,请参见知识库。取值范围[1-2048]。 默认值为空,采用智能切分策略。 说明
如果您指定了 ChunkSize 参数,则必须指定OverlapSize 参数。您也可以不指定这 2 个参数,系统将默认采用智能切分策略。
| 128 |
OverlapSize | integer | 否 | 分段重叠长度。它表示当前文本切片与上一个文本切片的重叠字符数。更多信息,请参见知识库。取值范围[0-1024]。 默认值为空,采用智能切分策略。 | 16 |
Separator | string | 否 | 分句标识符。文档将按此标识符分割成小的文本切片。更多信息,请参见知识库。取值范围(支持同时传入多个分句标识符,多个分隔符之间无需使用特殊符号进行分割,直接连续书写即可,如!,\\n):
默认值为空,采用智能切分策略。 | , |
SourceType | string | 是 | DATA_CENTER_FILE | |
DocumentIds | array | 否 | 导入知识库的文档 ID 列表。 | |
string | 否 | file_9a65732555b54d5ea10796ca5742ba22_xxxxxxxx | ||
CategoryIds | array | 否 | 导入知识库的类目 ID 列表。 | |
string | 否 | 类目 ID,即AddCategory 接口返回的 | ca_hiu2383nfxxxx | |
DataSource | object | 否 | 说明
该参数暂不开放,请勿传入。
| |
CredentialId | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
CredentialKey | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
Database | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
Endpoint | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
IsPrivateLink | boolean | 否 | 说明
该参数暂不开放,请勿传入。
| |
Region | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
SubPath | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
SubType | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
Table | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
Type | string | 否 | 说明
该参数暂不开放,请勿传入。
| |
SinkType | string | 是 | BUILT_IN | |
SinkInstanceId | string | 否 | 知识库的向量存储的实例 ID(仅在向量存储类型是 ADB 时传入)。您可以前往AnalyticDB for PostgreSQL 数据实例列表页面获取此 ID。 | gp-bp32109xxxx |
SinkRegion | string | 否 | 知识库的向量存储的实例地域(仅在向量存储类型是 ADB 时传入)。您可以调用 DescribeRegions 查看最新的阿里云地域列表。 | cn-hangzhou |
Columns | array<object> | 否 | 说明
该参数暂不开放,请勿传入。
| |
object | 否 | |||
Column | string | 否 | 说明
该参数暂不开放,请勿传入。
| school |
IsRecall | boolean | 否 | 说明
该参数暂不开放,请勿传入。
| true |
IsSearch | boolean | 否 | 说明
该参数暂不开放,请勿传入。
| true |
Name | string | 否 | 说明
该参数暂不开放,请勿传入。
| 学校 |
Type | string | 否 | 说明
该参数暂不开放,请勿传入。
| string |
Description | string | 否 | 知识库描述。长度为 0~1000 个英文或中文字符。 默认值为空。 | 企业帮助文档库包括了公司制度、产品清单等重要资料。 |
metaExtractColumns | array<object> | 否 | metadata 抽取信息 | |
object | 否 | |||
Key | string | 否 | 字段名,英文 | file_name |
Value | string | 否 | 值 | 测试文件.txt |
Type | string | 否 | 取值方法 枚举值:
| custom_prompt |
Desc | string | 否 | 字段描述 | 文件名 |
EnableLlm | boolean | 否 | 是否参与检索 | true |
EnableSearch | boolean | 否 | 是否参与模型回复 | true |
返回参数
示例
正常返回示例
JSON
格式
{
"Code": "Index.Forbidden",
"Data": {
"Id": "jkurxhxxxx"
},
"Message": "Invalid input, variable name is missing",
"RequestId": "17204B98-xxxx-4F9A--2446A84821CA",
"Status": "200",
"Success": true
}
错误码
访问错误中心查看更多错误码。
变更历史
变更时间 | 变更内容概要 | 操作 |
---|