全部产品
Search
文档中心

智能开放搜索 OpenSearch:数据配置

更新时间:Jun 12, 2024

数据处理配置

数据结构介绍

数据结构暂时为固定模板,有idtitleurlcontentcategory,timestamp,score 7个字段。

image

说明

数据结构有2种导入方式:API导入上传文件导入

category字段支持多值,每个item用英文逗号隔开使用说明可参考扩展参数

上传文件导入

1、结构化数据

上传格式为 TXT、JSON的结构化数据,点击上传文件导入->上传本地文件,上传编辑好的文件,点击上传文件。

image

上传格式为EXCEL的结构化数据点击上传文件导入->结构化数据,上传编辑好的文件,点击上传文件。

image

说明
  • 表名配置规则是英文字母、数据或者下划线,表名不要超过20个字符。

  • 字段名称,命名规则是英文字母或下划线,不能以下划线开头,每个字段名不要超过30个字符。

  • 每个excel最多支持30个字段的数据写入和查询,超出的部分会忽略。

2、非结构化数据

点击上传文件导入->非结构化数据导入,可导入本地文件中doc、docx、pdf、html格式的文件,最后点击上传文件

image

说明
  • 非结构化文档支持添加多个;

  • 如果word格式文件内的图片比较多,建议转为pdf格式再上传,速度会比较快;

  • 单个文档的大小不能超过128M。

网页链接导入

1、点击数据配置->网页链接导入,导入需要进行问答的内容所对应的网站链接。

image

2、单个链接导入:点击多个链接导入填入网站链接,如需上传多个,每个链接各占一行,填入完毕后点击上传。

image

3、网站导入:点击网站导入->新建任务传入网站链接填写对应的文档类目名。

image

image

说明
  • 网站链接:需要传入的网站链接。

  • category:查传入链接的类目名称。

  • URL过滤:默认的URL过滤规则为以URL开头的网站地址。比如,网站URL为http://www.abc.com/,则默认正则表达式为:http://www\.abc\.com/.*。

  • Xpath选择器:比如要精确获取div标签下的内容,该项设为://div

  • CSS选择器:比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div>,该项设为:div.content

  • 暂不支持以.png/.jpg/.jpeg结尾的URL

4、点击确认任务状态会变成等待中,链接导入完毕后任务状态会变成运行完成,并显示导入条数。

image

添加数据源

1、点击数据配置->配置辅表->添加表选择通过数据源创建,然后点击下一步。

image

image.png

2、选择MaxComputer数据源,点击新建数据库,按要求填写project名称、accessKey和accessKeySecret,然后点击连接。

image.png

image.png

说明

project名称:MaxComputer的项目名。

accessKey:MaxComputer项目所在账号的accessKey。

accessKeySecret:MaxComputer项目所在账号的accessKeySecret。

3、选择需要参与问答的数据表然后点击确认。

image.png

4、打开文本问答按钮,给需要进行文本问答的字段指定字段标签。

image.png

5、填入分区条件(不填分区条件默认拉取全部分区数据),点击完成等待构建完毕后可在问答测试页面测试问答效果。

image.png

image.png

数据查询

文档上传成功后可以通过文档总数查看具体的数量,也可以通过问答测试页面查看推送内容。支持通过主键查看已经推送成功的数据,并支持通过主键删除对应的数据。

1、查看数据

在id后的输入框中输入已经推送成功数据的主键ID点击搜索即可查看推送的数据详情。

image.png

2、删除数据

在id后的输入框中输入想要删除数据的主键ID点击删除->确定即可删除该文档。

image.png

image.png

3、编辑数据

llm智能问答版支持在控制台直接编辑数据,可在id后的输入框里面填入需修改的数据主键ID,点击编辑按钮, 可以对可编辑字段进行修改。

image.png

image.png

注意事项

  1. 主键id是唯一键,如有重复后者数据会覆盖前者。

  2. 结构化数据单次上传最大为2M。

  3. 非结构化数据单个文件大小最大不能超过128M。

  4. 数据上传成功后可正常查询时间取决于当时整体的数据更新量 。

  5. 添加辅表最大个数是5张,每张辅表总字段数是30个。