数据处理配置
数据结构介绍
数据结构暂时为固定模板,有id,title,url,content,category,timestamp,score 7个字段。
数据结构有2种导入方式:API导入和上传文件导入。
category字段支持多值,每个item用英文逗号隔开使用说明可参考扩展参数
上传文件导入
1、结构化数据
上传格式为 TXT、JSON的结构化数据,点击上传文件导入->上传本地文件,上传编辑好的文件,点击上传文件。
上传格式为EXCEL的结构化数据点击上传文件导入->结构化数据,上传编辑好的文件,点击上传文件。
表名配置规则是英文字母、数据或者下划线,表名不要超过20个字符。
字段名称,命名规则是英文字母或下划线,不能以下划线开头,每个字段名不要超过30个字符。
每个excel最多支持30个字段的数据写入和查询,超出的部分会忽略。
2、非结构化数据
点击上传文件导入->非结构化数据导入,可导入本地文件中doc、docx、pdf、html格式的文件,最后点击上传文件
非结构化文档支持添加多个;
如果word格式文件内的图片比较多,建议转为pdf格式再上传,速度会比较快;
单个文档的大小不能超过128M。
网页链接导入
1、点击数据配置->网页链接导入,导入需要进行问答的内容所对应的网站链接。
2、单个链接导入:点击多个链接导入填入网站链接,如需上传多个,每个链接各占一行,填入完毕后点击上传。
3、网站导入:点击网站导入->新建任务传入网站链接填写对应的文档类目名。
网站链接:需要传入的网站链接。
category:查传入链接的类目名称。
URL过滤:默认的URL过滤规则为以URL开头的网站地址。比如,网站URL为http://www.abc.com/,则默认正则表达式为:http://www\.abc\.com/.*。
Xpath选择器:比如要精确获取div标签下的内容,该项设为://div
CSS选择器:比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div>,该项设为:div.content
暂不支持以.png/.jpg/.jpeg结尾的URL
4、点击确认任务状态会变成等待中,链接导入完毕后任务状态会变成运行完成,并显示导入条数。
添加数据源
1、点击数据配置->配置辅表->添加表选择通过数据源创建,然后点击下一步。
2、选择MaxComputer数据源,点击新建数据库,按要求填写project名称、accessKey和accessKeySecret,然后点击连接。
project名称:MaxComputer的项目名。
accessKey:MaxComputer项目所在账号的accessKey。
accessKeySecret:MaxComputer项目所在账号的accessKeySecret。
3、选择需要参与问答的数据表然后点击确认。
4、打开文本问答按钮,给需要进行文本问答的字段指定字段标签。
5、填入分区条件(不填分区条件默认拉取全部分区数据),点击完成等待构建完毕后可在问答测试页面测试问答效果。
数据查询
文档上传成功后可以通过文档总数查看具体的数量,也可以通过问答测试页面查看推送内容。支持通过主键查看已经推送成功的数据,并支持通过主键删除对应的数据。
1、查看数据
在id后的输入框中输入已经推送成功数据的主键ID点击搜索即可查看推送的数据详情。
2、删除数据
在id后的输入框中输入想要删除数据的主键ID点击删除->确定即可删除该文档。
3、编辑数据
llm智能问答版支持在控制台直接编辑数据,可在id后的输入框里面填入需修改的数据主键ID,点击编辑按钮, 可以对可编辑字段进行修改。
注意事项
主键id是唯一键,如有重复后者数据会覆盖前者。
结构化数据单次上传最大为2M。
非结构化数据单个文件大小最大不能超过128M。
数据上传成功后可正常查询时间取决于当时整体的数据更新量 。
添加辅表最大个数是5张,每张辅表总字段数是30个。