功能简介
分词作为搜索引擎中一个重要的基础组件,分词效果会直接影响搜索结果。由于业务场景的多样性,不同行业不同客户都有各自的特殊性,只有具体到客户应用级别的定制分词才能对每一个客户分词效果做到保障。
召回定制功能就是由此产生,OpenSearch-行业算法版首先提供了丰富的面向特点领域的行业分析器,客户可以基于对应的行业分析器,经过简单的配置训练得到自己专属的定制分析器。整个定制过程无需客户进行额外的数据对接工作,召回定制模型训练会自动抽取客户已有数据进行适配。
定制召回模型按照存储容量、计算资源、模型训练收费,具体价格请参考计费概述
快速搭建
定制召回模型从创建到使用需要经过以下三个步骤:
创建并训练模型;
创建自定义分析器;
配置自定义分析器;
创建并训练模型
在搜索算法中心>召回配置>定制召回模型界面,选择对应的独享型应用,点击创建:
填写模型名称,选择模型类型,选择基础分析器,选择训练字段,勾选归一化配置,点击确定:
其中基础分析器包括:中文-通用分析、中文-电商分析、IT内容分析、行业-游戏通用分析,行业-教育搜题、行业-内容IT分析、行业-电商通用分析。
归一化配置可选择:大写转小写、繁体转简体、全角转半角,该参数可多选,非必选。(该选项只在查询时统一归一化,原字段内容不受影响)
模型名称在模型创建后无法修改;
训练字段仅支持short_text、text类型;
创建完成后, 新创建的模型默认状态为模型不可用,在定制召回模型列表页操作一栏中点击训练模型:
模型训练一般在1-2个工作日内完成。
模型可重复训练,每次训练完成后,会在详情页中训练历史下新增一个模型版本,编号逐一递增。
创建自定义分析器
当定制召回模型训练成功后(模型状态为可用),即可配置自定义分析器。
在搜索算法中心>分析器管理页面,选择文本分析器,点击创建:
输入名称,选择分析器类型为定制模型分析,选择对应的Ha3引擎实例,选择对应的定制分析器模型,点击保存:
创建完成后,可使用定制自定义分析器进行分词测试,以及词条管理等功能:
配置自定义分析器
自定义分析器创建完成后,即可通过线下变更将已配置定制召回模型的定制化分析器应用索引中。
在实例管理>Ha3引擎列表页,找到对应的应用,进入详情页,点击线下变更:
在配置索引结构页面,找到对应的索引,替换成已配置定制召回模型的定制化分析器,并选项需要生效的模型版本:
完成线下变更,操作等待索引重建完成:
索引重建结束,即可在搜索测试界面测试效果:
详情页说明
定制召回模型列表页介绍
定制召回模型列表包含模型名称、模型类型、模型状态(可用、不可用)、最后训练开始时间、最新版本状态、操作(详情、训练模型、删除)。
已被引用的定制召回模型不可删除;
最新版本状态为训练中,则重新训练按钮不可点击;其他状态下可点击重新训练;
定制召回模型详情页说明
详情页分三部分:
基本信息(只读):包含创建时间、模型状态、最后训练开始时间、最新版本状态字段。
配置型信息(只读):包含基础分析器、训练字段、归一化配置字段,为创建/配置模型时选择的配置信息。
训练历史:包含模型版本、配置信息、版本状态、训练开始时间、训练结束时间、引用索引,其中可对模型进行效果测试:
效果对比支持典型case对比内容下载:
功能限制
该功能仅支持行业算法版-独享集群中应用;
单个实例最多创建5个定制模型;
基于应用创建的定制召回模型不可跨应用配置;
近期定制分析器的类型仅开放文本分析器;