内容行业算法版介绍
内容行业算法版基于最新算法功能,贴合IT内容搜索场景的痛点和需求,提供了内容行业专属的智能语义理解能力、向量召回、排序算法,为内容行业的搜索性能和效果准确性提供双重保障,并有效的解决了超大词库数据导致的搜索延迟高、资源消耗大导致的搜索无结果率高等行业重难点问题,提供多模态搜索解决方案。针对内容行业,开放搜索还提供了向量模型,以实现向量召回及多路搜索,提高查询准确率。
二者功能差异
功能列表 | 通用行业 | 内容行业算法版 |
一站式配置 | 创建应用后,需要手动创建并配置查询分析、排序策略和下拉提示模型。 | 结合内容行业常见搜索场景,选择所需能力及功能,同时提供应用结构模板和索引结构模板,实现一键式配置,降低新用户使用门槛。 |
查询分析 | 针对通用行业提供同义词拓展、停用词省略、拼写纠错、词权重分析、类目预测等能力。 | 针对内容通用行业,提供增强版分析器与查询分析功能。结合内容搜索场景及行业难题,更精准的构建索引并识别用户查询意图,与通用版相比效果更优。 |
策略排序 | 创建应用后,需要结合业务场景手动配置并调试相应的排序策略。 | 在应用结构模板和索引结构模板基础上,提供内容行业常用基础排序、业务排序表达式,无需额外配置即可满足大部分内容行业排序效果需求。 |
功能迭代 | 定期更新分析器、查询分析等系统默认词典。 | 根据内容行业的名词、产品等变化,不断迭代更新,优化原有分词、查询分析能力,提供更高时效性的服务保障。 |
查询分析效果对比
行业增强版较通用版相比在查询分析功能上做出了更深入的优化,不仅在通用版的基础上更新了常见bad case,而且针对内容行业集各家之所长,丰富已有词库,如下根据各个功能举例:
分词:(以空格分词)
query | 通用版 | 行业增强版 |
为了解压缩 | 为 了解 压缩 | 为了 解 压缩 |
实参与形参 | 实 参与 形参 | 实参 与 形参 |
结构体重载 | 结构 体重 载 | 结构体重载 |
googlechromeframe | googlechromeframe | google chrome frame |
拼写纠错:
query | 通用版 | 行业增强版 |
淘宝只能视觉 | 淘宝只能视觉 | 淘宝智能视觉 |
mybatics代码生成 | mybatics代码生成 | mybatis代码生成 |
计算机网路 | 计算机网路 | 计算机网络 |
微行小程序 | 微型小程序 | 微信小程序 |
深度学西 | 深度学西 | 深度学习 |
内容行业向量召回
针对内容行业的垂类行业数据分布提供高质量的向量召回模型, 保证长尾query, 包含错别字query,依赖同义词改写召回query的召回效果
向量召回
query | 美国gmted2010的shuju下载 |
向量召回top1 | gmt43相关代码、资料下载地址 |
向量召回top2 | gmt0054-2010.pdf |
向量召回top3 | gmted2010美国download地址 |
query | 3D游戏画面处理 |
向量召回top1 | 3d游戏动画处理基础 |
向量召回top2 | 3d游戏动画的基础 |
向量召回top3 | 动画游戏处理 |
query | 禁用n卡 |
向量召回top1 | 网卡的禁止和启动 |
向量召回top2 | 禁用网卡 |
向量召回top3 | 禁用及启用网卡 |
注意事项
内容行业算法版应用的创建流程可以参考文档:内容行业算法版
独享通用版应用可转为行业增强版,行业增强版应用不可转为通用版;
内容行业算法版仅适用于独享型应用;
如果是共享型应用变规格到独享型再进行内容行业算法版适配,需要线上应用规格与实例规格一致(同为独享型)后再做内容行业算法版适配操作;
应用结构中务必添加字段标签所对应的字段名称,否则会报错;