全部产品
Search
文档中心

内容安全:自定义文本库

更新时间:Jul 26, 2024

为了使检测结果更贴合您的实际业务,内容安全支持自定义文本库。自定义文本库适用于图片审核(图文违规识别)、文本反垃圾、文件反垃圾、语音反垃圾场景。您可以使用自定义文本库来管理需要针对性地拦截、放行(忽略)、人工审核的文本,应对突发的管控需求。

背景信息

重要

建议您在使用自定义文本库前,仔细阅读本文档,了解文本库使用方式。避免因关键词添加不当导致误抓,影响检测效果。

自定义文本库包括系统回流文本库和用户创建文本库。

  • 系统回流文本库由您的自助审核记录自动生成,默认应用于所有同类场景的检测。您可以管理系统回流文本库中的文本,但是不可以对系统回流文本库进行停用或删除操作。关于自助审核,请参见自助审核

  • 用户创建文本库由您自行添加,可用于某次检测或某类检测场景。您可以管理用户创建文本库中的文本,也可以操作用户创建文本库。

说明

您可以创建10个自定义文本库(不含系统回流文本库)。

下文介绍了在内容安全控制台管理内容检测API自定义文本库的操作方法。除了控制台操作,您还可以通过API接口或SDK完成相关操作,具体请参见以下文档:

文本类型

自定义文本库的文本类型包括关键词和相似文本。

  • 关键词

    关键词是针对短小词语进行防控的一种方式。您可以将其理解为:一句话或者一段文本里面是否包含某个既定词语,当包含该词语时,则表明命中该关键词。不同的业务场景支持配置不同的关键词。

    在内容安全的识别中,关键词技术可以被应用到图文违规和文本反垃圾场景中,具体配置见对应场景中的使用描述(配置参数可能略有出入)。

    中文关键词支持“与(&)”、“非(~)”的逻辑判断属性。示例:

    • 定义“A&B”,则只有在句子中同时出现“A”和“B”时,才会命中。

    • 定义“A~B”,则只有在句子中只出现“A”且不出现“B”时才会命中,同时出现“A”和“B”则不会命中。

    说明

    与(&)必须在非(~)之前。例如,您可以设置“A&B~C”作为关键词,但不能设置“A~C&B”作为关键词。

  • 相似文本

    相似文本是针对句子或者段落式文本进行相似性判断的一种方式。您可以将其理解为:两句话或者两段文本,从句意上具有非常强的相似性,但又不是百分百一样,局部可能有变化,整体上却具有相同的意思或者在描述同一件事情。通过既定或者参照的文本样本,可以判断要识别的文本是否与样本具有强相似性。当相似性的概率在一定程度上时,则表明命中样本。

    相似文本文本库适用于文本反垃圾的检测场景。通过定义自己业务的相似文本库黑名单、白名单、疑似名单(疑似名单是指业务上需要识别出来,且需要人工审核),并在相似文本库里面维护与您业务相关的文本样本,从而指导文本反垃圾识别去过滤命中相似文本样本的内容。

使用限制

类型

项目

限制

文本库

库个数

不超过10个(不含系统回流文本库)。

文本库

库名长度

不超过20个字符。

关键词

关键词类型

  • 支持中文关键词。

  • 支持用字母和数字作为关键词。

    说明

    检测时字母和数字会被当作整体进行分词。

  • 暂不支持英文关键词。

关键词

单个文本库中关键词个数

不超过10000个。

关键词

关键词最大长度

50个字符(包括符号)。

关键词

中文关键词编码类型

UTF-8。

关键词

关键词格式

不允许包含以下特殊字符(包括全角):

@ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab键

相似文本

相似文本长度

20~4000个字符。

说明

如果添加的文本过长,容易引起文本误抓。建议文本长度不要超过200个字符。

相似文本

单个文本库中相似文本个数

不超过10000个。

相似文本

文本编码格式

UTF-8。

相似文本

相似文本内容

文本样本需要包含明确的可提取的中文语义特征。如果经过引擎分析特征数太少,该文本样本将不会生效,引擎将其直接忽略。

说明

如果一段样本都是无意义的字母数字,或各种表情符等,则可能被忽略。

操作步骤

  1. 登录内容安全控制台

  2. 在左侧导航栏,选择机器审核V1.0 > 风险库管理

  3. 自定义文本库页签单击创建文本库

  4. 创建自定义文本库对话框,请参考创建自定义文本库参数说明表完成文本库配置,并单击确定

    表 1. 创建自定义文本库参数说明表

    参数

    说明

    名称

    为文本库命名。文本库名称允许重复,但建议您在业务中将其设置为唯一。

    使用场景

    选择文本库的使用场景。取值:

    文本类型

    选择文本库的文本类型。取值:

    • 关键词:使用关键词匹配,只要包含关键词就会命中,覆盖面大。

    • 相似文本:使用文本相似度匹配,只有整段文本相似才会命中,精确度高。

      说明

      只在使用场景文本反垃圾时支持。

    匹配方式

    文本类型关键词时,选择文本库的匹配方式。取值:

    • 精确匹配:待检测文本中包括与库中的词完全一样的内容时才命中。

    • 先转换再匹配:待检测文本以及关键词都会经过预处理,预处理后进行匹配。预处理的逻辑如下:

      • 大写字母统一转换为小写字母。例如,输入检测文本“bitCoin”,会命中关键词“bitcoin”。

      • 繁体中文统一转换为简体。例如,输入检测文本“中國”,会命中关键词“中国”。

      • 相似字转换。例如,输入检测文本“②”,会命中关键词“2”。

      说明

      相似文本类型的文本库默认使用先转换再匹配。

    识别结果

    选择文本库的用途。

    • 文本类型关键词时,取值:

      • 风险名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。

      • 疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。

      • 忽略名单:不检测文本库中样本,但是会检测除了样本库以外的其他内容。

    • 文本类型相似文本时,取值:

      • 风险名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。

      • 疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。

      • 可信名单:若命中文本库中样本,则机审结果返回正常(suggestion=pass)。

    BizType

    BizType允许您根据不同的业务需求配置并应用不同的文本库,例如使用BizType指定在某次检测中应用文本库。BizType生效逻辑如下:

    • 文本库设置BizType为“A”,且API检测请求中传递了BizType为“A”,则检测文本只会使用BizType为“A”的文本库(前提是文本库已开启)。

    • 其他情况下,检测文本均会使用所有已开启的文本库。

    成功创建文本库后,您可以在文本库列表中查看新建的文本库。

  5. 管理文本库中的文本(关键词、相似文本)。

    自定义文本库列表显示所有自定义文本库,其中系统回流文本库的名称前有系统标识,且按照“使用场景_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系统回流生成的用于文本反垃圾场景的黑名单文本库。

    1. 定位到要操作的关键词文本库,单击其操作列下的管理

    2. 文本库管理页面,维护文本库内的关键词。

      文本库管理页面展示了所有已添加的关键词信息和最近7天命中次数(不包括当天的命中数据)。

      说明

      在文本库新增、删除关键词,大约需要15分钟生效。

      • 单击新增关键词导入,按照页面提示在文本库中增加关键词。

      • 选中不需要的关键词,单击批量删除,删除关键词。您也可以单击不需要的关键词下的删除,单独将其删除。

相关操作

对于自定义文本库(非系统回流文本库),您可通过自定义文本库页面中操作列的删除修改停用对目标文本库进行操作。