文本审核2.0版升级多语言模型能力,能够自动判断语种,并支持更多的语种类型。结合国际化业务特性,提供审核策略和标签体系。本文介绍文本审核2.0版多语言服务的内容以及使用方法。
功能特性
相比较文本审核1.0版本多语言审核服务,文本审核2.0版采用单独的策略和标签体系,满足国际化业务特性。同时提供更多功能特性,简化业务使用并辅助人工审核。
对比项 | 文本审核2.0版 | 文本审核1.0版本 |
多语言能力 | 支持38种语言类型。 | 支持18种语言类型。 |
审核能力 | 采用多种模型并行,结合语言和地区特性,策略更精确。 | 采用单个模型,结合语言特性,策略兼顾准确和召回。 |
标签体系 | 采用国际化标签体系,增加亵渎、地域等国际化标签,支持多个风险标签和细分标签。 | 沿用标签体系,仅支持单个风险标签。 |
接口功能 | 不需要指定输入语种,能够自动识别。审核后会返回语言类型和翻译后的英文内容,用于辅助人工审核。 | 需要指定输入语种,不返回翻译内容。 |
支持语种
文本审核2.0版多语言服务目前支持38种语言类型。
语种类型 | 英文名 | 语言代码 |
英语 | English | en |
中文简体 | Chinese | zh |
中文繁体 | Traditional Chinese | zh-tw |
印度尼西亚语 | Indonesian | id |
马来语 | Malay | ms |
泰语 | Thai | th |
越南语 | Vietnamese | vi |
他加禄语 | Tagalog | tl |
印地语 | Hindi | hi |
阿拉伯语 | Arabic | ar |
土耳其语 | Turkish | tr |
法语 | French | fr |
德语 | German | de |
俄语 | Russian | ru |
葡萄牙语 | Portuguese | pt |
西班牙语 | Spanish | es |
意大利语 | Italian | it |
荷兰语 | Dutch | nl |
波兰语 | Polish | pl |
日语 | Japanese | ja |
韩语 | Korean | ko |
乌尔都语 | Urdu | ur |
维吾尔语 | Uighur | ug |
孟加拉语 | Bengali | bn |
波斯语 | Persian | fa |
瑞典语 | Swedish | sv |
丹麦语 | Danish | da |
挪威语 | Norwegian | no |
冰岛语 | Icelandic | is |
芬兰语 | Finnish | fi |
白俄罗斯语 | Belarusian | be |
立陶宛语 | Lithuanian | lt |
捷克语 | Czech | cs |
斯洛伐克语 | Slovak | sk |
匈牙利语 | Hungarian | hu |
希腊语 | Modern Greek | el |
罗马尼亚语 | Romanian | ro |
爱尔兰语 | Irish | ga |
国际化标签
文本审核2.0版多语言服务采用国际化标签体系。如果内容存在多类风险,能够同时返回多个标签。标签分类包括但不限于如下所示:
标签类型 | 分类 |
一级标签(labels) |
|
细分标签(riskTips) | 细分标签采用 |
计费说明
文本审核2.0版服务支持按量后付费方式。
按量后付费
当您开通文本审核2.0版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。
审核类型 | 支持的业务场景(服务) | 计费单价 |
文本审核高级(text_advanced) | 国际业务多语言检测:comment_multilingual_global | 0.3美元/千次 |
接入指南
步骤一:开通服务
访问开通服务,开通文本审核2.0版服务。
开通文本2.0版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。接口接入使用后系统会按使用量自动出账,具体信息,请参见计费说明。
步骤二:为RAM用户授权
在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey。
使用RAM管理员登录RAM控制台。
- 创建RAM用户。
具体操作,请参见创建RAM用户。
- 向RAM用户授权系统策略权限:
AliyunYundunGreenWebFullAccess
。具体操作,请参见为RAM用户授权。
完成以上配置后,您可以使用RAM用户调用内容安全API。
步骤三:安装并接入SDK
目前支持的接入地域如下,文本审核增强版服务SDK请参考接入指南的文本审核增强版通用服务部分。
地域 | 外网接入地址 | 内网接入地址 |
新加坡 | green-cip.ap-southeast-1.aliyuncs.com | green-cip-vpc.ap-southeast-1.aliyuncs.com |
如果需要其他语言的SDK示例代码,您可以通过OpenAPI开发者门户在线调试工具调试API接口,该工具会自动生成相应API的SDK调用示例代码。
API
使用说明
业务接口:https://green-cip.{region}.aliyuncs.com
。
您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见接入指南。
计费信息:
该接口为收费接口。仅对HTTP状态码为200的请求进行计量计费,产生其他错误码时不会计费。关于计费方式,请参见计费说明。
QPS限制
本接口的单用户QPS限制为100次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。
请求参数
名称 | 类型 | 是否必须 | 示例值 | 描述 |
Service | String | 是 | comment_multilingual_global | 审核服务类型。取值:comment_multilingual_global:国际业务多语言检测 |
ServiceParameters | JSONString | 是 | 审核服务需要的参数集。JSON字符串格式,关于每个字符串的描述,请参见ServiceParameters。 |
表 1. ServiceParameters
名称 | 类型 | 是否必须 | 示例值 | 描述 |
content | String | 是 | 检测内容 | 审核的文本内容,限定在600字符以内。 |
accountId | String | 否 | 10123**** | 账户ID,标识一个账户的唯一ID。 |
deviceId | String | 否 | 20240307**** | 设备ID,标识一个设备的唯一ID。 |
deviceToken | String | 否 | MzQvo1d7scyZ3tl_RcJ****** | 通过风险控制SDK获取到的设备令牌。 |
返回参数
名称 | 类型 | 示例值 | 描述 |
Code | Integer | 200 | 状态码。更多信息,请参见Code说明。 |
Data | JSONObject | 审核结果数据。更多信息,请参见Data。 | |
Message | String | OK | 请求消息的响应消息。 |
RequestId | String | AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE**** | 请求ID。 |
表 2.Data
名称 | 类型 | 示例值 | 描述 |
Labels | String | sexual_content | 标签,多个标签用英文逗号(,)分隔。包括:
|
Reason | String | {"customizedWords": "HXXXXX","detectedLanguage": "en","riskTips": "sexuality_Suggestive","riskWords": "pxxxxy","translatedContent": "pxxxxy sxxxx,HXXXXX","customizedLibs": "ZXXXXX"} | 原因定位的JSON字符串,包含以下字段:
|
AccountId | String | 10123**** | 账户ID。 说明 如果在检测请求参数中传入了accountId,则此处返回对应的accountId。 |
DeviceId | String | 20240307**** | 设备ID。 说明 如果在检测请求参数中传入了deviceId,则此处返回对应的deviceId。 |
示例
请求示例
{
"Service": "comment_multilingual_global",
"ServiceParameters": {
"content": "testing content",
"accountId": "10123****"
}
}
返回示例:
同时检测到自定义词库内容和风险内容,返回示例:
{
"Code": 200,
"Data": {
"Labels": "C_customized,profanity",
"Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx,HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
只检测到自定义词库内容,返回示例:
{
"Code": 200,
"Data": {
"Labels": "C_customized",
"Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"translatedContent\":\"HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
只检测到风险内容,返回示例:
{
"Code": 200,
"Data": {
"Labels": "sexuality",
"Reason": "{\"riskLevel\":\"high\",\"detectedLanguage\":\"ar\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
未检测到自定义词库内容或风险内容,返回示例:
{
"Code": 200,
"Data": {
"Labels": "",
"Reason": "{\"detectedLanguage\":\"en\",\"translatedContent\":\"AXXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
Code说明
Code | 状态代码 | 说明 |
200 | OK | 请求成功。 |
400 | BAD_REQUEST | 请求有误。可能是请求参数不正确导致,请仔细检查请求参数。 |
407 | NOT_SUPPORT | 无法识别或不支持该语种类型。 |
408 | PERMISSION_DENY | 可能是您的账号未授权、账号欠费、账号未开通、账号被禁等。 |
500 | GENERAL_ERROR | 错误。可能是服务端临时出错。建议重试,若持续返回该错误码,请通过在线服务联系我们。 |
581 | TIMEOUT | 超时。建议重试,若持续返回该错误码,请通过在线服务联系我们。 |
588 | EXCEED_QUOTA | 请求频率超出配额。 |