文本審核2.0版升級多語言模型能力,能夠自動判斷語種,並支援更多的語種類型。結合國際化業務特性,提供稽核原則和標籤體系。本文介紹文本審核2.0版多語言服務的內容以及使用方法。
功能特性
相比較文本審核1.0版本多語言審核服務,文本審核2.0版採用單獨的策略和標籤體系,滿足國際化業務特性。同時提供更多功能特性,簡化業務使用並輔助人工審核。
對比項 | 文本審核2.0版 | 文本審核1.0版本 |
對比項 | 文本審核2.0版 | 文本審核1.0版本 |
多語言能力 | 支援38種語言類型。 | 支援18種語言類型。 |
審核能力 | 採用多種模型並行,結合語言和地區特性,策略更精確。 | 採用單個模型,結合語言特性,策略兼顧準確和召回。 |
標籤體系 | 採用國際化標籤體系,增加褻瀆、地區等國際化標籤,支援多個風險標籤和細分標籤。 | 沿用標籤體系,僅支援單個風險標籤。 |
介面功能 | 不需要指定輸入語種,能夠自動識別。審核後會返回語言類型和翻譯後的英文內容,用於輔助人工審核。 | 需要指定輸入語種,不返回翻譯內容。 |
支援語種
文本審核2.0版多語言服務目前支援38種語言類型。
語種類型 | 英文名 | 語言代碼 |
語種類型 | 英文名 | 語言代碼 |
英語 | English | en |
中文簡體 | Chinese | zh |
中文繁體 | Traditional Chinese | zh-tw |
印尼語 | Indonesian | id |
馬來語 | Malay | ms |
泰語 | Thai | th |
越南語 | Vietnamese | vi |
他加祿語 | Tagalog | tl |
印地語 | Hindi | hi |
阿拉伯語 | Arabic | ar |
土耳其語 | Turkish | tr |
法語 | French | fr |
德語 | German | de |
俄語 | Russian | ru |
葡萄牙語 | Portuguese | pt |
西班牙語 | Spanish | es |
意大利語 | Italian | it |
荷蘭語 | Dutch | nl |
波蘭語 | Polish | pl |
日語 | Japanese | ja |
韓語 | Korean | ko |
烏爾都語 | Urdu | ur |
維吾爾語 | Uighur | ug |
孟加拉語 | Bengali | bn |
波斯語 | Persian | fa |
瑞典語 | Swedish | sv |
丹麥語 | Danish | da |
挪威語 | Norwegian | no |
冰島語 | Icelandic | is |
芬蘭語 | Finnish | fi |
白俄羅斯語 | Belarusian | be |
立陶宛語 | Lithuanian | lt |
捷克語 | Czech | cs |
斯洛伐克語 | Slovak | sk |
匈牙利語 | Hungarian | hu |
希臘語 | Modern Greek | el |
羅馬尼亞語 | Romanian | ro |
愛爾蘭語 | Irish | ga |
國際化標籤
文本審核2.0版多語言服務採用國際化標籤體系。如果內容存在多類風險,能夠同時返回多個標籤。標籤分類包括但不限於如下所示:
標籤類型 | 分類 |
標籤類型 | 分類 |
一級標籤(labels) |
|
細分標籤(riskTips) | 細分標籤採用 |
計費說明
文本審核2.0版服務支援按量後付費方式。
按量後付費
當您開通文本審核2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。
審核類型 | 支援的業務情境(服務) | 計費單價 |
審核類型 | 支援的業務情境(服務) | 計費單價 |
文本審核進階(text_advanced) | 國際業務多語言偵測:comment_multilingual_global | 0.3美元/千次 |
接入指南
步驟一:開通服務
訪問開通服務,開通文本審核2.0版服務。
開通文本2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。介面接入使用後系統會按使用量自動出賬,具體資訊,請參見計費說明。
步驟二:為RAM使用者授權
在接入SDK或者API之前,您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰(AccessKey)。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式,請參見擷取AccessKey。
使用Resource Access Management員登入RAM控制台。
- 建立RAM使用者。
具體操作,請參見建立RAM使用者。
- 向RAM使用者授權系統策略許可權:
AliyunYundunGreenWebFullAccess
。具體操作,請參見為RAM使用者授權。
完成以上配置後,您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。
步驟三:安裝並接入SDK
目前支援的接入地區如下,文本審核增強版服務SDK請參考接入指南的文本審核增強版泛型服務部分。
地區 | 外網接入地址 | 內網接入地址 |
地區 | 外網接入地址 | 內網接入地址 |
新加坡 | green-cip.ap-southeast-1.aliyuncs.com | green-cip-vpc.ap-southeast-1.aliyuncs.com |
美國(維吉尼亞) | green-cip.us-east-1.aliyuncs.com | green-cip-vpc.us-east-1.aliyuncs.com |
美國(矽谷) | green-cip.us-west-1.aliyuncs.com | 暫無 |
倫敦 | green-cip.eu-west-1.aliyuncs.com | 暫無 |
如果需要其他語言的SDK範例程式碼,您可以通過OpenAPI開發人員門戶線上調試工具調試API介面,該工具會自動產生相應API的SDK調用範例程式碼。
API
使用說明
業務介面:https://green-cip.{region}.aliyuncs.com
。
您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求,請參見請求結構;您也可以直接選用已構造好的HTTP請求,更多資訊,請參見接入指南。
計費資訊:
該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費,產生其他錯誤碼時不會計費。關於計費方式,請參見計費說明。
QPS限制
本介面的單使用者QPS限制為100次/秒。超過限制,API調用會被限流,這可能會影響您的業務,請合理調用。
請求參數
名稱 | 類型 | 是否必須 | 樣本值 | 描述 |
名稱 | 類型 | 是否必須 | 樣本值 | 描述 |
Service | String | 是 | comment_multilingual_global | 審核服務類型。取值:comment_multilingual_global:國際業務多語言偵測 |
ServiceParameters | JSONString | 是 | 審核服務需要的參數集。JSON字串格式,關於每個字串的描述,請參見ServiceParameters。 |
表 1. ServiceParameters
名稱 | 類型 | 是否必須 | 樣本值 | 描述 |
content | String | 是 | 檢測內容 | 審核的常值內容,限定在600字元以內。 |
accountId | String | 否 | 10123**** | 賬戶ID,標識一個賬戶的唯一ID。 |
deviceId | String | 否 | 20240307**** | 裝置ID,標識一個裝置的唯一ID。 |
deviceToken | String | 否 | MzQvo1d7scyZ3tl_RcJ****** | 通過風險控制SDK擷取到的裝置令牌。 |
返回參數
名稱 | 類型 | 樣本值 | 描述 |
名稱 | 類型 | 樣本值 | 描述 |
Code | Integer | 200 | 狀態代碼。更多資訊,請參見Code說明。 |
Data | JSONObject | 審核結果資料。更多資訊,請參見Data。 | |
Message | String | OK | 請求訊息的響應訊息。 |
RequestId | String | AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE**** | 請求ID。 |
表 2.Data
名稱 | 類型 | 樣本值 | 描述 |
名稱 | 類型 | 樣本值 | 描述 |
Labels | String | sexual_content | 標籤,多個標籤用英文逗號(,)分隔。包括:
|
Reason | String | {"customizedWords": "HXXXXX","detectedLanguage": "en","riskTips": "sexuality_Suggestive","riskWords": "pxxxxy","translatedContent": "pxxxxy sxxxx,HXXXXX","customizedLibs": "ZXXXXX"} | 原因定位的JSON字串,包含以下欄位:
|
AccountId | String | 10123**** | 賬戶ID。 如果在檢測請求參數中傳入了accountId,則此處返回對應的accountId。 |
DeviceId | String | 20240307**** | 裝置ID。 如果在檢測請求參數中傳入了deviceId,則此處返回對應的deviceId。 |
樣本
請求樣本
{
"Service": "comment_multilingual_global",
"ServiceParameters": {
"content": "testing content",
"accountId": "10123****"
}
}
返回樣本:
同時檢測到自訂詞庫內容和風險內容,返回樣本:
{
"Code": 200,
"Data": {
"Labels": "C_customized,profanity",
"Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx,HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
只檢測到自訂詞庫內容,返回樣本:
{
"Code": 200,
"Data": {
"Labels": "C_customized",
"Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"translatedContent\":\"HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
只檢測到風險內容,返回樣本:
{
"Code": 200,
"Data": {
"Labels": "sexuality",
"Reason": "{\"riskLevel\":\"high\",\"detectedLanguage\":\"ar\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
未檢測到自訂詞庫內容或風險內容,返回樣本:
{
"Code": 200,
"Data": {
"Labels": "",
"Reason": "{\"detectedLanguage\":\"en\",\"translatedContent\":\"AXXXXXX\"}"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}