本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

文本審核2.0版多語言服務

更新時間:2024-12-26 20:15

文本審核2.0版升級多語言模型能力,能夠自動判斷語種,並支援更多的語種類型。結合國際化業務特性,提供稽核原則和標籤體系。本文介紹文本審核2.0版多語言服務的內容以及使用方法。

功能特性

相比較文本審核1.0版本多語言審核服務,文本審核2.0版採用單獨的策略和標籤體系,滿足國際化業務特性。同時提供更多功能特性,簡化業務使用並輔助人工審核。

對比項

文本審核2.0版

文本審核1.0版本

對比項

文本審核2.0版

文本審核1.0版本

多語言能力

支援38種語言類型。

支援18種語言類型。

審核能力

採用多種模型並行,結合語言和地區特性,策略更精確。

採用單個模型,結合語言特性,策略兼顧準確和召回。

標籤體系

採用國際化標籤體系,增加褻瀆、地區等國際化標籤,支援多個風險標籤和細分標籤。

沿用標籤體系,僅支援單個風險標籤。

介面功能

不需要指定輸入語種,能夠自動識別。審核後會返回語言類型和翻譯後的英文內容,用於輔助人工審核。

需要指定輸入語種,不返回翻譯內容。

支援語種

文本審核2.0版多語言服務目前支援38種語言類型。

語種類型

英文名

語言代碼

語種類型

英文名

語言代碼

英語

English

en

中文簡體

Chinese

zh

中文繁體

Traditional Chinese

zh-tw

印尼語

Indonesian

id

馬來語

Malay

ms

泰語

Thai

th

越南語

Vietnamese

vi

他加祿語

Tagalog

tl

印地語

Hindi

hi

阿拉伯語

Arabic

ar

土耳其語

Turkish

tr

法語

French

fr

德語

German

de

俄語

Russian

ru

葡萄牙語

Portuguese

pt

西班牙語

Spanish

es

意大利語

Italian

it

荷蘭語

Dutch

nl

波蘭語

Polish

pl

日語

Japanese

ja

韓語

Korean

ko

烏爾都語

Urdu

ur

維吾爾語

Uighur

ug

孟加拉語

Bengali

bn

波斯語

Persian

fa

瑞典語

Swedish

sv

丹麥語

Danish

da

挪威語

Norwegian

no

冰島語

Icelandic

is

芬蘭語

Finnish

fi

白俄羅斯語

Belarusian

be

立陶宛語

Lithuanian

lt

捷克語

Czech

cs

斯洛伐克語

Slovak

sk

匈牙利語

Hungarian

hu

希臘語

Modern Greek

el

羅馬尼亞語

Romanian

ro

愛爾蘭語

Irish

ga

國際化標籤

文本審核2.0版多語言服務採用國際化標籤體系。如果內容存在多類風險,能夠同時返回多個標籤。標籤分類包括但不限於如下所示:

標籤類型

分類

標籤類型

分類

一級標籤(labels)

  • violence:暴恐

  • contraband:違禁品

  • sexuality:色情

  • profanity:褻瀆辱罵

  • pullinTraffic:廣告引流

  • regional:地區對立

  • C_customized:使用者庫命中

細分標籤(riskTips)

細分標籤採用xxx_yyy的格式返回。例如:contraband_Drugs

計費說明

文本審核2.0版服務支援按量後付費方式。

按量後付費

當您開通文本審核2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。

審核類型

支援的業務情境(服務)

計費單價

審核類型

支援的業務情境(服務)

計費單價

文本審核進階(text_advanced)

國際業務多語言偵測:comment_multilingual_global

0.3美元/千次

接入指南

步驟一:開通服務

訪問開通服務,開通文本審核2.0版服務。

開通文本2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。介面接入使用後系統會按使用量自動出賬,具體資訊,請參見計費說明

步驟二:為RAM使用者授權

在接入SDK或者API之前,您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰(AccessKey)。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式,請參見擷取AccessKey

  1. 使用Resource Access Management員登入RAM控制台

  2. 建立RAM使用者。

    具體操作,請參見建立RAM使用者

  3. 向RAM使用者授權系統策略許可權:AliyunYundunGreenWebFullAccess

    具體操作,請參見為RAM使用者授權

    完成以上配置後,您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。

步驟三:安裝並接入SDK

目前支援的接入地區如下,文本審核增強版服務SDK請參考接入指南文本審核增強版泛型服務部分。

地區

外網接入地址

內網接入地址

地區

外網接入地址

內網接入地址

新加坡

green-cip.ap-southeast-1.aliyuncs.com

green-cip-vpc.ap-southeast-1.aliyuncs.com

美國(維吉尼亞)

green-cip.us-east-1.aliyuncs.com

green-cip-vpc.us-east-1.aliyuncs.com

美國(矽谷)

green-cip.us-west-1.aliyuncs.com

暫無

倫敦

green-cip.eu-west-1.aliyuncs.com

暫無

說明

如果需要其他語言的SDK範例程式碼,您可以通過OpenAPI開發人員門戶線上調試工具調試API介面,該工具會自動產生相應API的SDK調用範例程式碼。

API

使用說明

業務介面:https://green-cip.{region}.aliyuncs.com

您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求,請參見請求結構;您也可以直接選用已構造好的HTTP請求,更多資訊,請參見接入指南

  • 計費資訊:

    該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費,產生其他錯誤碼時不會計費。關於計費方式,請參見計費說明

QPS限制

本介面的單使用者QPS限制為100次/秒。超過限制,API調用會被限流,這可能會影響您的業務,請合理調用。

請求參數

名稱

類型

是否必須

樣本值

描述

名稱

類型

是否必須

樣本值

描述

Service

String

comment_multilingual_global

審核服務類型。取值:comment_multilingual_global:國際業務多語言偵測

ServiceParameters

JSONString

審核服務需要的參數集。JSON字串格式,關於每個字串的描述,請參見ServiceParameters

表 1. ServiceParameters

名稱

類型

是否必須

樣本值

描述

content

String

檢測內容

審核的常值內容,限定在600字元以內。

accountId

String

10123****

賬戶ID,標識一個賬戶的唯一ID。

deviceId

String

20240307****

裝置ID,標識一個裝置的唯一ID。

deviceToken

String

MzQvo1d7scyZ3tl_RcJ******

通過風險控制SDK擷取到的裝置令牌。

返回參數

名稱

類型

樣本值

描述

名稱

類型

樣本值

描述

Code

Integer

200

狀態代碼。更多資訊,請參見Code說明

Data

JSONObject

審核結果資料。更多資訊,請參見Data

Message

String

OK

請求訊息的響應訊息。

RequestId

String

AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****

請求ID。

表 2.Data

名稱

類型

樣本值

描述

名稱

類型

樣本值

描述

Labels

String

sexual_content

標籤,多個標籤用英文逗號(,)分隔。包括:

  • violence:暴恐

  • contraband:違禁品

  • sexuality:色情

  • profanity:褻瀆辱罵

  • pullinTraffic:廣告引流

  • regional:地區對立

  • C_customized:使用者庫命中

Reason

String

{"customizedWords": "HXXXXX","detectedLanguage": "en","riskTips": "sexuality_Suggestive","riskWords": "pxxxxy","translatedContent": "pxxxxy sxxxx,HXXXXX","customizedLibs": "ZXXXXX"}

原因定位的JSON字串,包含以下欄位:

  • riskLevel:風險等級,根據系統推薦的風險等級返回,傳回值包括:

    • high:高風險

    • medium:中風險

    • low:低風險

    說明

    高風險內容建議直接處置;中風險內容建議人工複查;低風險內容建議在高召回需求時再做處理,日常建議和未檢測到風險做相同處理。

  • riskTips:細分標籤

  • riskWords:命中風險內容

  • customizedWords:命中使用者詞

  • customizedLibs:命中使用者詞庫名

  • translatedContent:翻譯後內容

AccountId

String

10123****

賬戶ID。

說明

如果在檢測請求參數中傳入了accountId,則此處返回對應的accountId。

DeviceId

String

20240307****

裝置ID。

說明

如果在檢測請求參數中傳入了deviceId,則此處返回對應的deviceId。

樣本

請求樣本

{
    "Service": "comment_multilingual_global",
    "ServiceParameters": {
        "content": "testing content",
        "accountId": "10123****"
    }
}

返回樣本:

  • 同時檢測到自訂詞庫內容和風險內容,返回樣本:

{
    "Code": 200,
    "Data": {
        "Labels": "C_customized,profanity",
        "Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx,HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 只檢測到自訂詞庫內容,返回樣本:

{
    "Code": 200,
    "Data": {
        "Labels": "C_customized",
        "Reason": "{\"riskLevel\":\"high\",\"customizedWords\":\"HXXXXX\",\"detectedLanguage\":\"en\",\"translatedContent\":\"HXXXXX\",\"customizedLibs\":\"ZXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 只檢測到風險內容,返回樣本:

{
    "Code": 200,
    "Data": {
        "Labels": "sexuality",
        "Reason": "{\"riskLevel\":\"high\",\"detectedLanguage\":\"ar\",\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\",\"translatedContent\":\"pxxxxy sxxxx\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 未檢測到自訂詞庫內容或風險內容,返回樣本:

{
    "Code": 200,
    "Data": {
        "Labels": "",
        "Reason": "{\"detectedLanguage\":\"en\",\"translatedContent\":\"AXXXXXX\"}"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

Code說明

Code

狀態碼

說明

Code

狀態碼

說明

200

OK

請求成功。

400

BAD_REQUEST

請求有誤。可能是請求參數不正確導致,請仔細檢查請求參數。

407

NOT_SUPPORT

無法識別或不支援該語種類型。

408

PERMISSION_DENY

可能是您的帳號未授權、帳號欠費、帳號未開通、帳號被禁等。

500

GENERAL_ERROR

錯誤。可能是服務端臨時出錯。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。

581

TIMEOUT

逾時。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。

588

EXCEED_QUOTA

請求頻率超出配額。

  • 本頁導讀 (0, M)
  • 功能特性
  • 支援語種
  • 國際化標籤
  • 計費說明
  • 按量後付費
  • 接入指南
  • 步驟一:開通服務
  • 步驟二:為RAM使用者授權
  • 步驟三:安裝並接入SDK
  • API
  • 使用說明
  • QPS限制
  • 請求參數
  • 返回參數
  • 樣本
  • Code說明
文檔反饋