為了使檢測結果更貼合您的實際業務,Alibaba Content Security Service支援自訂文本庫。自訂文本庫適用於圖片審核(圖文違規識別)、文本反垃圾、檔案反垃圾、語音反垃圾情境。您可以使用自訂文本庫來管理需要針對性地攔截、允許存取(忽略)、人工審核的文本,應對突發的管控需求。
背景資訊
重要 建議您在使用自訂文本庫前,仔細閱讀本文檔,瞭解文本庫使用方式。避免因關鍵詞添加不當導致誤抓,影響檢測效果。
自訂文本庫包括系統迴流文本庫和使用者建立文本庫。
- 系統迴流文本庫由您的自助審核記錄自動產生,預設應用於所有同類情境的檢測。您可以管理系統迴流文本庫中的文本,但是不可以對系統迴流文本庫進行停用或刪除操作。關於自助審核,請參見自助審核。
- 使用者建立文本庫由您自行添加,可用於某次檢測或某類檢測情境。您可以系統管理使用者建立文本庫中的文本,也可以操作使用者建立文本庫。
說明 您可以建立10個自訂文本庫(不含系統迴流文本庫)。
下文介紹了在Alibaba Content Security Service控制台管理內容檢測API自訂文本庫的操作方法。除了控制台操作,您還可以通過API介面或SDK完成相關操作,具體請參見以下文檔:
文本類型
自訂文本庫的文本類型包括關鍵詞和相似文本。
- 關鍵詞
關鍵詞是針對短小詞語進行防控的一種方式。您可以將其理解為:一句話或者一段文本裡面是否包含某個既定詞語,當包含該詞語時,則表明命中該關鍵詞。不同的業務情境支援配置不同的關鍵詞。
在Alibaba Content Security Service的識別中,關鍵詞技術可以被應用到圖文違規和文本反垃圾情境中,具體配置見對應情境中的使用描述(配置參數可能略有出入)。
中文關鍵詞支援“與(&)”、“非(~)”的邏輯判斷屬性。樣本:- 定義“A&B”,則只有在句子中同時出現“A”和“B”時,才會命中。
- 定義“A~B”,則只有在句子中只出現“A”且不出現“B”時才會命中,同時出現“A”和“B”則不會命中。
說明 與(&)必須在非(~)之前。例如,您可以設定“A&B~C”作為關鍵詞,但不能設定“A~C&B”作為關鍵詞。 - 相似文本
相似文本是針對句子或者段落式文本進行相似性判斷的一種方式。您可以將其理解為:兩句話或者兩段文本,從句意上具有非常強的相似性,但又不是百分百一樣,局部可能有變化,整體上卻具有相同的意思或者在描述同一件事情。通過既定或者參照的文本樣本,可以判斷要識別的文本是否與樣本具有強相似性。當相似性的機率在一定程度上時,則表明命中樣本。
相似文本文本庫適用於文本反垃圾的檢測情境。通過定義自己業務的相似文本庫黑名單、白名單、疑似名單(疑似名單是指業務上需要識別出來,且需要人工審核),並在相似文本庫裡面維護與您業務相關的文本樣本,從而指導文本反垃圾識別去過濾命中相似文本樣本的內容。
使用限制
類型 | 專案 | 限制 |
文本庫 | 庫個數 | 不超過10個(不含系統迴流文本庫)。 |
文本庫 | 庫名長度 | 不超過20個字元。 |
關鍵詞 | 關鍵詞類型 |
|
關鍵詞 | 單個文本庫中關鍵詞個數 | 不超過10000個。 |
關鍵詞 | 關鍵詞最大長度 | 50個字元(包括符號)。 |
關鍵詞 | 中文關鍵詞編碼類別型 | UTF-8。 |
關鍵詞 | 關鍵詞格式 | 不允許包含以下特殊字元(包括全形): @ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab鍵 |
相似文本 | 相似文本長度 | 20~4000個字元。 說明 如果添加的文本過長,容易引起文本誤抓。建議文本長度不要超過200個字元。 |
相似文本 | 單個文本庫中相似文本個數 | 不超過10000個。 |
相似文本 | 文本編碼格式 | UTF-8。 |
相似文本 | 相似常值內容 | 文本樣本需要包含明確的可提取的中文語義特徵。如果經過引擎分析特徵數太少,該文本樣本將不會生效,引擎將其直接忽略。 說明 如果一段樣本都是無意義的字母數字,或各種Emoji等,則可能被忽略。 |
操作步驟
- 登入Alibaba Content Security Service控制台。
- 在左側導覽列,選擇 。
- 單擊建立文本庫。
- 在建立自訂文本庫對話方塊,請參考建立自訂文本庫參數說明表完成文本庫配置,並單擊確定。
表 1. 建立自訂文本庫參數說明表 參數 說明 名稱 為文本庫命名。文本庫名稱允許重複,但建議您在業務中將其設定為唯一。 使用情境 選擇文本庫的使用情境。取值: 文本類型 選擇文本庫的文本類型。取值: - 關鍵詞:使用關鍵詞匹配,只要包含關鍵詞就會命中,覆蓋面大。
- 相似文本:使用文本相似性匹配,只有整段文本相似才會命中,精確度高。 說明 只在使用情境為文本反垃圾時支援。
匹配方式 文本類型為關鍵詞時,選擇文本庫的匹配方式。取值: - 精確匹配:待檢測文本中包括與庫中的詞完全一樣的內容時才命中。
- 先轉換再匹配:待檢測文本以及關鍵詞都會經過預先處理,預先處理後進行匹配。預先處理的邏輯如下:
- 大寫字母統一轉換為小寫字母。例如,輸入檢測文本“bitCoin”,會命中關鍵詞“bitcoin”。
- 繁體中文統一轉換為簡體。例如,輸入檢測文本“中國”,會命中關鍵詞“中國”。
- 相似字轉換。例如,輸入檢測文本“②”,會命中關鍵詞“2”。
說明 相似文本類型的文本庫預設使用先轉換再匹配。
識別結果 選擇文本庫的用途。 - 文本類型為關鍵詞時,取值:
- 風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。
- 疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。
- 忽略名單:不檢測文本庫中樣本,但是會檢測除了樣本庫以外的其他內容。
- 文本類型為相似文本時,取值:
- 風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。
- 疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。
- 可信名單:若命中文本庫中樣本,則機審結果返回正常(suggestion=pass)。
BizType BizType允許您根據不同的業務需求配置並應用不同的文本庫,例如使用BizType指定在某次檢測中應用文本庫。BizType生效邏輯如下: - 文本庫設定BizType為“A”,且API檢測請求中傳遞了BizType為“A”,則檢測文本只會使用BizType為“A”的文本庫(前提是文本庫已開啟)。
- 其他情況下,檢測文本均會使用所有已開啟的文本庫。
成功建立文本庫後,您可以在文本庫列表中查看建立的文本庫。 - 管理文本庫中的文本(關鍵詞、相似文本)。自訂文本庫列表顯示所有自訂文本庫,其中系統迴流文本庫的名稱前有系統標識,且按照“使用情境_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系統迴流產生的用於文本反垃圾情境的黑名單文本庫。
- 定位到要操作的關鍵詞文本庫,單擊其操作列下的管理。
- 在文本庫管理頁面,維護文本庫內的關鍵詞。文本庫管理頁面展示了所有已添加的關鍵詞資訊和最近7天命中次數(不包括當天的命中資料)。說明 在文本庫新增、刪除關鍵詞,大約需要15分鐘生效。
- 單擊新增關鍵詞或匯入,按照頁面提示在文本庫中增加關鍵詞。
- 選中不需要的關鍵詞,單擊大量刪除,刪除關鍵詞。您也可以單擊不需要的關鍵詞下的刪除,單獨將其刪除。
相關操作
對於自訂文本庫(非系統迴流文本庫),您可通過自訂文本庫頁面中操作列的刪除、修改和停用對目標文本庫進行操作。