爬蟲威脅情報功能提供撥號池IP、IDC機房IP、惡意掃描工具IP以及雲端即時模型產生的惡意爬蟲庫等多種維度爬蟲威脅情報規則,方便您在全網域名稱或指定路徑下設定阻斷惡意爬蟲的訪問請求。
前提條件
- 已開通Web Application Firewall執行個體,且執行個體開啟了Bot管理模組。
已完成網站接入。具體操作,請參見使用教程。
背景資訊
爬蟲威脅情報規則基於阿里雲爬蟲情報庫,協助您阻斷來自威脅情報庫的爬蟲請求。阿里雲爬蟲情報庫基於阿里雲全網流量和威脅情報計算得出並即時更新,可有效檢測惡意爬蟲IP,並提供惡意訪問請求來源的特徵資訊,目前已掌握超過700種已知Bot類型及對應特徵。
說明 阿里雲爬蟲情報庫覆蓋公用雲端和線下IDC網路。
您可以設定威脅情報規則,針對不同類型的威脅情報庫選擇不同的處置動作(例如直接攔截、進行JavaScript校正、彈出滑塊驗證或觀察),也可以為某些關鍵介面配置針對特定類型威脅情報庫的防護,以避免正常業務受到影響。
操作步驟
在頂部功能表列,選擇Web Application Firewall執行個體的資源群組和地區(中國內地、非中國內地)。
在左側導覽列,選擇 。
在網站防護頁面上方,切換到要設定的網域名稱。
- 單擊Bot管理頁簽,定位到爬蟲威脅情報地區,開啟狀態開關並單擊前去配置。說明 爬蟲威脅情報開啟後,所有網站請求預設都會經過爬蟲威脅情報規則的檢測。您可以通過設定Bot管理白名單,讓滿足條件的請求忽略爬蟲威脅情報規則的檢測。更多資訊,請參見設定Bot管理白名單。
- 在爬蟲威脅情報規則列表中,根據情報名稱選擇要使用的威脅情報庫,並在啟用狀態列,開啟啟用狀態開關。下表描述了支援的爬蟲威脅情報庫。
情報庫 描述 掃描器惡意指紋庫 通過流量分析,識別到的數萬掃描器特徵庫。 惡意掃描IP情報庫 基於阿里雲全網即時檢測到的惡意掃描行為攻擊源IP進行分析,得到的動態IP情報庫。 撞庫IP情報庫 基於阿里雲全網即時檢測到的撞庫、暴力破解行為攻擊源IP進行分析,得到的數十萬動態IP情報庫。 偽造蜘蛛情報庫 識別爬蟲程式偽造合法搜尋引擎的user-agent(如BaiduSpider)來逃避檢測的行為。 重要 開啟該威脅情報庫之前,請確保已經允許存取合法爬蟲白名單,否則可能導致誤攔截。更多資訊,請參見設定合法爬蟲規則。惡意爬蟲情報庫 基於阿里雲全網即時檢測到的爬蟲行為攻擊源IP進行分析,得出的數百萬動態IP情報庫。該IP情報有低級、中級、進階三個等級。層級越高,對應的情報庫內IP數量越多,相應的誤判機率更大。 說明 建議您對進階情報庫規則中風險等級為進階的規則(誤判較多)設定二次校正(即使用滑塊驗證、JS校正等處置動作),避免誤判。對二次校正不適用的情境(規則風險等級為低級),建議配置低層級的情報庫規則。
IDC情報庫 相關公用雲端和IDC機房的IP庫,包括:阿里雲、騰訊雲、美團雲、世紀互聯、其他。這些IP段經常被爬蟲用於部署爬蟲程式或用作代理,而不會被正常使用者使用。 - 可選:自訂威脅情報規則。
- 定位到要調整的預設規則,單擊其操作列下的編輯。
- 在編輯情報對話方塊,完成威脅情報規則的配置。
配置項 說明 防護路徑 填寫要防護的具體URL(例如“/abc”、“/login/abc”,“/”表示所有路徑),並選擇對應的匹配方式。可選值: - 精確匹配:訪問地址與防護路徑完全符合時,會命中威脅情報規則。
- 首碼匹配:訪問地址與防護路徑的首碼相同時,會命中威脅情報規則。
- 正則匹配:訪問地址滿足防護路徑的正則表達時,會命中威脅情報規則。
單擊新增防護路徑可以添加最多10個路徑。
處置動作 指定命中規則後的操作。可選值: - 觀察:允許存取請求並進行記錄。
- 阻斷:直接阻斷訪問請求。
- JS驗證:通過JavaScript校正請求資料,驗證通過後允許存取請求。
- 滑塊:在用戶端跳出滑塊驗證頁面,用戶端完成驗證後允許存取請求。 說明 滑塊驗證僅支援同步請求,如有非同步請求(如AJAX)防護需求請聯絡阿里雲安全團隊。如果不確定您防護的介面能否正常使用滑塊驗證,建議您先在自訂防護策略(ACL存取控制)中配置針對測試IP和URL的規則來驗證和調試。更多資訊,請參見設定自訂防護策略。
- 嚴格滑塊:在用戶端跳出滑塊驗證頁面,用戶端完成驗證後允許存取請求。滑塊驗證的通過標準更嚴格。
- 單擊確定。