全部產品
Search
文件中心

:設定合法爬蟲規則

更新時間:Jul 01, 2024

合法爬蟲功能提供合法搜尋引擎白名單(例如Google、Bing、百度、搜狗、Yandex等),為網域名稱允許存取合法爬蟲的訪問請求。

前提條件

  • 已開通Web Application Firewall執行個體,且執行個體開啟了Bot管理模組。
  • 已完成網站接入。具體操作,請參見使用教程

背景資訊

合法爬蟲規則依據阿里雲爬蟲情報庫,協助您直接允許存取合法爬蟲請求。阿里雲爬蟲情報庫基於阿里雲全網流量計算得出並可即時更新,涵蓋合法爬蟲訪問請求來源的特徵資訊。合法爬蟲支援主流搜尋引擎的爬蟲IP資訊,可動態更新,目前包含Google、百度、搜狗、Bing、Yandex。

啟用合法爬蟲規則後,來自相關搜尋引擎的合法爬蟲IP將被直接允許存取,不經過Bot管理模組的防護檢測。
說明 在Bot管理模組外,您還可以使用存取控制/限流規則進一步過濾來自於合法爬蟲白名單IP的請求。更多資訊,請參見設定自訂防護策略

操作步驟

  1. 登入Web Application Firewall控制台

  2. 在頂部功能表列,選擇Web Application Firewall執行個體的資源群組和地區(中國內地非中國內地)。

  3. 在左側導覽列,選擇防護配置 > 網站防護

  4. 網站防護頁面上方,切換到要設定的網域名稱。切換網域名稱

  5. 單擊Bot管理頁簽,定位到合法爬蟲地區,開啟狀態開關並單擊前去配置合法爬蟲
  6. 合法爬蟲規則列表,根據情報名稱選擇要允許存取的合法爬蟲,開啟對應的啟用狀態開關。合法爬蟲規則
    預設規則支援單獨設定允許存取來自以下搜尋引擎的爬蟲請求:Google、Bing、百度、搜狗、Yandex。您也可以只開啟合法搜尋引擎白名單規則,允許存取所有支援的搜尋引擎白名單。