合法爬蟲功能提供合法搜尋引擎白名單(例如Google、Bing、百度、搜狗、Yandex等),為網域名稱允許存取合法爬蟲的訪問請求。
前提條件
- 已開通Web Application Firewall執行個體,且執行個體開啟了Bot管理模組。
已完成網站接入。具體操作,請參見使用教程。
背景資訊
合法爬蟲規則依據阿里雲爬蟲情報庫,協助您直接允許存取合法爬蟲請求。阿里雲爬蟲情報庫基於阿里雲全網流量計算得出並可即時更新,涵蓋合法爬蟲訪問請求來源的特徵資訊。合法爬蟲支援主流搜尋引擎的爬蟲IP資訊,可動態更新,目前包含Google、百度、搜狗、Bing、Yandex。
啟用合法爬蟲規則後,來自相關搜尋引擎的合法爬蟲IP將被直接允許存取,不經過Bot管理模組的防護檢測。
說明 在Bot管理模組外,您還可以使用存取控制/限流規則進一步過濾來自於合法爬蟲白名單IP的請求。更多資訊,請參見設定自訂防護策略。
操作步驟
在頂部功能表列,選擇Web Application Firewall執行個體的資源群組和地區(中國內地、非中國內地)。
在左側導覽列,選擇 。
在網站防護頁面上方,切換到要設定的網域名稱。
- 單擊Bot管理頁簽,定位到合法爬蟲地區,開啟狀態開關並單擊前去配置。
- 在合法爬蟲規則列表,根據情報名稱選擇要允許存取的合法爬蟲,開啟對應的啟用狀態開關。預設規則支援單獨設定允許存取來自以下搜尋引擎的爬蟲請求:Google、Bing、百度、搜狗、Yandex。您也可以只開啟合法搜尋引擎白名單規則,允許存取所有支援的搜尋引擎白名單。