爬虫威胁情报功能提供拨号池IP、IDC机房IP、恶意扫描工具IP以及云端实时模型生成的恶意爬虫库等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求。

前提条件

  • 已开通Web应用防火墙实例,且实例开启了Bot管理模块。
  • 已完成网站接入。具体操作,请参见使用教程

背景信息

爬虫威胁情报规则基于阿里云爬虫情报库,帮助您阻断来自威胁情报库的爬虫请求。阿里云爬虫情报库基于阿里云全网流量和威胁情报计算得出并实时更新,可有效检测恶意爬虫IP,并提供恶意访问请求来源的特征信息,目前已掌握超过700种已知Bot类型及对应特征。
说明 阿里云爬虫情报库覆盖公有云和线下IDC网络。

您可以设置威胁情报规则,针对不同类型的威胁情报库选择不同的处置动作(例如直接拦截、进行JavaScript校验、弹出滑块验证或观察),也可以为某些关键接口配置针对特定类型威胁情报库的防护,以避免正常业务受到影响。

操作步骤

  1. 登录Web应用防火墙控制台
  2. 在顶部菜单栏,选择Web应用防火墙实例的资源组和地域(中国内地非中国内地)。
  3. 在左侧导航栏,选择防护配置 > 网站防护
  4. 网站防护页面上方,切换到要设置的域名。切换域名
  5. 单击Bot管理页签,定位到爬虫威胁情报区域,开启状态开关并单击前去配置
    说明 爬虫威胁情报开启后,所有网站请求默认都会经过爬虫威胁情报规则的检测。您可以通过设置Bot管理白名单,让满足条件的请求忽略爬虫威胁情报规则的检测。更多信息,请参见设置Bot管理白名单
  6. 爬虫威胁情报规则列表中,根据情报名称选择要使用的威胁情报库,并在启用状态列,开启启用状态开关。
    下表描述了支持的爬虫威胁情报库。
    情报库 描述
    扫描器恶意指纹库通过流量分析,识别到的数万扫描器特征库。
    恶意扫描IP情报库基于阿里云全网实时检测到的恶意扫描行为攻击源IP进行分析,得到的动态IP情报库。
    撞库IP情报库基于阿里云全网实时检测到的撞库、暴力破解行为攻击源IP进行分析,得到的数十万动态IP情报库。
    伪造蜘蛛情报库识别爬虫程序伪造合法搜索引擎的user-agent(如BaiduSpider)来逃避检测的行为。
    重要 开启该威胁情报库之前,请确保已经放行合法爬虫白名单,否则可能导致误拦截。更多信息,请参见设置合法爬虫规则
    恶意爬虫情报库基于阿里云全网实时检测到的爬虫行为攻击源IP进行分析,得出的数百万动态IP情报库。该IP情报有低级、中级、高级三个等级。级别越高,对应的情报库内IP数量越多,相应的误判概率更大。
    说明 建议您对高级情报库规则中风险等级为高级的规则(误报较多)设置二次校验(即使用滑块验证、JS校验等处置动作),避免误报。

    对二次校验不适用的场景(规则风险等级为低级),建议配置低级别的情报库规则。

    IDC情报库相关公有云和IDC机房的IP库,包括:阿里云、腾讯云、美团云、世纪互联、其他。这些IP段经常被爬虫用于部署爬虫程序或用作代理,而不会被正常用户使用。
    开启默认规则后,当目标情报库内的来源IP向域名下任意路径发起访问请求时,一律触发观察处置,即放行请求同时进行记录。

    如果您希望进一步调整默认规则(例如指定要防护的关键路径或者修改处置动作),请参照步骤7自定义威胁情报规则。

  7. 可选:自定义威胁情报规则。
    1. 定位到要调整的默认规则,单击其操作列下的编辑
    2. 编辑情报对话框,完成威胁情报规则的配置。
      配置项说明
      防护路径填写要防护的具体URL(例如“/abc”、“/login/abc”,“/”表示所有路径),并选择对应的匹配方式。可选值:
      • 精确匹配:访问地址与防护路径完全匹配时,会命中威胁情报规则。
      • 前缀匹配:访问地址与防护路径的前缀相同时,会命中威胁情报规则。
      • 正则匹配:访问地址满足防护路径的正则表达时,会命中威胁情报规则。

      单击新增防护路径可以添加最多10个路径。

      处置动作指定命中规则后的操作。可选值:
      • 观察:放行请求并进行记录。
      • 阻断:直接阻断访问请求。
      • JS验证:通过JavaScript校验请求数据,验证通过后放行请求。
      • 滑块:在客户端跳出滑块验证页面,客户端完成验证后放行请求。
        说明 滑块验证仅支持同步请求,如有异步请求(如AJAX)防护需求请联系阿里云安全团队。如果不确定您防护的接口能否正常使用滑块验证,建议您先在自定义防护策略(ACL访问控制)中配置针对测试IP和URL的规则来验证和调试。更多信息,请参见设置自定义防护策略
      • 严格滑块:在客户端跳出滑块验证页面,客户端完成验证后放行请求。滑块验证的通过标准更严格。
    3. 单击确定