爬虫威胁情报功能提供拨号池IP、IDC机房IP、恶意扫描工具IP以及云端实时模型生成的恶意爬虫库等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求。
前提条件
- 已开通Web应用防火墙实例,且实例开启了Bot管理模块。
- 已完成网站接入。具体操作,请参见使用教程。
背景信息
爬虫威胁情报规则基于阿里云爬虫情报库,帮助您阻断来自威胁情报库的爬虫请求。阿里云爬虫情报库基于阿里云全网流量和威胁情报计算得出并实时更新,可有效检测恶意爬虫IP,并提供恶意访问请求来源的特征信息,目前已掌握超过700种已知Bot类型及对应特征。
说明 阿里云爬虫情报库覆盖公有云和线下IDC网络。
您可以设置威胁情报规则,针对不同类型的威胁情报库选择不同的处置动作(例如直接拦截、进行JavaScript校验、弹出滑块验证或观察),也可以为某些关键接口配置针对特定类型威胁情报库的防护,以避免正常业务受到影响。
操作步骤
- 登录Web应用防火墙控制台。
- 在顶部菜单栏,选择Web应用防火墙实例的资源组和地域(中国内地、非中国内地)。
- 在左侧导航栏,选择 。
- 在网站防护页面上方,切换到要设置的域名。
- 单击Bot管理页签,定位到爬虫威胁情报区域,开启状态开关并单击前去配置。说明 爬虫威胁情报开启后,所有网站请求默认都会经过爬虫威胁情报规则的检测。您可以通过设置Bot管理白名单,让满足条件的请求忽略爬虫威胁情报规则的检测。更多信息,请参见设置Bot管理白名单。
- 在爬虫威胁情报规则列表中,根据情报名称选择要使用的威胁情报库,并在启用状态列,开启启用状态开关。下表描述了支持的爬虫威胁情报库。
情报库 描述 扫描器恶意指纹库 通过流量分析,识别到的数万扫描器特征库。 恶意扫描IP情报库 基于阿里云全网实时检测到的恶意扫描行为攻击源IP进行分析,得到的动态IP情报库。 撞库IP情报库 基于阿里云全网实时检测到的撞库、暴力破解行为攻击源IP进行分析,得到的数十万动态IP情报库。 伪造蜘蛛情报库 识别爬虫程序伪造合法搜索引擎的user-agent(如BaiduSpider)来逃避检测的行为。 重要 开启该威胁情报库之前,请确保已经放行合法爬虫白名单,否则可能导致误拦截。更多信息,请参见设置合法爬虫规则。恶意爬虫情报库 基于阿里云全网实时检测到的爬虫行为攻击源IP进行分析,得出的数百万动态IP情报库。该IP情报有低级、中级、高级三个等级。级别越高,对应的情报库内IP数量越多,相应的误判概率更大。 说明 建议您对高级情报库规则中风险等级为高级的规则(误报较多)设置二次校验(即使用滑块验证、JS校验等处置动作),避免误报。对二次校验不适用的场景(规则风险等级为低级),建议配置低级别的情报库规则。
IDC情报库 相关公有云和IDC机房的IP库,包括:阿里云、腾讯云、美团云、世纪互联、其他。这些IP段经常被爬虫用于部署爬虫程序或用作代理,而不会被正常用户使用。 - 可选:自定义威胁情报规则。