本文主要介绍如何使用CloudLens for SLS中全局错误日志、监控指标做Project资源配额的水位监控、超限监控及提交资源配额提升申请。
背景介绍
Alibaba Cloud Lens基于日志服务SLS构建云产品可观测能力。支持一键开启实例日志(重要日志、详细日志、作业运行日志)和全局日志(审计日志、计费日志、错误日志、监控指标)的采集功能。
日志分类 | 子分类 | 监控场景说明 |
实例日志 | 详细日志 | 访问流量监控 访问异常监控 |
重要日志 | 消费组监控 Logtail采集监控 | |
作业运行日志 | 数据加工(新版)监控 定时SQL任务监控 | |
全局日志 | 审计日志 | 资源操作监控 |
错误日志 | 额度超限监控 访问异常监控 操作异常监控 | |
监控指标 | 访问流量监控 访问异常监控 资源配额水位监控 | |
计费日志 | 资源用量跟踪 |
各类型日志说明,请参见日志索引表。
前提条件
已创建RAM用户,并对RAM用户授权。具体操作,请参见创建RAM用户和授予RAM用户操作CloudLens for SLS的权限。
已开启全局日志:错误日志、指标监控采集功能。具体操作,请参见开启日志采集功能。
为了构建实时资源配额水位监控,全局日志需开启:错误日志、指标监控;并且这两种全局日志需存储于同一Project内。
为了避免监控日志存放在业务Project导致监控占用Project的配额,可选择系统推荐的固定地域目标Project,如杭州地域:
log-service-{用户ID}-cn-hangzhou
。
查看额度监控仪表盘
通过CloudLens for SLS额度监控大盘,您可以查看资源配额预警情况、Project重点资源配额实时水位详情及Project资源配额超限详情。
- 登录日志服务控制台。
在
区域,单击CloudLens for SLS。选择左侧菜单栏
,可查看配额信息。
资源配额预警概览
报表提供资源配额预警概览(水位超过80%)以及额度超限分布。
Project重点资源配额实时水位详情
报表包含Project部分基础资源配额以及数据读写资源配额的实时水位详情。
Project资源配额超限详情
报表提供Project资源配额超限详情。
资源监控
CloudLens for SLS支持提供基础资源、数据读写等额度监控和Logstore监控、机器组监控、Project写入监控等高级监控。
- 登录日志服务控制台。
在日志应用区域,单击CloudLens for SLS。
在CloudLens for SLS配置界面,单击左侧菜单栏中的异常检测,可配置资源告警监控。
额度监控
额度监控项分类说明如下:
分类 | 监控项 | 说明 |
实时水位监控 |
| |
| ||
额度超限监控 |
|
基础资源配额水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
基础资源配额水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* | select Project, region, logstore_ratio, machine_group_ratio, logtail_config_ratio from (SELECT A.id as Project , A.region as region, round(COALESCE(SUM(B.count_logstore), 0)/cast(json_extract(A.quota, '$.logstore') as double) * 100, 3) as logstore_ratio, cast(json_extract(A.quota, '$.logstore') as double) as quota_logstore, round(COALESCE(SUM(C.count_machine_group), 0)/cast(json_extract(A.quota, '$.machine_group') as double) * 100, 3) as machine_group_ratio, cast(json_extract(A.quota, '$.machine_group') as double) as quota_machine_group, round(COALESCE(SUM(D.count_logtail_config), 0)/cast(json_extract(A.quota, '$.config') as double) * 100, 3) as logtail_config_ratio, cast(json_extract(A.quota, '$.config') as double) as quota_logtail_config FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logstore FROM "resource.sls.cmdb.logstore" as B GROUP BY project ) AS B ON A.id = B.project LEFT JOIN ( SELECT project, COUNT(*) AS count_machine_group FROM "resource.sls.cmdb.machine_group" as C GROUP BY project ) AS C ON A.id = C.project LEFT JOIN ( SELECT project, COUNT(*) AS count_logtail_config FROM "resource.sls.cmdb.logtail_config" as D GROUP BY project ) AS D ON A.id = D.project group by A.id, A.quota, A.region) where quota_logstore is not null and quota_machine_group is not null and quota_logtail_config is not null and (logstore_ratio > 80 or machine_group_ratio > 80 or logtail_config_ratio > 80) limit 10000
分组评估
标签自动
触发条件
当有Project的Logstore数、机器组数、Logtail采集配置其中一个水位超过额度的90%时告警级别为严重。
当有Project的Logstore数、机器组数、Logtail采集配置其中一个水位超过额度的80%时告警级别为中。
当有数据匹配
logstore_ratio > 90 || machine_group_ratio > 90 || logtail_config_ratio > 90
时,严重度:严重。当有数据匹配
logstore_ratio > 80 || machine_group_ratio > 80 || logtail_config_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
数据读写配额水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
数据读写配额水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:5分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
(*)| select Project, region, inflow_ratio, write_cnt_ratio from (SELECT cmdb.id as Project, cmdb.region as region, round(COALESCE(M.name1,0)/round(cast(json_extract(cmdb.quota, '$.inflow_per_min') as double)/1000000000, 3) * 100, 3) as inflow_ratio, round(COALESCE(M.name2,0)/cast(json_extract(cmdb.quota, '$.write_cnt_per_min') as double) * 100, 3) as write_cnt_ratio from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, round(MAX(name1)/1000000000, 3) as name1, MAX(name2) as name2 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_origin_inflow_bytes' THEN __value__ ELSE NULL END) AS name1, sum(CASE WHEN __name__ = 'logstore_write_count' THEN __value__ ELSE NULL END) AS name2 FROM "internal-monitor-metric.prom" where __name__ in ('logstore_origin_inflow_bytes','logstore_write_count' ) and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project) where inflow_ratio > 80 or write_cnt_ratio > 80 limit 10000
分组评估
标签自动
触发条件
当有Project的Project写入流量、写入次数其中一个水位超过额度的90%时告警级别为严重。
当有Project的Project写入流量、写入次数其中一个水位超过额度的80%时告警级别为中。
当有数据匹配
where inflow_ratio > 90 || write_cnt_ratio > 90
时,严重度:严重。当有数据匹配
where inflow_ratio > 80 || write_cnt_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
资源配额超限次数监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
资源配额超限次数监控
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
((* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed or ErrorCode: ShardWriteQuotaExceed or ErrorCode: ShardReadQuotaExceed)))| SELECT Project, CASE WHEN ErrorMsg like '%Project write quota exceed: inflow%' then 'Project写入流量超限' WHEN ErrorMsg like '%Project write quota exceed: qps%' then 'Project写入次数超限' WHEN ErrorMsg like '%dashboard quota exceed%' then '报表额度超限' WHEN ErrorMsg like '%config count%' then 'Logtail采集配置超限' WHEN ErrorMsg like '%machine group count%' then '机器组超限' WHEN ErrorMsg like '%Alert count %' then '告警超限' WHEN ErrorMsg like '%logstore count %' then 'LogStore数超限' WHEN ErrorMsg like '%shard count%' then 'Shard数超限' WHEN ErrorMsg like '%shard write bytes%' then 'Shard写入超限' WHEN ErrorMsg like '%shard write quota%' then 'Shard写入超限' WHEN ErrorMsg like '%user can only run%' then 'SQL分析操作并发数超限' ELSE ErrorMsg END AS ErrorMsg, COUNT(1) AS count GROUP BY Project, ErrorMsg Limit 1000
分组评估
不分组
触发条件
当有任意额度超限10次错误告警级别为严重。
当有任意额度发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
高级监控
高级监控项分类说明如下:
分类 | 场景 | 监控项 | 说明 |
基础资源配额 | 实时水位监控 |
| |
额度超限监控 |
| ||
实时水位监控 |
| ||
额度超限监控 |
| ||
实时水位监控 |
| ||
额度超限监控 |
| ||
数据读写资源配额 | 实时水位监控 |
| |
额度超限监控 |
| ||
实时水位监控 |
| ||
额度超限监控 |
|
Logstore监控
实时水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Logstore数水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* | select Project, region, round(count_logstore/quota_logstore * 100, 3) as logstore_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_logstore), 0) AS count_logstore , cast(json_extract(A.quota, '$.logstore') as double) as quota_logstore FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logstore FROM "resource.sls.cmdb.logstore" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_logstore is not null order by logstore_ratio desc limit 1000
分组评估
标签自动
触发条件
当有Project的LogStore数超过额度的90%时告警级别为严重。
当有Project的LogStore数超过额度的80%时告警级别为中。
当有数据匹配
logstore_ratio > 90
时,严重度:严重。当有数据匹配
logstore_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
额度超限监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Logstore数额度超限
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%logstore count %' GROUP BY Project ORDER BY count DESC LIMIT 1000
分组评估
不分组
触发条件
当有Project的Logstore发生超限10次错误告警级别为严重。
当有Project的Logstore发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
机器组监控
实时水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告监控规则。
参数项
赋值
规则名称
机器组水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* | select Project, region, round(count_machine_group/quota_machine_group * 100, 3) as machine_group_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_machine_group), 0) AS count_machine_group , cast(json_extract(A.quota, '$.machine_group') as double) as quota_machine_group FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_machine_group FROM "resource.sls.cmdb.machine_group" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_machine_group is not null order by machine_group_ratio desc limit 1000
分组评估
标签自动
触发条件
当有Project的机器组超过额度的90%时告警级别为严重。
当有Project的机器组超过额度的80%时告警级别为中。
当有数据匹配
machine_group_ratio > 90
时,严重度:严重。当有数据匹配
machine_group_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
额度超限监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Logstore数额度超限
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%machine group count%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分组评估
不分组
触发条件
当有Project的机器组发生超限10次错误告警级别为严重。
当有Project的机器组发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
Logtail采集配置
实时水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Logtail采集配置水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* | select Project, region, round(count_logtail_config/quota_logtail_config * 100, 3) as logtail_config_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_logtail_config), 0) AS count_logtail_config , cast(json_extract(A.quota, '$.config') as double) as quota_logtail_config FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logtail_config FROM "resource.sls.cmdb.logtail_config" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_logtail_config is not null order by logtail_config_ratio desc limit 1000
分组评估
标签自动
触发条件
当有Project的Logtail采集配置数超过额度的90%时告警级别为严重。
当有Project的Logtail采集配置数超过额度的80%时告警级别为中。
当有数据匹配
logtail_config_ratio > 90
时,严重度:严重。当有数据匹配
logtail_config_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
额度超限监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Logtail采集配置额度超限
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%config count%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分组评估
不分组
触发条件
当有Project的Logtail采集配置发生超限10次错误告警级别为严重。
当有Project的Logtail采集配置发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
Project写入流量监控
实时水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Project写入流量水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
(*)| SELECT Project, region , round(count_inflow/cast(quota_inflow as double) * 100, 3) as inflow_ratio FROM (SELECT cmdb.id as Project, cmdb.region as region, COALESCE(M.name1,0) as count_inflow, round(cast(json_extract(cmdb.quota, '$.inflow_per_min') as double)/1000000000, 3) as quota_inflow from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, round(MAX(name1)/1000000000, 3) as name1 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_origin_inflow_bytes' THEN __value__ ELSE NULL END) AS name1 FROM "internal-monitor-metric.prom" where __name__ ='logstore_origin_inflow_bytes' and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project )order by inflow_ratio desc limit 1000
分组评估
标签自动
触发条件
当有Project写入流量超过额度的90%时告警级别为严重。
当有Project写入流量超过额度的80%时告警级别为中。
当有数据匹配
inflow_ratio > 90
时,严重度:严重。当有数据匹配
inflow_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
额度超限监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Project写入流量额度超限
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%Project write quota exceed: inflow%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分组评估
不分组
触发条件
当有Project写入流量发生超限10次错误告警级别为严重。
当有Project写入流量发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
Project写入次数监控
实时水位监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Project写入次数水位监控
检查频率
固定间隔,15分钟
查询统计
类型:指标库
授权方式:默认
指标库:internal-monitor-metric
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
(*)| SELECT Project, region, round(count_write_cnt/cast(quota_write_cnt as double) * 100, 3) as write_cnt_ratio FROM (SELECT cmdb.id as Project, cmdb.region as region, COALESCE(M.name1,0) as count_write_cnt, cast(json_extract(cmdb.quota, '$.write_cnt_per_min') as bigint) as quota_write_cnt from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, MAX(name1) as name1 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_write_count' THEN __value__ ELSE NULL END) AS name1 FROM "internal-monitor-metric.prom" where __name__ = 'logstore_write_count' and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project ) order by write_cnt_ratio desc limit 1000
分组评估
标签自动
触发条件
当有Project写入次数超过额度的90%时告警级别为严重。
当有Project写入次数超过额度的80%时告警级别为中。
当有数据匹配
inflow_ratio > 90
时,严重度:严重。当有数据匹配
inflow_ratio > 80
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
额度超限监控
单击新建告警,配置告警规则。
选择创建告警需要挂载的Project为存储全局错误日志和监控指标所在Project。
根据业务场景配置告警触发条件、以及告警策略。
根据下表完成配置,其余参数保持默认即可,具体信息,可参见创建日志告警监控规则。
参数项
赋值
规则名称
Project写入次数额度超限
检查频率
固定间隔,15分钟
查询统计
类型:日志库
授权方式:默认
日志库:internal-error_log
查询区间:15分钟(相对)
查询语句:
重要查询SQL默认返回100条数据,若在SQL结尾添加limit 1000,代表可返回1000条查询结果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%Project write quota exceed: qps%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分组评估
不分组
触发条件
当有Project写入次数发生超限10次错误告警级别为严重。
当有Project写入次数发生超限1次错误时告警级别为中。
当有数据匹配
count > 10
时,严重度:严重。当有数据匹配
count > 1
时,严重度:中。
说明输出目标
SLS通知
告警策略
普通模式
行动策略
按需选择或单击新增创建行动策略,具体操作,请参见创建行动策略。
参数配置完成后,单击确定。
资源配额调整申请
- 登录日志服务控制台。
- 在Project列表区域,单击目标Project。
单击图标。
单击资源配额对应的管理。
在资源配额面板中,调整目标资源的配额,然后单击保存。