您可以通过阿里云云监控服务来监控日志服务的写入流量、总体QPS、服务状态等指标,获取日志服务的使用情况。同时您可以通过创建报警规则,对日志采集、Shard资源使用等异常进行监控。
前提条件
RAM用户查看云监控指标,需要主账户为其授予云监控只读(AliyunCloudMonitorReadOnlyAccess)或读写(AliyunCloudMonitorFullAccess)权限,授权步骤请参见创建RAM用户及授权。
查看云监控指标
登录日志服务控制台。
在Project列表区域,单击目标Project。
在 页签中,选择目标Logstore右侧的 。
查看日志服务的监控指标。
云监控指标含义
云监控指标 | 含义 |
写入流量 | Logstore每分钟写入数据的实时大小。 |
原始数据大小 | Logstore每分钟写入数据原始大小,即压缩前的大小。 |
总体QPS | 所有操作QPS。 |
操作次数 | 统计用户每分钟API请求操作的次数。更多信息,请参见API概览。 |
服务状态 | 统计用户操作返回的HTTP状态码的个数。 |
客户端解析成功流量 | Logtail采集成功的日志大小,为原始数据大小。 |
客户端解析成功行数 | Logtail采集成功的日志的行数。 |
客户端解析失败行数 | Logtail采集日志过程中,出现采集错误的行数,如果该视图有数据,则表示发生了错误。 |
客户端错误次数 | Logtail采集日志过程中,出现采集错误的次数。 |
客户端错误机器数 | Logtail采集日志过程中,出现采集错误的告警机器数。 |
发生错误IP统计 | 展示各种日志采集错误类型发生的IP数。 请根据具体错误找到出错的IP地址,然后登录机器查看/usr/local/ilogtail/ilogtail.LOG,分析错误原因。 |
写入行数 | Logstore每分钟写入数据的行数。 |
读取流量 | Logstore每分钟读取数据的实时大小。 |
消费落后时长 | 当前消费进度和队列中最新数据写入时间的差值,在一个消费组中,该值为差值最大的Shard的时间差。 |
设置云监控报警规则
日志服务支持通过云监控设置报警规则,当服务状态符合报警规则时发送报警短信或邮件。您可以通过设置云监控中的日志监控报警规则,对日志采集、Shard资源使用等异常进行监控。
您可以在目标云产品的监控页面,为该云产品中的资源设置报警规则。当资源符合报警规则时,云监控自动发送报警通知。
查看云监控报警规则
您可以在目标云产品的监控页面,查看该云产品中的所有报警规则。
登录云监控控制台。
在左侧导航栏,选择
。在云产品监控页面,单击目标云产品。
在目标云产品的监控页面,单击查看报警规则。