K8s事件包括集群的状态变更,例如创建Pod、运行Pod、删除Pod、组件异常。K8s事件中心实时收集Kubernetes集群中的所有事件并提供存储、查询、分析、可视化、告警等能力。本文介绍创建及使用K8s事件中心的操作步骤。
背景信息
Kubernetes的架构设计基于状态机,不同的状态之间进行转换则会生成相应的事件,正常的状态之间转换会生成Normal等级的事件,正常状态与异常状态之间的转换会生成Warning等级的事件。
ACK提供开箱即用的容器场景事件监控方案,通过ACK维护的NPD以及包含在NPD中的kube-eventer提供容器事件监控能力。
NPD(node-problem-detector)是Kubernetes节点诊断的工具,可以将节点的异常,例如Docker Engine Hang、Linux Kernel Hang、网络出网异常、文件描述符异常转换为Node的事件,结合kube-eventer可以实现节点事件告警的闭环。更多信息,请参见NPD。
kube-eventer是ACK维护的开源Kubernetes事件离线工具,可以将集群的事件离线到钉钉、SLS、EventBridge等系统,并提供不同等级的过滤条件,实现事件的实时采集、定向告警、异步归档。更多信息,请参见kube-eventer。
前提条件
已创建Kubernetes集群(例如阿里云ACK集群、ACK Serverless集群等)。
计费说明
K8s事件中心具备如下条件时,免费使用。
K8s事件中心关联的Logstore的存储时间为90天(默认90天)。
每天写入K8s事件中心的数据量少于256 MB(大约25万条事件)。
例如:
不调整存储时间(默认90天),且K8s集群每天产生1000条事件,则K8s事件中心免费使用。
调整存储时间为105天,且K8s集群每天产生1000条事件,则超过90天后,K8s事件中心会产生Logstore存储费用(计费项为存储空间-日志存储)。关于存储空间-日志存储计费项的更多信息,请参见按使用功能计费模式计费项。
步骤一:部署kube-eventer和node-problem-detector
阿里云Kubernetes
如果是ACK集群,则对应阿里云Kubernetes组件中的ack-node-problem-detector组件已集成eventer和node-problem-detector功能,您只需要部署该组件。更多信息,请参见事件监控。如果是ACK Serverless集群,您需要部署kube-eventer组件。
NPD根据配置与第三方插件检测节点的问题或故障、生成相应的集群事件。而Kubernetes集群自身也会因为集群状态的切换产生各种事件,例如Pod驱逐、镜像拉取失败等异常情况。日志服务SLS(Log Service)的Kubernetes事件中心实时汇聚Kubernetes中的所有事件并提供存储、查询、分析、可视化、告警等能力。将集群事件接入日志服务的Kubernetes事件中心操作步骤如下。
其他Kubernetes
部署eventer。
安装kubectl工具。具体操作,请参见通过kubectl连接Kubernetes集群。
使用以下样例创建名为eventer.yaml的配置文件。
apiVersion: apps/v1 kind: Deployment metadata: labels: name: kube-eventer name: kube-eventer namespace: kube-system spec: replicas: 1 selector: matchLabels: app: kube-eventer template: metadata: labels: app: kube-eventer annotations: scheduler.alpha.kubernetes.io/critical-pod: '' spec: dnsPolicy: ClusterFirstWithHostNet serviceAccount: kube-eventer containers: - image: registry.cn-hangzhou.aliyuncs.com/acs/kube-eventer:v1.2.5-cc7ec54-aliyun name: kube-eventer command: - "/kube-eventer" - "--source=kubernetes:https://kubernetes.default" ## .send to sls ## --sink=sls:https://{endpoint}?project={project}&logStore=k8s-event®ionId={region-id}&internal=false&accessKeyId={accessKeyId}&accessKeySecret={accessKeySecret} - --sink=sls:https://cn-beijing.log.aliyuncs.com?project=k8s-xxxx&logStore=k8s-event®ionId=cn-beijing&internal=false&accessKeyId=xxx&accessKeySecret=xxx env: # If TZ is assigned, set the TZ value as the time zone - name: TZ value: "Asia/Shanghai" volumeMounts: - name: localtime mountPath: /etc/localtime readOnly: true - name: zoneinfo mountPath: /usr/share/zoneinfo readOnly: true resources: requests: cpu: 10m memory: 50Mi limits: cpu: 500m memory: 250Mi volumes: - name: localtime hostPath: path: /etc/localtime - name: zoneinfo hostPath: path: /usr/share/zoneinfo --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: kube-eventer rules: - apiGroups: - "" resources: - events verbs: - get - list - watch --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding metadata: name: kube-eventer roleRef: apiGroup: rbac.authorization.k8s.io kind: ClusterRole name: kube-eventer subjects: - kind: ServiceAccount name: kube-eventer namespace: kube-system --- apiVersion: v1 kind: ServiceAccount metadata: name: kube-eventer namespace: kube-system
配置项
类型
是否必选
说明
endpoint
string
必选
日志服务的Endpoint。更多信息,请参见服务入口。
project
string
必选
日志服务的Project。
logStore
string
必选
日志服务的Logstore。
internal
string
自建Kubernetes:必选。
自建Kubernetes必须设置为false。
regionId
string
自建Kubernetes:必选。
日志服务所在地域ID。更多信息,请参见服务入口。
accessKeyId
string
自建Kubernetes:必选。
AccessKey ID,建议使用RAM用户的AccessKey信息。更多信息,请参见访问密钥。
accessKeySecret
string
自建Kubernetes:必选。
AccessKey Secret,建议使用RAM用户的AccessKey信息。更多信息,请参见访问密钥。
执行以下命令,将eventer.yaml中的配置应用到集群。
kubectl apply -f eventer.yaml
预期输出:
deployment.apps/kube-eventer created clusterrole.rbac.authorization.k8s.io/kube-eventer created clusterrolebinding.rbac.authorization.k8s.io/kube-eventer created serviceaccount/kube-eventer created
部署node-problem-detector。
具体操作,请参见Github。
步骤二:创建K8s事件中心实例
创建K8s事件中心后,日志服务自动在目标Project中生成一个名为k8s-event
的Logstore,并生成相关联的仪表盘等。
登录日志服务控制台。
在日志应用区域的智能运维页签中,单击K8s事件中心。
在事件中心管理页面,单击页面右上角的添加。
在创建事件中心面板,配置相关参数,然后单击下一步。
如果选择已有Project,则从Project下拉框中选择已创建的Project,用于管理K8s事件中心相关资源(Logstore、仪表盘等)。
如果选择从容器服务选择K8s集群,则从K8s集群下拉框中选择已创建的K8s集群。通过此方式创建K8s事件中心,日志服务默认创建一个名为
k8s-log-{cluster-id}
的Project,用于管理K8s事件中心相关资源(Logstore、仪表盘等)。
步骤三:使用K8s事件中心实例
创建K8s事件中心并部署eventer和NPD后,即可在K8s事件中心查看事件总览、查询事件详情、查看Pod生命周期、查看节点事件、查看核心组件事件、设置告警、自定义查询和更新版本等。
在K8s事件中心页面,找到目标K8s事件中心实例,单击图标,可进行如下操作。
操作 | 说明 |
查看事件总览 | 事件总览页面用于展示核心事件的汇总统计信息。例如事件总数、今天Error事件数与昨天的对比、告警项统计、Error事件趋势、Pod OOM详细信息等。 说明 目前Pod OOM信息不能精确到Pod,只能定位到事件发生的节点、进程名、进程号。您可以通过自定义查询查找Pod OOM发生时间点附近的Pod重启事件,以此定位到具体的Pod。 |
查询事件详情 | 事件详情查询页面用于展示经过各种维度(事件类型、事件目标、Host、Namespace、Name)过滤后的事件详细信息。 |
查看Pod生命周期 | Pod生命周期页面以图形化方式展示Pod整个生命周期中的事件信息。您还可以通过事件等级筛选重要的Pod事件。 |
查看节点事件 | 节点事件页面用于展示节点事件详情。例如Node生命周期、事件列表等。 |
查看核心组件事件 | 核心组件事件页面用于展示核心组件事件详情。例如ECS重启失败、URL模式未执行等。 |
设置告警 | 在告警配置页面,您可以为K8s事件中心设置告警。具体操作,请参见设置告警。 |
自定义查询 | 在自定义查询页面,您可以自定义查询和分析语句。 K8s事件中心的所有事件都保存在Logstore中,您可以使用Logstore中的所有功能,例如自定义查询、消费事件、创建自定义报表、创建自定义告警等。更多信息,请参见查询和分析日志。 如果您要访问K8s事件中心所在的Project,可通过以下两种方式获取Project名称。
|
更新版本 | 在版本更新页面,您可以升级K8s事件中心的版本。 |
删除K8s事件中心实例
在
页面,单击实例名称后操作列的图标。日志样例
采集到的日志样例如下所示。
hostname: cn-hangzhou.i-***********"
level: Normal
pod_id: 2a360760-****
pod_name: logtail-ds-blkkr
event_id: {
"metadata":{
"name":"logtail-ds-blkkr.157b7cc90de7e192",
"namespace":"kube-system",
"selfLink":"/api/v1/namespaces/kube-system/events/logtail-ds-blkkr.157b7cc90de7e192",
"uid":"2aaf75ab-****",
"resourceVersion":"6129169",
"creationTimestamp":"2019-01-20T07:08:19Z"
},
"involvedObject":{
"kind":"Pod",
"namespace":"kube-system",
"name":"logtail-ds-blkkr",
"uid":"2a360760-****",
"apiVersion":"v1",
"resourceVersion":"6129161",
"fieldPath":"spec.containers{logtail}"
},
"reason":"Started",
"message":"Started container",
"source":{
"component":"kubelet",
"host":"cn-hangzhou.i-***********"
},
"firstTimestamp":"2019-01-20T07:08:19Z",
"lastTimestamp":"2019-01-20T07:08:19Z",
"count":1,
"type":"Normal",
"eventTime":null,
"reportingComponent":"",
"reportingInstance":""
}
日志字段 | 数据类型 | 说明 |
hostname | String | 事件发生所在的主机名。 |
level | String | 日志等级,包括Normal、Warning。 |
pod_id | String | Pod的唯一标识,仅在该事件类型和Pod相关时才具有此字段。 |
pod_name | String | Pod名,仅在该事件类型和Pod相关时才具有此字段。 |
event_id | JSON | 事件的详细内容。该字段为JSON类型的字符串。 |
常见问题
K8s事件中心实例无数据
部署好K8s事件中心后,新产生的事件会自动采集到K8s事件中心,您可以在自定义查询页面进行搜索(建议将右上角时间范围调整到1天)。如果无数据,一般有两个原因:
部署K8s事件中心后,K8s集群还未产生事件。
您可以通过
kubectl get events --all-namespaces
命令检查集群内是否有新事件产生。部署eventer和node-problem-detector时,参数填写错误。
如果您使用的是阿里云Kubernetes集群,请参考如下步骤。
登录容器服务控制台。
在集群页面中,单击目标集群。
在左侧导航栏中,选择
。在Helm页面中,单击ack-node-problem-detector后的更新。
检查并修改参数配置。更多信息,请参见步骤一:部署eventer和node-problem-detector。
如果您使用的是自建Kubernetes集群,参数配置请参见采集Kubernetes事件。
如何查看事件对应容器的日志?
如果您使用的是阿里云Kubernetes集群,请参考如下步骤。
登录容器服务控制台。
在集群页面中,单击目标集群。
在左侧导航栏中,选择
。将命名空间选择为kube-system。
在容器组列表中,单击目标容器组对应的日志。
如果您使用的是自建Kubernetes集群,请查看namespace为kube-system下文件名前缀为eventer-sls的Pod日志。