工作流集群集成阿里云ARMS Prometheus服务,提供完善的可观测能力。您可以查看工作流运行状况和集群的健康状况。本文介绍如何在工作流集群中开启和使用Prometheus监控服务。
前提条件
已授予RAM用户AliyunAdcpFullAccess权限。具体操作,请参见为RAM用户授权。
说明
如果您的工作流集群未能正常开启集群监控,请提交工单联系容器服务团队。也可加入钉钉群(钉钉群号:35688562)进行反馈。
计费说明
工作流集群监控会引起额外的费用,建议在启用此功能前,仔细阅读计费说明。
开启Prometheus监控服务
通过控制台开启
登录ACK One控制台,在左侧导航栏选择 。
在集群监控页面,单击开启工作流集群监控,然后单击确定,开启工作流集群监控。
通过命令开启
执行以下命令,获取工作流集群的ClusterID。
aliyun adcp DescribeHubClusters --Profile=XFlow
执行以下命令,开启Prometheus监控服务。
aliyun adcp UpdateHubClusterFeature --MonitorEnabled true --ClusterId <cluster id>
Prometheus监控服务开启后,将为该工作流实例自动创建一个ARMS Prometheus实例。
查看Prometheus监控大盘。
登录ACK One控制台,在左侧导航栏选择工作流集群。
在工作流集群页面的常用操作区域,单击应用实时监控服务ARMS跳转至大盘列表页面。
您可以查看集群的运行状况和更详尽的信息,包括工作流运行状态、APIServer、etcd、Pod信息等。
在大盘列表页面,单击ACKOne-ArgoWorkflow大盘,查看工作流运行状况。
关闭Prometheus监控服务
通过控制台关闭
登录ACK One控制台,在左侧导航栏选择 。
在集群监控页面,单击右侧关闭功能,然后单击确定,关闭工作流集群监控。
通过命令关闭
执行以下命令,关闭Prometheus监控服务。
aliyun adcp UpdateHubClusterFeature --MonitorEnabled false --ClusterId <cluster id>