Fluid是开源Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。Fluid提供面向应用的数据集统一抽象、可扩展的数据引擎插件、自动化数据操作、通用数据加速、运行时平台无关等核心功能。阿里云Prometheus监控支持一键安装Fluid组件,并提供开箱即用的监控大盘。本文介绍如何为Fluid开启Prometheus监控。
前提条件
已为ACK集群或ACK Serverless集群开启阿里云Prometheus监控。具体操作,请参见使用阿里云Prometheus监控。
已部署云原生AI套件(选择开启Fluid数据加速功能)。具体操作,请参见部署云原生AI套件。
如需使用Fluid控制面监控大盘的完整能力,请确保集群中运行的ack-fluid组件版本为0.9.7及以上。
如需使用Fluid JindoRuntime缓存系统监控大盘的完整能力,请确保集群中运行的ack-fluid组件版本为1.0.11及以上。
使用限制
缓存系统监控大盘仅支持对JindoRuntime类型(JindoCache缓存引擎)的缓存运行时组件进行监控。
步骤一:接入Fluid
步骤二:查看Fluid大盘数据
(推荐)从容器服务控制台查看Fluid大盘数据
登录容器服务管理控制台,在左侧导航栏单击集群。
在集群列表页面,单击已接入Fluid组件的ACK集群或ACK Serverless集群,然后在左侧导航栏,选择 。
在Prometheus监控页面,选择
,查看Fluid控制面监控大盘的详情数据。在Fluid控制面监控大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明。
在组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。
在Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。
在Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。
在资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。
在Prometheus监控页面,选择
,查看Fluid JindoRuntime缓存系统监控大盘的详情数据。在Fluid JindoRuntime缓存系统监控大盘中,您可以查看有关Fluid JindoRuntime缓存系统的详情数据,大盘数据包括Fluid Dataset概览、缓存系统监控指标、FUSE客户端监控指标等。更多详细信息,请参见Fluid监控大盘参数说明。
在Dataset Overview(数据集概览)区域,可查看选中的Fluid数据集的概览信息,包括缓存系统中正常运行的Master组件Pod、Worker组件Pod、FUSE组件Pod的数量,以及各Pod的资源配置情况。
在Cache System Metrics(缓存系统指标)区域,可查看选中的缓存系统服务端指标,包括缓存系统当前已使用的缓存容量、缓存命中率、缓存系统聚合带宽以及缓存系统处理文件元信息操作的QPS等。
在FUSE Metrics (via CSI)(FUSE Pod客户端指标)区域,可查看通过Fluid CSI插件和FUSE Pod方式挂载的FUSE文件系统的客户端指标,包括各FUSE Pod的网络I/O情况、元数据操作延时和QPS、读写数据操作延时和QPS等。
在FUSE Metrics (via Sidecar)(FUSE Sidecar容器客户端指标)区域,可查看通过Fluid FUSE Sidecar方式挂载的FUSE文件系统的客户端指标,包括元数据操作延时和QPS、读写数据操作延时和QPS等。
从ARMS控制台查看Fluid大盘数据
登录ARMS控制台。
左侧导航栏单击接入管理,在组件类型区域选择Fluid,并单击右侧的大盘页签,然后单击页面底部的Fluid Control Plane,您可以查看Fluid控制面监控大盘的详情数据。
在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明。
在组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。
在Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。
在Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。
在资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。
左侧导航栏单击接入管理,在组件类型区域选择Fluid,并单击右侧的大盘页签,然后单击页面底部的Fluid JindoRuntime Dashboard,您可以查看Fluid JindoRuntime缓存系统监控大盘的详情数据。
在Dataset Overview(数据集概览)区域,可查看选中的Fluid数据集的概览信息,包括缓存系统中正常运行的Master组件Pod、Worker组件Pod、FUSE组件Pod的数量,以及各Pod的资源配置情况。
在Cache System Metrics(缓存系统指标)区域,可查看选中的缓存系统服务端指标,包括缓存系统当前已使用的缓存容量、缓存命中率、缓存系统聚合带宽以及缓存系统处理文件元信息操作的QPS等。
在FUSE Metrics (via CSI)(FUSE Pod客户端指标)区域,可查看通过Fluid CSI插件和FUSE Pod方式挂载的FUSE文件系统的客户端指标,包括各FUSE Pod的网络I/O情况、元数据操作延时和QPS、读写数据操作延时和QPS等。
在FUSE Metrics (via Sidecar)(FUSE Sidecar容器客户端指标)区域,可查看通过Fluid FUSE Sidecar方式挂载的FUSE文件系统的客户端指标,包括元数据操作延时和QPS、读写数据操作延时和QPS等。
监控指标说明
Fluid控制面各组件使用的指标清单如下。
指标 | 类型 | 说明 |
dataset_ufs_total_size | Gauge | 当前集群内存活的Dataset资源对象挂载的数据集大小。 |
dataset_ufs_file_num | Gauge | 当前集群内存活的Dataset资源对象挂载的数据集文件数量。 |
runtime_setup_error_total | Counter | 控制器Reconcile过程中启动Runtime操作失败数量。 |
runtime_sync_healthcheck_error_total | Counter | 控制器Reconcile过程中Runtime健康检查操作失败数量。 |
controller_runtime_reconcile_time_seconds_bucket | Histogram | 控制器Reconcile流程耗时。 |
controller_runtime_reconcile_errors_total | Counter | 控制器Reconcile失败数量。 |
controller_runtime_reconcile_total | Counter | 控制器已完成的Reconcile过程总数。 |
controller_runtime_max_concurrent_reconciles | Gauge | 控制器的最大可用Reconcile协程数量。 |
controller_runtime_active_workers | Gauge | 控制器当前处于活跃状态的Reconcile协程数量。 |
workqueue_adds_total | Counter | 控制器Workqueue处理的Adds事件的数量。 |
workqueue_depth | Gauge | 控制器Workqueue当前队列深度。 |
workqueue_queue_duration_seconds_bucket | Histogram | 待处理对象在控制器Workqueue中等待时长。 |
workqueue_work_duration_seconds_bucket | Histogram | 控制器历史已完成的处理过程的时长分布。 |
workqueue_unfinished_work_seconds | Gauge | 控制器Workqueue中当前正在被处理,但还未处理完成的任务的总时长。 |
workqueue_longest_running_processor_seconds | Gauge | 控制器历史处理过程最大时长。 |
rest_client_requests_total | Counter | 从状态值(Status Code)、方法(Method)和主机(Host)维度分析的到的HTTP请求数。 |
rest_client_request_duration_seconds_bucket | Histogram | 从方法(Verb)和URL维度分析得到的HTTP请求时延。 |
controller_runtime_webhook_requests_in_flight | Gauge | Webhook当前正在处理的请求数量。 |
controller_runtime_webhook_requests_total | Counter | Webhook处理请求数量。 |
controller_runtime_webhook_latency_seconds_bucket | Histogram | Webhook处理请求时延。 |
process_cpu_seconds_total | Counter | CPU使用时长。 |
process_resident_memory_bytes | Gauge | 内存使用量。 |
Fluid JindoRuntime缓存监控大盘中JindoCache缓存系统服务端暴露的指标清单如下。
指标清单 | 类型 | 解释 |
jindocache_server_total_stsnodes_num | Gauge | 当前分布式缓存存活的Worker组件副本数量。 |
jindocache_server_total_disk_cap | Gauge | 分布式缓存系统中以磁盘介质(包含tmpfs等内存盘)的缓存容量上限。 |
jindocache_server_total_used_disk_cap | Gauge | 分布式缓存系统中已使用的磁盘介质(包含tmpfs等内存盘)缓存空间。 |
jindocache_server_total_mem_cap | Gauge | 分布式缓存系统中以进程内存为介质的缓存容量上限。 |
jindocache_server_total_used_mem_cap | Gauge | 分布式缓存系统中已使用的以进程内存为介质的缓存空间。 |
jindocache_server_total_used_rocksdb_cap | Gauge | 分布式缓存系统中已使用的RocksDB。 |
jindocache_server_backend_read_bytes_total | Gauge | 总计回源底层存储读取数据量大小,单位Byte。 回源底层存储读取指待读数据不在JindoCache分布式缓存中,需要回源底层存储系统进行读取的情况。 |
jindocache_server_backend_read_time_total | Gauge | 回源底层存储读取数据总耗时,单位微秒。 |
jindocache_server_backend_readop_num_total | Gauge | 总计回源底层存储读取数据次数,对应 JindoCache缓存中 Block 个数。 |
jindocache_server_backend_read_bytes_time_total_window | Gauge | 一分钟内回源底层存储读取数据耗时,单位微秒。 |
jindocache_server_backend_read_bytes_total_window | Gauge | 一分钟内回源底层存储读取总数据量大小,单位Byte。 |
jindocache_server_remote_read_bytes_total | Gauge | 总计同集群内远端缓存命中读取数据量大小,单位Byte。 远端缓存命中指待读数据在JindoCache分布式缓存中,但是缓存数据与应用不在相同节点的情况。 |
jindocache_server_remote_read_time_total | Gauge | 总计同集群内远端缓存命中读取数据总耗时,单位微秒。 |
jindocache_server_remote_readop_num_total | Gauge | 总计同集群内远端缓存命中读取次数。 |
jindocache_server_remote_read_bytes_time_total_window | Gauge | 一分钟内远端缓存命中读取总数据耗时,单位微秒。 |
jindocache_server_remote_read_bytes_total_window | Gauge | 一分钟内远端缓存命中读取总数据量大小,单位Byte。 |
jindocache_server_local_read_bytes_total | Gauge | 总计同集群内本地缓存命中读取数据量大小,单位Byte。 本地缓存命中指待读数据在JindoCache分布式缓存中,并且缓存数据与应用在相同节点的读取情况。 |
jindocache_server_local_read_time_total | Gauge | 总计同集群内本地缓存命中读取数据总耗时,单位微秒。 |
jindocache_server_local_readop_num_total | Gauge | 总计同集群内本地缓存命中读取次数。 |
jindocache_server_local_read_bytes_time_total_window | Gauge | 一分钟内本地缓存命中读取总数据耗时,单位微秒。 |
jindocache_server_local_read_bytes_total_window | Gauge | 一分钟内本地缓存命中读取总数据量大小,单位Byte。 |
jindocache_server_ns_filelet_op_count_total | Gauge | JindoCache Master组件侧统计的文件元信息操作(包括getAttr操作和listStatus操作)总数。 |
jindocache_server_ns_filelet_op_time_total | Gauge | JindoCache Master组件侧统计的处理文件元信息操作(包括getAttr操作和listStatus操作)的总耗时。 |
jindocache_server_ns_get_attr_op_total | Gauge | JindoCache Master组件侧统计的getAttr操作总数。 |
jindocache_server_ns_get_attr_time_total | Gauge | JindoCache Master组件侧统计的处理getAttr操作的总耗时。 |
jindocache_server_ns_get_attr_fallback_op_total | Gauge | JindoCache Master组件回源底层存储系统获取文件元信息的总次数。 |
jindocache_server_ns_list_status_op_total | Gauge | JindoCache Master组件侧统计的listStatus操作总数。 |
jindocache_server_ns_list_status_time_total | Gauge | JindoCache Master组件侧统计的处理listStatus操作的总耗时。 |
jindocache_server_ns_list_status_fallback_op_total | Gauge | JindoCache Master组件回源底层存储系统获取文件列表的总次数。 |
jindocache_server_dist_get_attr_op_num_total | Gauge | JindoCache客户端侧统计的getAttr操作总数。 |
jindocache_server_dist_get_attr_time_total | Gauge | JindoCache客户端侧统计的处理getAttr操作的总耗时。 |
jindocache_server_dist_list_dir_op_num_total | Gauge | JindoCache客户端侧统计的listStatus操作总数。 |
jindocache_server_dist_list_dir_time_total | Gauge | JindoCache客户端侧统计的处理listStatus操作的总耗时。 |
Fluid JindoRuntime缓存监控大盘中JindoCache缓存系统FUSE客户端暴露的指标清单如下。
指标清单 | 类型 | 解释 |
jindo_fuse_open_count | Gauge | Jindo FUSE客户端open操作次数。 |
jindo_fuse_open_latency | Gauge | Jindo FUSE客户端open操作P50分位延迟。 |
jindo_fuse_open_latency_80 | Gauge | Jindo FUSE客户端open操作P80分位延迟。 |
jindo_fuse_open_latency_90 | Gauge | Jindo FUSE客户端open操作P90分位延迟。 |
jindo_fuse_open_latency_99 | Gauge | Jindo FUSE客户端open操作P99分位延迟。 |
jindo_fuse_open_latency_999 | Gauge | Jindo FUSE客户端open操作千分之999分位延迟。 |
jindo_fuse_open_latency_9999 | Gauge | Jindo FUSE客户端open操作万分之9999分位延迟。 |
jindo_fuse_getattr_count | Gauge | Jindo FUSE客户端getAttr操作次数。 |
jindo_fuse_getattr_latency | Gauge | Jindo FUSE客户端getAttr操作P50分位延迟。 |
jindo_fuse_getattr_latency_80 | Gauge | Jindo FUSE客户端getAttr操作P80分位延迟。 |
jindo_fuse_getattr_latency_90 | Gauge | Jindo FUSE客户端getAttr操作P90分位延迟。 |
jindo_fuse_getattr_latency_99 | Gauge | Jindo FUSE客户端getAttr操作P99分位延迟。 |
jindo_fuse_getattr_latency_999 | Gauge | Jindo FUSE客户端getAttr操作千分之999分位延迟。 |
jindo_fuse_getattr_latency_9999 | Gauge | Jindo FUSE客户端getAttr操作万分之9999分位延迟。 |
jindo_fuse_readdir_count | Gauge | Jindo FUSE客户端readDir操作次数。 |
jindo_fuse_readdir_latency | Gauge | Jindo FUSE客户端readDir操作P50分位延迟。 |
jindo_fuse_readdir_latency_80 | Gauge | Jindo FUSE客户端readDir操作P80分位延迟。 |
jindo_fuse_readdir_latency_90 | Gauge | Jindo FUSE客户端readDir操作P90分位延迟。 |
jindo_fuse_readdir_latency_99 | Gauge | Jindo FUSE客户端readDir操作P99分位延迟。 |
jindo_fuse_readdir_latency_999 | Gauge | Jindo FUSE客户端readDir操作千分之999分位延迟。 |
jindo_fuse_readdir_latency_9999 | Gauge | Jindo FUSE客户端readDir操作万分之9999分位延迟。 |
jindo_fuse_read_count | Gauge | Jindo FUSE客户端read操作次数。 |
jindo_fuse_read_latency | Gauge | Jindo FUSE客户端read操作P50分位延迟。 |
jindo_fuse_read_latency_80 | Gauge | Jindo FUSE客户端read操作P80分位延迟。 |
jindo_fuse_read_latency_90 | Gauge | Jindo FUSE客户端read操作P90分位延迟。 |
jindo_fuse_read_latency_99 | Gauge | Jindo FUSE客户端read操作P99分位延迟。 |
jindo_fuse_read_latency_999 | Gauge | Jindo FUSE客户端read操作千分之999分位延迟。 |
jindo_fuse_read_latency_9999 | Gauge | Jindo FUSE客户端read操作万分之9999分位延迟。 |
jindo_fuse_write_count | Gauge | Jindo FUSE客户端write操作次数。 |
jindo_fuse_write_latency | Gauge | Jindo FUSE客户端write操作P50分位延迟。 |
jindo_fuse_write_latency_80 | Gauge | Jindo FUSE客户端write操作P80分位延迟。 |
jindo_fuse_write_latency_90 | Gauge | Jindo FUSE客户端write操作P90分位延迟。 |
jindo_fuse_write_latency_99 | Gauge | Jindo FUSE客户端write操作P99分位延迟。 |
jindo_fuse_write_latency_999 | Gauge | Jindo FUSE客户端write操作千分之999分位延迟。 |
jindo_fuse_write_latency_9999 | Gauge | Jindo FUSE客户端write操作万分之9999分位延迟。 |
相关文档
关于Fluid更多信息,请参见数据加速Fluid概述。
关于Fluid监控面板参数说明,请参见Fluid监控大盘参数说明。