全部產品
Search
文件中心

Application Real-Time Monitoring Service:指標說明

更新時間:Jul 23, 2024

可觀測監控 Prometheus 版按照指標上報次數收費。指標分為兩種類型:基礎指標和自訂指標,非基礎指標的即是自訂指標。其中,基礎指標不收費,自訂指標於2020年01月06日開始收費。

容器叢集

可觀測監控 Prometheus 版支援的容器叢集基礎指標如下所示。

Prometheus狀態資訊的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標說明

_arms-prom/kubelet/1

基礎指標

promhttp_metric_handler_requests_in_flight

-

go_memstats_mallocs_total

是一個計數器值,用於顯示有多少堆對象進行分配了。可以使用rate()函數來計算堆對象分配速率。

go_memstats_lookups_total

是一個計數器值,用於計算有多少指標解引用。可以使用rate()函數來計算指標解引用速率。

go_memstats_last_gc_time_seconds

上一次GC完成時的時間戳記。

go_memstats_heap_sys_bytes

該指標顯示從作業系統中為堆分配的記憶體位元組數。它包括已保留但尚未使用的虛擬位址空間

go_memstats_heap_released_bytes

顯示有多少空閑Span已歸還作業系統。

go_memstats_heap_objects

顯示有多少對象是堆上在分配的,會隨著GC和新對象的分配而改變。

go_memstats_heap_inuse_bytes

顯示正在使用的Span佔用位元組數。

go_memstats_heap_idle_bytes

顯示空閑Span佔用的記憶體位元組數。

go_memstats_heap_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

go_memstats_gc_sys_bytes

顯示垃圾收集中繼資料佔用記憶體大小。

go_memstats_gc_cpu_fraction

顯示自程式啟動以來,GC所佔用CPU時間的比例。

go_memstats_frees_total

是一個計數器值,用於顯示有多個堆對象被釋放。可以使用rate()Function Compute堆對象釋放速率。同時可以通過go_memstats_mallocs_total -go_memstats_frees_total得到存活的堆對象數量。

go_memstats_buck_hash_sys_bytes

顯示用於Profiling的雜湊表佔用的記憶體大小。

go_memstats_alloc_bytes_total

該指標隨著對象在堆中分配而增加,但在釋放對象時並不會減少。類似Prometheus的計數器類型,對該指標可以使用rate()來擷取記憶體消耗速度。

go_memstats_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

scrape_duration_seconds

-

go_info

該指標提供了Go版本資訊。該指標資料來自runtime.Version()

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

scrape_samples_post_metric_relabeling

-

go_gc_duration_seconds_sum

-

go_gc_duration_seconds_count

-

blackbox_exporter_config_last_reload_successful

-

blackbox_exporter_config_last_reload_success_timestamp_seconds

-

scrape_samples_scraped

-

blackbox_exporter_build_info

-

arms_prometheus_target_scrapes_sample_out_of_order_total

-

arms_prometheus_target_scrapes_sample_out_of_bounds_total

-

arms_prometheus_target_scrapes_sample_duplicate_timestamp_total

-

scrape_series_added

-

arms_prometheus_target_scrapes_exceeded_sample_limit_total

-

arms_prometheus_target_scrapes_cache_flush_forced_total_arms-prom/kubelet/1

-

arms_prometheus_target_scrape_pools_total

-

statsd_metric_mapper_cache_gets_total

-

statsd_metric_mapper_cache_hits_total

-

statsd_metric_mapper_cache_length

-

arms_prometheus_target_scrape_pools_failed_total

-

up

-

arms_prometheus_target_scrape_pool_reloads_total

-

arms_prometheus_target_scrape_pool_reloads_failed_total

-

API Server任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

apiserver

基礎指標

apiserver_request_duration_seconds_bucket(預設廢棄)

apiserver_admission_controller_admission_duration_seconds_bucket

apiserver_request_total

rest_client_requests_total

apiserver_admission_webhook_admission_duration_seconds_bucket

apiserver_current_inflight_requests

up

apiserver_admission_webhook_admission_duration_seconds_count

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_series_added

scrape_duration_seconds

Ingress任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標說明

arms-ack-ingress

基礎指標

nginx_ingress_controller_request_duration_seconds_bucket

-

nginx_ingress_controller_response_duration_seconds_bucket(預設廢棄)

-

nginx_ingress_controller_response_size_bucket(預設廢棄)

-

nginx_ingress_controller_request_size_bucket

-

nginx_ingress_controller_bytes_sent_bucket

-

go_gc_duration_seconds

資料來自調用debug.ReadGCStats(),調用該函數時,會將傳入參數GCStats結構體的PauseQuantile欄位設定為5,這樣函數將會返回最小、25%、50%、75% 和最大這5個GC暫停時間百分位元。然後prometheus Go用戶端根據返回的GC暫停時間百分位元、以及NumGC和PauseTotal變數建立摘要類型指標。

nginx_ingress_controller_nginx_process_connections

-

nginx_ingress_controller_request_duration_seconds_sum

-

nginx_ingress_controller_request_duration_seconds_count(預設廢棄)

-

nginx_ingress_controller_bytes_sent_sum

-

nginx_ingress_controller_request_size_sum

-

nginx_ingress_controller_response_duration_seconds_count

-

nginx_ingress_controller_response_duration_seconds_sum(預設廢棄)

-

nginx_ingress_controller_response_size_count(預設廢棄)

-

nginx_ingress_controller_bytes_sent_count

-

nginx_ingress_controller_response_size_sum

-

nginx_ingress_controller_request_size_count

-

promhttp_metric_handler_requests_total

-

nginx_ingress_controller_nginx_process_connections_total

-

go_memstats_mcache_sys_bytes

顯示從作業系統分配的,用於mcache結構體的記憶體大小。

go_memstats_lookups_total

是一個計數器值,用於計算有多少指標解引用。可以使用rate()函數來計算指標解引用速率。

go_threads

通過runtime.CreateThreadProfile()調用擷取,讀取的是全域allm變數。

go_memstats_sys_bytes

該指標用于衡量Go從系統中總共擷取了多少位元組的記憶體。

go_memstats_last_gc_time_seconds

上一次GC完成時的時間戳記。

go_memstats_heap_sys_bytes

該指標顯示從作業系統中為堆分配的記憶體位元組數。它包括已保留但尚未使用的虛擬位址空間

go_memstats_heap_objects

顯示有多少對象是堆上在分配的,會隨著GC和新對象的分配而改變。

go_memstats_heap_inuse_bytes

顯示正在使用的Span佔用位元組數。

go_memstats_heap_idle_bytes

顯示空閑Span佔用的記憶體位元組數。

go_memstats_heap_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

go_memstats_gc_sys_bytes

顯示垃圾收集中繼資料佔用記憶體大小。

promhttp_metric_handler_requests_in_flight

-

go_memstats_stack_sys_bytes

顯示從作業系統中獲得多少位元組的棧記憶體。是go_memstats_stack_inuse_bytes 加上作業系統線程棧得到。

go_memstats_stack_inuse_bytes

顯示棧記憶體Span上已使用的記憶體大小,該Span上面至少分配了一個棧對象。

go_memstats_gc_cpu_fraction

顯示自程式啟動以來,GC所佔用CPU時間的比例。

go_memstats_frees_total

是一個計數器值,用於顯示有多個堆對象被釋放。可以使用rate()Function Compute堆對象釋放速率。同時可以通過go_memstats_mallocs_total - go_memstats_frees_total得到存活的堆對象數量。

go_memstats_buck_hash_sys_bytes

顯示用於Profiling的雜湊表佔用的記憶體大小。

go_memstats_alloc_bytes_total

該指標隨著對象在堆中分配而增加,但在釋放對象時並不會減少。類似Prometheus的計數器類型,對該指標可以使用rate()來擷取記憶體消耗速度。

go_memstats_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

nginx_ingress_controller_nginx_process_num_procs

-

go_info

該指標提供了Go版本資訊。該指標資料來自runtime.Version()

go_memstats_mallocs_total

是一個計數器值,用於顯示有多少堆對象進行分配了。可以使用rate()函數來計算堆對象分配速率。

go_memstats_other_sys_bytes

顯示用於其他運行時分配佔用記憶體大小。

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

scrape_samples_post_metric_relabeling

-

scrape_samples_scraped

-

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指虛擬記憶體集,是全部分配的記憶體,包括分配但未使用的記憶體、共用記憶體、換出的記憶體。

scrape_duration_seconds

-

go_memstats_heap_released_bytes

顯示有多少空閑Span已歸還作業系統。

go_gc_duration_seconds_sum

-

go_memstats_next_gc_bytes

顯示下個GC迴圈時候,堆佔用記憶體大小。GC的目標是保證go_memstats_heap_alloc_bytes小於此值。

go_gc_duration_seconds_count

-

nginx_ingress_controller_config_hash

-

nginx_ingress_controller_config_last_reload_successful

-

nginx_ingress_controller_config_last_reload_successful_timestamp_seconds

-

nginx_ingress_controller_ingress_upstream_latency_seconds_count

-

nginx_ingress_controller_ingress_upstream_latency_seconds_sum

-

process_start_time_seconds

使用到start_timestart_time描述了進程啟動時的時間,單位是jiffies,資料來自/proc/stat。最後將start_time除以USER_HZ得到以秒為單位的值。

nginx_ingress_controller_nginx_process_cpu_seconds_total

-

scrape_series_added

-

nginx_ingress_controller_nginx_process_oldest_start_time_seconds

-

nginx_ingress_controller_nginx_process_read_bytes_total

-

nginx_ingress_controller_nginx_process_requests_total

-

nginx_ingress_controller_nginx_process_resident_memory_bytes

-

nginx_ingress_controller_nginx_process_virtual_memory_bytes

-

nginx_ingress_controller_nginx_process_write_bytes_total

-

nginx_ingress_controller_requests

-

go_memstats_mcache_inuse_bytes

顯示mcache結構體使用的記憶體大小。

nginx_ingress_controller_success

-

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常駐記憶體集,是進程實際使用的記憶體,他不包括分配但未使用的記憶體,也不包括換出的記憶體頁面,但包含共用記憶體。

process_open_fds

通過計算/proc/PID/fd目錄下的檔案總數得來。顯示了Go進程當前開啟的常規檔案、通訊端、偽終端總數。

process_max_fds

讀取/proc/{PID}/limits 檔案中,Max Open Files所在行的值獲得,該值是軟式節流(Soft Limit),軟式節流是核心為相應資源強制執行的值,而硬限制(Hard Limit)充當軟式節流的上限。

process_cpu_seconds_total

該指標計算使用到utime(Go進程執行在使用者態模式下的滴答數)和stime(Go進程執行在核心態時候的滴答數,例如系統調用時),他們的單位jiffies,jiffy 描述了兩次系統定時器中斷之間的滴答時間。process_cpu_seconds_total等於utime和stime之和除以USER_HZ。即將程式滴答總數除以 Hz(每秒滴答數)得到就是作業系統運行該進程的總時間(以秒為單位)。

go_memstats_mspan_sys_bytes

顯示從作業系統中分配的,用於mspan結構體的記憶體大小。

up

-

go_memstats_mspan_inuse_bytes

顯示mspan結構體使用的記憶體大小。

nginx_ingress_controller_ssl_expire_time_seconds

-

nginx_ingress_controller_leader_election_status

-

CoreDNS任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標說明

arms-ack-coredns

基礎指標

coredns_forward_request_duration_seconds_bucket

-

coredns_dns_request_size_bytes_bucket

-

coredns_dns_response_size_bytes_bucket

-

coredns_kubernetes_dns_programming_duration_seconds_bucket

-

coredns_dns_request_duration_seconds_bucket

-

coredns_plugin_enabled

-

coredns_health_request_duration_seconds_bucket

-

go_gc_duration_seconds

資料來自調用debug.ReadGCStats(),調用該函數時,會將傳入參數GCStats結構體的PauseQuantile欄位設定為5,這樣函數將會返回最小、25%、50%、75% 和最大這5個GC暫停時間百分位元。然後prometheus Go用戶端根據返回的GC暫停時間百分位元、以及NumGC和PauseTotal變數建立摘要類型指標。

coredns_forward_responses_total

-

coredns_forward_request_duration_seconds_sum

-

coredns_forward_request_duration_seconds_count

-

coredns_dns_requests_total

-

coredns_forward_conn_cache_misses_total

-

coredns_dns_responses_total

-

coredns_cache_entries

-

coredns_cache_hits_total

-

coredns_forward_conn_cache_hits_total

-

coredns_forward_requests_total

-

coredns_dns_request_size_bytes_sum

-

coredns_dns_response_size_bytes_count

-

coredns_dns_response_size_bytes_sum

-

coredns_dns_request_size_bytes_count

-

scrape_duration_seconds

-

scrape_samples_scraped

-

scrape_series_added

-

up

-

scrape_samples_post_metric_relabeling

-

go_memstats_lookups_total

是一個計數器值,用於計算有多少指標解引用。可以使用rate()函數來計算指標解引用速率。

go_memstats_last_gc_time_seconds

上一次GC完成時的時間戳記。

go_memstats_heap_sys_bytes

該指標顯示從作業系統中為堆分配的記憶體位元組數。它包括已保留但尚未使用的虛擬位址空間

coredns_build_info

-

go_memstats_heap_released_bytes

顯示有多少空閑Span已歸還作業系統。

go_memstats_heap_objects

顯示有多少對象是堆上在分配的,會隨著GC和新對象的分配而改變。

go_memstats_heap_inuse_bytes

顯示正在使用的Span佔用位元組數。

go_memstats_heap_idle_bytes

顯示空閑Span佔用的記憶體位元組數。

go_memstats_heap_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

go_memstats_gc_sys_bytes

顯示垃圾收集中繼資料佔用記憶體大小。

go_memstats_sys_bytes

該指標用于衡量Go從系統中總共擷取了多少位元組的記憶體。

go_memstats_stack_sys_bytes

顯示從作業系統中獲得多少位元組的棧記憶體。是go_memstats_stack_inuse_bytes 加上作業系統線程棧得到。

go_memstats_mallocs_total

是一個計數器值,用於顯示有多少堆對象進行分配了。可以使用rate()函數來計算堆對象分配速率。

go_memstats_gc_cpu_fraction

顯示自程式啟動以來,GC所佔用CPU時間的比例。

go_memstats_stack_inuse_bytes

顯示棧記憶體Span上已使用的記憶體大小,該Span上面至少分配了一個棧對象。

go_memstats_frees_total

是一個計數器值,用於顯示有多個堆對象被釋放。可以使用rate()Function Compute堆對象釋放速率。同時可以通過go_memstats_mallocs_total - go_memstats_frees_total得到存活的堆對象數量。

go_memstats_buck_hash_sys_bytes

顯示用於Profiling的雜湊表佔用的記憶體大小。

go_memstats_alloc_bytes_total

該指標隨著對象在堆中分配而增加,但在釋放對象時並不會減少。類似Prometheus的計數器類型,對該指標可以使用rate()來擷取記憶體消耗速度。

go_memstats_alloc_bytes

該指標展示了在 上為對象分配了多少位元組的記憶體。該值與go_memstats_heap_alloc_bytes相同。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

coredns_cache_misses_total

-

go_memstats_other_sys_bytes

顯示用於其他運行時分配佔用記憶體大小。

go_memstats_mcache_inuse_bytes

顯示mcache結構體使用的記憶體大小。

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指虛擬記憶體集,是全部分配的記憶體,包括分配但未使用的記憶體、共用記憶體、換出的記憶體。

go_gc_duration_seconds_sum

-

go_gc_duration_seconds_countarms-ack-coredns

-

go_memstats_next_gc_bytes

顯示下個GC迴圈時候,堆佔用記憶體大小。GC的目標是保證go_memstats_heap_alloc_bytes小於此值。

coredns_dns_request_duration_seconds_count

-

coredns_reload_failed_total

-

coredns_panics_total

-

coredns_local_localhost_requests_total

-

coredns_kubernetes_dns_programming_duration_seconds_sum

-

coredns_kubernetes_dns_programming_duration_seconds_count

-

coredns_dns_request_duration_seconds_sum

-

coredns_hosts_reload_timestamp_seconds

-

oredns_health_request_failures_total

-

process_start_time_seconds

使用到start_timestart_time描述了進程啟動時的時間,單位是jiffies,資料來自/proc/stat。最後將start_time除以USER_HZ得到以秒為單位的值。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常駐記憶體集,是進程實際使用的記憶體,他不包括分配但未使用的記憶體,也不包括換出的記憶體頁面,但包含共用記憶體。

process_open_fds

通過計算/proc/PID/fd目錄下的檔案總數得來。顯示了Go進程當前開啟的常規檔案、通訊端、偽終端總數。

process_max_fds

讀取/proc/{PID}/limits 檔案中,Max Open Files所在行的值獲得,該值是軟式節流(Soft Limit),軟式節流是核心為相應資源強制執行的值,而硬限制(Hard Limit)充當軟式節流的上限。

process_cpu_seconds_total

該指標計算使用到utime(Go進程執行在使用者態模式下的滴答數)和stime(Go進程執行在核心態時候的滴答數,例如系統調用時),他們的單位jiffies,jiffy 描述了兩次系統定時器中斷之間的滴答時間。process_cpu_seconds_total等於utime和stime之和除以USER_HZ。即將程式滴答總數除以 Hz(每秒滴答數)得到就是作業系統運行該進程的總時間(以秒為單位)。

coredns_health_request_duration_seconds_sum

-

coredns_health_request_duration_seconds_count

-

go_memstats_mspan_sys_bytes

顯示從作業系統中分配的,用於mspan結構體的記憶體大小。

coredns_forward_max_concurrent_rejects_total

-

coredns_forward_healthcheck_broken_total

-

go_memstats_mcache_sys_bytes

顯示從作業系統分配的,用於mcache結構體的記憶體大小。

go_memstats_mspan_inuse_bytes

顯示mspan結構體使用的記憶體大小。

go_threads

通過runtime.CreateThreadProfile()調用擷取,讀取的是全域allm變數。

go_info

該指標提供了Go版本資訊。該指標資料來自runtime.Version()

採集自Kube-State-Metrics任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

_kube-state-metrics

基礎指標

kube_pod_container_status_waiting_reason

kube_pod_status_phase

kube_pod_container_status_last_terminated_reason

kube_pod_container_status_terminated_reason

kube_pod_status_ready

kube_node_status_condition

kube_pod_container_status_running

kube_pod_container_status_restarts_total

kube_pod_container_info

kube_pod_container_status_waiting

kube_pod_container_status_terminated

kube_pod_labels

kube_pod_owner

kube_pod_info

kube_pod_container_resource_limits

kube_persistentvolume_status_phase

kube_pod_container_resource_requests_memory_bytes

kube_pod_container_resource_requests_cpu_cores

kube_pod_container_resource_limits_memory_bytes

kube_node_status_capacity

kube_service_info

kube_pod_container_resource_limits_cpu_cores

kube_deployment_status_replicas_updated

kube_deployment_status_replicas_unavailable

kube_deployment_spec_replicas

kube_deployment_created

kube_deployment_metadata_generation

kube_deployment_status_replicas

kube_deployment_labels

kube_deployment_status_observed_generation

kube_deployment_status_replicas_available

kube_deployment_spec_strategy_rollingupdate_max_unavailable

kube_daemonset_status_desired_number_scheduled

kube_daemonset_updated_number_scheduled

kube_daemonset_status_number_ready

kube_daemonset_status_number_misscheduled

kube_daemonset_status_number_available

kube_daemonset_status_current_number_scheduled

kube_daemonset_created

kube_node_status_allocatable_cpu_cores

kube_node_status_capacity_memory_bytes

kube_node_spec_unschedulable

kube_node_status_allocatable_memory_bytes

kube_node_labels

kube_node_info

kube_namespace_labels

kube_node_status_capacity_cpu_cores

kube_node_status_capacity_pods

kube_node_status_allocatable_pods

kube_node_spec_taint

kube_statefulset_status_replicas

kube_statefulset_replicas

kube_statefulset_created

up

scrape_samples_scraped

scrape_duration_seconds

scrape_samples_post_metric_relabeling

scrape_series_added

Kubelet任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標含義

_arms/kubelet/metric

基礎指標

rest_client_request_duration_seconds_bucket

-

apiserver_client_certificate_expiration_seconds_bucket

-

kubelet_pod_worker_duration_seconds_bucket

-

kubelet_pleg_relist_duration_seconds_bucket

-

workqueue_queue_duration_seconds_bucket

-

rest_client_requests_total

-

go_gc_duration_seconds

資料來自調用debug.ReadGCStats(),調用該函數時,會將傳入參數GCStats結構體的PauseQuantile欄位設定為5,這樣函數將會返回最小、25%、50%、75% 和最大這5個GC暫停時間百分位元。然後prometheus Go用戶端根據返回的GC暫停時間百分位元、以及NumGC和PauseTotal變數建立摘要類型指標。

process_cpu_seconds_total

該指標計算使用到utime(Go進程執行在使用者態模式下的滴答數)和stime(Go進程執行在核心態時候的滴答數,例如系統調用時),他們的單位jiffies,jiffy 描述了兩次系統定時器中斷之間的滴答時間。process_cpu_seconds_total等於utime和stime之和除以USER_HZ。即將程式滴答總數除以 Hz(每秒滴答數)得到就是作業系統運行該進程的總時間(以秒為單位)。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常駐記憶體集,是進程實際使用的記憶體,他不包括分配但未使用的記憶體,也不包括換出的記憶體頁面,但包含共用記憶體。

kubernetes_build_info

-

kubelet_node_name

-

kubelet_certificate_manager_client_ttl_seconds

-

kubelet_certificate_manager_client_expiration_renew_errors

-

scrape_duration_seconds

-

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

crape_samples_post_metric_relabeling

-

scrape_samples_scraped

-

scrape_series_added

-

up

-

apiserver_client_certificate_expiration_seconds_count

-

workqueue_adds_total

-

workqueue_depth

-

Cadvisor任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

_arms/kubelet/cadvisor

基礎指標

container_memory_failures_total(預設廢棄)

container_memory_rss

container_spec_memory_limit_bytes

container_memory_failcnt

container_memory_cache

container_memory_swap

container_memory_usage_bytes

container_memory_max_usage_bytes

container_cpu_load_average_10s

container_fs_reads_total(預設廢棄)

container_fs_writes_total(預設廢棄)

container_network_transmit_errors_total

container_network_receive_bytes_total

container_network_transmit_packets_total

container_network_receive_errors_total

container_network_receive_bytes_total

container_network_receive_errors_total

container_network_transmit_errors_total

container_memory_working_set_bytes

container_cpu_usage_seconds_total

container_fs_reads_bytes_total

container_fs_writes_bytes_total

container_spec_cpu_quota

container_cpu_cfs_periods_total

container_cpu_cfs_throttled_periods_total

container_cpu_cfs_throttled_seconds_total

container_fs_inodes_free

container_fs_io_time_seconds_total

container_fs_io_time_weighted_seconds_total

container_fs_limit_bytes

container_tasks_state(預設廢棄)

container_fs_read_seconds_total(預設廢棄)

container_fs_write_seconds_total(預設廢棄)

container_fs_usage_bytes

container_fs_inodes_total

container_fs_io_current

scrape_duration_seconds

scrape_samples_scraped

machine_cpu_cores

machine_memory_bytes

scrape_samples_post_metric_relabeling

scrape_series_added

up

_arms-prom/kube-apiserver/cadvisor

基礎指標

scrape_duration_seconds

up

scrape_samples_scraped

scrape_samples_post_metric_relabeling

scrape_series_added

ACK Scheduler任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

ack-scheduler

基礎指標

rest_client_request_duration_seconds_bucket

scheduler_pod_scheduling_attempts_bucket

rest_client_requests_total

scheduler_pending_pods

scheduler_scheduler_cache_size

up

etcd任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

etcd

基礎指標

etcd_disk_backend_commit_duration_seconds_bucket

up

etcd_server_has_leader

etcd_debugging_mvcc_keys_total

etcd_debugging_mvcc_db_total_size_in_bytes

etcd_server_leader_changes_seen_total

Node任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標說明

node-exporter

基礎指標

node_filesystem_size_bytes

-

node_filesystem_readonly

-

node_filesystem_free_bytes

-

node_filesystem_avail_bytes

-

node_cpu_seconds_total

-

node_network_receive_bytes_total

-

node_network_receive_errs_total

-

node_network_transmit_bytes_total

-

node_network_receive_packets_total

-

node_network_transmit_drop_total

-

node_network_transmit_errs_total

-

node_network_up

-

node_network_transmit_packets_total

-

node_network_receive_drop_total

-

go_gc_duration_seconds

資料來自調用debug.ReadGCStats(),調用該函數時,會將傳入參數GCStats結構體的PauseQuantile欄位設定為5,這樣函數將會返回最小、25%、50%、75% 和最大這5個GC暫停時間百分位元。然後prometheus Go用戶端根據返回的GC暫停時間百分位元、以及NumGC和PauseTotal變數建立摘要類型指標。

node_load5

-

node_filefd_allocated

-

node_exporter_build_info

-

node_disk_written_bytes_total

-

node_disk_writes_completed_total

-

node_disk_write_time_seconds_total

-

node_nf_conntrack_entries

-

node_nf_conntrack_entries_limit

-

node_processes_max_processes

-

node_processes_pids

-

node_sockstat_TCP_alloc

-

node_sockstat_TCP_inuse

-

node_sockstat_TCP_tw

-

node_timex_offset_seconds

-

node_timex_sync_status

-

node_uname_info

-

node_vmstat_pgfault

-

node_vmstat_pgmajfault

-

node_vmstat_pgpgin

-

node_vmstat_pgpgout

-

node_disk_reads_completed_total

-

node_disk_read_time_seconds_total

-

process_cpu_seconds_total

該指標計算使用到utime(Go進程執行在使用者態模式下的滴答數)和stime(Go進程執行在核心態時候的滴答數,例如系統調用時),他們的單位jiffies,jiffy 描述了兩次系統定時器中斷之間的滴答時間。process_cpu_seconds_total等於utime和stime之和除以USER_HZ。即將程式滴答總數除以 Hz(每秒滴答數)得到就是作業系統運行該進程的總時間(以秒為單位)。

node_disk_read_bytes_total

-

node_disk_io_time_weighted_seconds_total

-

node_disk_io_time_seconds_total

-

node_disk_io_now

-

node_context_switches_total

-

node_boot_time_seconds

-

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常駐記憶體集,是進程實際使用的記憶體,他不包括分配但未使用的記憶體,也不包括換出的記憶體頁面,但包含共用記憶體。

node_intr_total

-

node_load1

-

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

scrape_duration_seconds

-

node_load15

-

scrape_samples_post_metric_relabeling

-

node_netstat_Tcp_PassiveOpens

-

scrape_samples_scraped

-

node_netstat_Tcp_CurrEstab

-

scrape_series_added

-

node_netstat_Tcp_ActiveOpens

-

node_memory_MemTotal_bytes

-

node_memory_MemFree_bytes

-

node_memory_MemAvailable_bytes

-

node_memory_Cached_bytes

-

up

-

node_memory_Buffers_bytes

-

GPU任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

指標說明

gpu-exporter

基礎指標

go_gc_duration_seconds

資料來自調用debug.ReadGCStats(),調用該函數時,會將傳入參數GCStats結構體的PauseQuantile欄位設定為5,這樣函數將會返回最小、25%、50%、75% 和最大這5個GC暫停時間百分位元。然後prometheus Go用戶端根據返回的GC暫停時間百分位元、以及NumGC和PauseTotal變數建立摘要類型指標。

promhttp_metric_handler_requests_total

-

scrape_series_added

-

up

-

scrape_duration_seconds

-

scrape_samples_scraped

-

scrape_samples_post_metric_relabeling

-

go_memstats_mcache_inuse_bytes

顯示mcache結構體使用的記憶體大小。

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指的虛擬記憶體集,是全部分配的記憶體,包括分配但未使用的記憶體、共用記憶體、換出的記憶體。

process_start_time_seconds

使用到start_timestart_time描述了進程啟動時的時間,單位是jiffies,資料來自/proc/stat。最後將start_time除以USER_HZ得到以秒為單位的值。

go_memstats_next_gc_bytes

顯示下個GC迴圈時候,堆佔用記憶體大小。GC的目標是保證go_memstats_heap_alloc_bytes小於此值。

go_memstats_heap_objects

顯示有多少對象是堆上在分配的,會隨著GC和新對象的分配而改變。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常駐記憶體集,是進程實際使用的記憶體,他不包括分配但未使用的記憶體,也不包括換出的記憶體頁面,但包含共用記憶體。

process_open_fds

通過計算/proc/PID/fd目錄下的檔案總數得來。顯示了Go進程當前開啟的常規檔案、通訊端、偽終端總數。

process_max_fds

讀取/proc/{PID}/limits 檔案中,Max Open Files所在行的值獲得,該值是軟式節流(Soft Limit),軟式節流是核心為相應資源強制執行的值,而硬限制(Hard Limit)充當軟式節流的上限。

go_memstats_other_sys_bytes

顯示用於其他運行時分配佔用記憶體大小。

go_gc_duration_seconds_count

-

go_memstats_heap_alloc_bytes

該指標展示了在堆上為對象分配了多少位元組的記憶體。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

process_cpu_seconds_total

該指標計算使用到utime(Go進程執行在使用者態模式下的滴答數)和stime(Go進程執行在核心態時候的滴答數,例如系統調用時),他們的單位jiffies,jiffy 描述了兩次系統定時器中斷之間的滴答時間。process_cpu_seconds_total等於utime和stime之和除以USER_HZ。即將程式滴答總數除以 Hz(每秒滴答數)得到就是作業系統運行該進程的總時間(以秒為單位)。

nvidia_gpu_temperature_celsius(預設廢棄)

-

go_memstats_stack_inuse_bytes

顯示棧記憶體Span上已使用的記憶體大小,該Span上面至少分配了一個棧對象。

nvidia_gpu_power_usage_milliwatts(預設廢棄)

-

nvidia_gpu_num_devices(預設廢棄)

-

nvidia_gpu_memory_used_bytes(預設廢棄)

-

nvidia_gpu_memory_total_bytes(預設廢棄)

-

go_memstats_stack_sys_bytes

顯示從作業系統中獲得多少位元組的棧記憶體。是go_memstats_stack_inuse_bytes 加上作業系統線程棧得到。

nvidia_gpu_memory_allocated_bytes(預設廢棄)

-

nvidia_gpu_duty_cycle(預設廢棄)

-

nvidia_gpu_allocated_num_devices(預設廢棄)

-

promhttp_metric_handler_requests_in_flight

-

go_memstats_sys_bytes

該指標用于衡量Go從系統中總共擷取了多少位元組的記憶體。

go_memstats_gc_sys_bytes

顯示垃圾收集中繼資料佔用記憶體大小。

go_memstats_gc_cpu_fraction

顯示自程式啟動以來,GC所佔用CPU時間的比例。

go_memstats_heap_released_bytes

顯示有多少空閑Span已歸還作業系統。

go_memstats_frees_total

是一個計數器值,用於顯示有多個堆對象被釋放。可以使用rate()Function Compute堆對象釋放速率。同時可以通過go_memstats_mallocs_total -go_memstats_frees_total得到存活的堆對象數量。

go_threads

通過runtime.CreateThreadProfile()調用擷取,讀取的是全域allm變數。

go_memstats_mspan_sys_bytes

顯示從作業系統中分配的,用於mspan結構體的記憶體大小。

go_memstats_buck_hash_sys_bytes

顯示用於Profiling的雜湊表佔用的記憶體大小。

go_memstats_alloc_bytes_total

該指標隨著對象在堆中分配而增加,但在釋放對象時並不會減少。類似Prometheus的計數器類型,對該指標可以使用rate()來擷取記憶體消耗速度。

go_memstats_heap_sys_bytes

該指標顯示從作業系統中為堆分配的記憶體位元組數。它包括已保留但尚未使用的虛擬位址空間

go_memstats_mspan_inuse_bytes

顯示mspan結構體使用的記憶體大小。

go_memstats_alloc_bytes

該指標展示了在 上為對象分配了多少位元組的記憶體。該值與go_memstats_heap_alloc_bytes相同。該指標包括所有可達(reachable)堆對象和不可達(unreachable)對象(GC尚未釋放的)佔用的記憶體大小。

go_info

該指標提供了Go版本資訊。該指標資料來自runtime.Version()

go_memstats_last_gc_time_seconds

上一次GC完成時的時間戳記。

go_memstats_heap_inuse_bytes

顯示正在使用的Span佔用位元組數。

go_memstats_mcache_sys_bytes

顯示從作業系統分配的,用於mcache結構體的記憶體大小。

go_memstats_lookups_total

是一個計數器值,用於計算有多少指標解引用。可以使用rate()函數來計算指標解引用速率。

go_memstats_mallocs_total

是一個計數器值,用於顯示有多少堆對象進行分配了。可以使用rate()函數來計算堆對象分配速率。

go_gc_duration_seconds_sum

-

go_goroutines

通過runtime.NumGoroutine()調用擷取,基於調度器結構sched和全域allglen變數計算得來。由於sched結構體的所有欄位可能並發的更改,因此最後會檢查計算的值是否小於1,如果小於1,那麼返回1。

go_memstats_heap_idle_bytes

顯示空閑Span佔用的記憶體位元組數。

PV任務類型(Job)的任務名稱和基礎指標

任務名稱(Job Name)

指標類型

指標名稱

k8s-csi-cluster-pv

基礎指標

cluster_pvc_detail_num_total

cluster_pv_detail_num_total

cluster_pv_status_num_total

cluster_scrape_collector_success

cluster_scrape_collector_duration_seconds

alibaba_cloud_storage_operator_build_info

cluster_pvc_status_num_total

scrape_duration_seconds

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_series_added

up

k8s-csi-node-pv

基礎指標

cluster_scrape_collector_duration_seconds

cluster_scrape_collector_success

alibaba_cloud_csi_driver_build_info

up

scrape_series_added

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_duration_seconds

企業CloudMonitor

Prometheus執行個體 for 企業CloudMonitor支援的指標如下表所示。

指標分類

指標類型

指標名稱

指標說明

ECS

自訂指標

cpu_util_lization

(ECS)CPU使用率

internet_in_rate

(ECS)公網流入流量平均速率

internet_out_rate

(ECS)公網流出流量平均速率

disk_read_bps

(ECS)所有磁碟讀取BPS

disk_write_bps

(ECS)所有磁碟每秒讀取次數

vpc_public_ip_internet_in_Rate

(ECS)IP維度公網流入平均速率

vpc_public_ip_internet_out_Rate

(ECS)IP維度公網流出平均速率

cpu_total

(Agent)cpu.total

memory_totalspace

(Agent)memory.total.space

memory_usedutilization

(Agent)memory.used.utilization

diskusage_utilization

(Agent)disk.usage.utilization_device

RDS

自訂指標

cpu_usage_average

CPU使用率

disk_usage

磁碟使用率

iops_usage

IOPS使用率

connection_usage

串連數使用率

data_delay

唯讀執行個體延遲

memory_usage

記憶體使用量率

mysql_network_in_new

MySQL網路流入頻寬

mysql_network_out_new

MySQL網路流出頻寬

mysql_active_sessions

MySQL_ActiveSessions

sqlserver_network_in_new

SQLServer網路流入頻寬

sqlserver_network_out_new

SQLServer網路流出頻寬

NAT

自訂指標

snat_connection

SNAT串連數

snat_connection_drop_limit

歷史累積最大限制丟棄串連數

snat_connection_drop_rate_limit

歷史累積建立限制丟棄串連數

net_rx_rate

流入頻寬

net_tx_rate

流出頻寬

net_rx_pkgs

流入包速率

net_tx_pkgs

流出包速率

RocketMQ

自訂指標

consumer_lag_gid

訊息堆積

receive_message_count_gid

Consumer(GroupId) 每分鐘接收訊息數量

send_message_count_gid

Producer(GroupId) 每分鐘發送訊息的數量

consumer_lag_topic

訊息堆積(GroupID&Topic)

receive_message_count_topic

Consumer(GroupId&Topic) 每分鐘接收訊息數量

send_message_count_topic

Producer(GroupId&Topic) 每分鐘發送訊息數量

receive_message_count

每分鐘接收訊息數量

send_message_count

每分鐘發送訊息數量

SLB

自訂指標

healthy_server_count

後端健康ECS執行個體個數

unhealthy_server_count

後端異常ECS執行個體個數

packet_tx

每秒流入資料包數

packet_rx

每秒流出資料包數

traffic_rx_new

流入頻寬

traffic_tx_new

流出頻寬

active_connection

TCP活躍串連數

inactive_connection

連接埠非活躍串連數

new_connection

TCP建立串連數

max_connection

連接埠並發串連數

instance_active_connection

執行個體活躍串連數

instance_new_connection

執行個體每秒建立串連數

instance_max_connection

執行個體每秒最大並發串連數

instance_drop_connection

執行個體每秒丟失串連數

instance_traffic_rx

執行個體每秒入bit數

instance_traffic_tx

執行個體每秒出bit數

E-MapReduce(EMR)

自訂指標

active_applications

active狀態的作業個數

active_users

active的使用者數

aggregate_containers_allocated

總共分配的container個數

aggregate_containers_released

總共釋放的container個數

allocated_containers

分配的container個數

apps_completed

已完成的作業數

apps_failed

失敗的作業數

apps_killed

被殺死的作業數

apps_pending

等待的作業數

apps_running

運行中的作業數

apps_submitted

提交的作業數

available_mb

當前隊列當前可用的記憶體大小

available_vcores

當前隊列可用的VCore個數

pending_containers

等待的container個數

reserved_containers

預留的container個數

EIP

自訂指標

net_rx_rate

流入頻寬

net_tx_rate

流出頻寬

net_rx_pkgs_rate

流入包速率

net_tx_pkgs_rate

流出包速率

out_ratelimit_drop_speed

限速丟包速率

OSS

自訂指標

availability

可用性

request_valid_rate

有效請求率

success_rate

成功請求佔比

network_error_rate

網路錯誤請求佔比

total_request_count

總請求數

valid_count

有效請求數

internet_send

公網流出流量

internet_recv

公網流入流量

intranet_send

內網流出流量

intranet_recv

內網流入流量

success_count

成功請求總數

network_error_count

網路錯誤請求總數

client_timeout_count

用戶端逾時錯誤請求總數

Elasticsearch(ES)

自訂指標

node_cpu_utilization

Elasticsearch執行個體節點CPU使用率

node_heap_memory_utilization

Elasticsearch執行個體節點HeapMemory使用率

node_stats_exception_log_count

Exception次數

node_stats_full_gc_collection_count

FullGc次數

node_disk_utilization

Elasticsearch執行個體節點磁碟使用率

node_load_1m

節點Load_1m

cluster_query_qps

叢集查詢QPS

cluster_index_qps

ClusterIndexQPS

Logstash

自訂指標

cpu_percent

Logstash執行個體節點CPU使用率

node_heap_memory

節點記憶體使用量量

node_disk_usage

Logstash執行個體節點磁碟使用率

DRDS

自訂指標

cpu_utilization

CPU使用率

connection_count

串連數

logic_qps

邏輯QPS

logic_rt

邏輯RT

memory_utilization

記憶體利用率

network_input_traffic

網路輸入頻寬

network_output_traffic

網路輸出頻寬

physics_qps

物理QPS

physics_rt

物理RT

thread_count

活躍線程數

com_insert_select

私人RDS_MySQL每秒InsertSelect量

com_replace

私人RDS_MySQL每秒Replace量

com_replace_select

私人RDS_MySQL每秒ReplaceSelect量

com_select

私人RDS_MySQL每秒Select量

com_update

私人RDS_MySQL每秒Update量

conn_usage

私人RDS_MySQL串連數利用率

cpu_usage

私人RDS_MySQL CPU使用率

disk_usage

私人RDS_MySQL磁碟使用率

ibuf_dirty_ratio

私人RDS_MySQL_BP髒頁百分率

ibuf_pool_reads

私人RDS_MySQL每秒物理讀次數

ibuf_read_hit

私人RDS_MySQL_BP讀命中率

ibuf_request_r

私人RDS_MySQL每秒邏輯讀次數

ibuf_request_w

私人RDS_MySQL每秒邏輯寫次數

ibuf_use_ratio

私人RDS_MySQL_BP利用率

inno_data_read

私人RDS_MySQL_InnoDB每秒讀取資料量

inno_data_written

私人RDS_MySQL_InnoDB每秒寫入資料量

inno_row_delete

私人RDS_MySQL_InnoDB每秒刪除行數

inno_row_insert

私人RDS_MySQL_InnoDB每秒插入行數

inno_row_readed

私人RDS_MySQL_InnoDB每秒讀取行數

inno_row_update

私人RDS_MySQL_InnoDB每秒更新行數

innodb_log_write_requests

私人RDS_MySQL_InnoDB每秒日誌寫請求次數

innodb_log_writes

私人RDS_MySQL_InnoDB每秒日誌物理寫次數

innodb_os_log_fsyncs

私人RDS_MySQL_InnoDB每秒日誌fsync量

input_traffic_ps

私人RDS_MySQL網路流入頻寬

iops_usage

私人RDS_MySQL IOPS利用率

mem_usage

私人RDS_MySQL記憶體利用率

output_traffic_ps

私人RDS_MySQL網路流出頻寬

qps

私人RDS_MySQL每秒查詢量

slave_lag

私人RDS_MySQL唯讀執行個體延遲

slow_queries

私人RDS_MySQL每秒慢查詢量

tb_tmp_disk

私人RDS_MySQL每秒建立暫存資料表數量

Kafka

自訂指標

instance_disk_capacity

執行個體磁碟使用率

instance_message_input

執行個體訊息生產量

instance_message_output

執行個體訊息消費量

topic_message_input

Topic訊息生產量

topic_message_output

Topic訊息消費量

MongoDB

自訂指標

cpu_utilization

CPU使用率

memory_utilization

記憶體使用量百分比

disk_utilization

磁碟使用率

iops_utilization

IOPS使用率

qps

每秒請求數

connect_amount

串連數使用量

instance_disk_amount

執行個體佔用磁碟空間量

data_disk_amount

資料佔用磁碟空間量

log_disk_amount

日誌佔用磁碟空間量

intranet_in

內網網路入流量

intranet_out

內網網路出流量

number_requests

請求數

op_insert

Insert操作次數

op_query

Query操作次數

op_update

Update操作次數

op_delete

Delete操作次數

op_getmore

Getmore操作次數

op_command

Command操作次數

PolarDB

自訂指標

active_connections

活躍串連數

blks_read_delta

資料區塊讀取數

cluster_active_sessions

活躍串連數

cluster_connection_utilization

串連數使用率

cluster_cpu_utilization

CPU使用率

cluster_data_io

每秒儲存引擎IO輸送量

cluster_data_iops

每秒儲存引擎IO次數

cluster_mem_hit_ratio

記憶體命中率

cluster_memory_utilization

記憶體使用量率

cluster_qps

每秒查詢數量

cluster_slow_queries_ps

每秒慢查詢數量

cluster_tps

每秒事務數

conn_usage

串連使用率

cpu_total

CPU使用率

db_age

資料庫最大年齡

instance_connection_utilization

執行個體串連數使用率

instance_cpu_utilization

執行個體CPU使用率

instance_input_bandwidth

執行個體輸入頻寬

instance_memory_utilization

執行個體記憶體使用量率

instance_output_bandwidth

執行個體輸出頻寬

mem_usage

記憶體利用率

pls_data_size

pg資料盤大小

pls_iops

pg IOPS

pls_iops_read

pg讀IOPS

pls_iops_write

pg寫IOPS

pls_pg_wal_dir_size

pg WAL日誌大小

pls_throughput

pg IO吞吐

pls_throughput_read

pg讀IO吞吐

pls_throughput_write

pg寫IO吞吐

swell_time

pg膨脹點

tps

pg TPS

cluster_iops

每秒IO次數

Redis

自訂指標

intranet_in_ratio

寫入頻寬使用率

intranet_out_ratio

讀取頻寬使用率

failed_count

操作失敗數

cpu_usage

CPU使用率

used_memory

記憶體使用量量

used_connection

已用串連數

used_qps

已用QPS數量

雲端服務自監控

Prometheus for 雲端服務自監控支援的指標如下表所示。

訊息佇列RocketMQ

指標分類

指標類型

指標名稱

指標說明

生產者

自訂指標

rocketmq_producer_requests

發送相關API調用次數

rocketmq_producer_messages

發送訊息量

rocketmq_producer_message_size_bytes

發送訊息的總大小

rocketmq_producer_send_success_rate

發送訊息成功率

rocketmq_producer_failure_api_calls

發送API調用失敗次數

rocketmq_producer_send_rt_milliseconds_avg

發送訊息耗時平均值

rocketmq_producer_send_rt_milliseconds_min

發送訊息耗時最小值

rocketmq_producer_send_rt_milliseconds_max

發送訊息耗時最大值

rocketmq_producer_send_rt_milliseconds_p95

發送訊息耗時P95值

rocketmq_producer_send_rt_milliseconds_p99

發送訊息耗時P99值

消費者

自訂指標

rocketmq_consumer_requests

消費訊息相關API調用次數

rocketmq_consumer_send_back_requests

消費者消費失敗回傳介面調用次數

rocketmq_consumer_send_back_messages

消費者消費失敗回傳的訊息

rocketmq_consumer_messages

消費訊息量

rocketmq_consumer_message_size_bytes

消費訊息量大小(一分鐘累積量)

rocketmq_consumer_ready_and_inflight_messages

訊息消費滯後量(包括已就緒訊息量和處理中訊息量)

rocketmq_consumer_ready_messages

已就緒訊息量

rocketmq_consumer_inflight_messages

處理中訊息量

rocketmq_consumer_queue_time_milliseconds

訊息排隊時間

rocketmq_consumer_message_await_time_milliseconds_avg

訊息在消費者用戶端等待處理資源耗時平均值

rocketmq_consumer_message_await_time_milliseconds_min

訊息在消費者用戶端等待處理資源耗時最小值

rocketmq_consumer_message_await_time_milliseconds_max

訊息在消費者用戶端等待處理資源耗時最大值

rocketmq_consumer_message_await_time_milliseconds_p95

訊息在消費者用戶端等待處理資源耗時P95值

rocketmq_consumer_message_await_time_milliseconds_p99

訊息在消費者用戶端等待處理資源耗時P99值

rocketmq_consumer_message_process_time_milliseconds_avg

消費者處理訊息耗時平均值

rocketmq_consumer_message_process_time_milliseconds_min

消費者處理訊息耗時最小值

rocketmq_consumer_message_process_time_milliseconds_max

消費者處理訊息耗時最大值

rocketmq_consumer_message_process_time_milliseconds_p95

消費者處理訊息耗時P95值

rocketmq_consumer_message_process_time_milliseconds_p99

消費者處理訊息耗時P99值

rocketmq_consumer_consume_success_rate

消費訊息成功率

rocketmq_consumer_failure_api_calls

消費API調用失敗次數

rocketmq_consumer_to_dlq_messages

進死信訊息量

Overview

自訂指標

rabbitmq_instance_api_total

執行個體層級API調用次數,秒層級

rabbitmq_connections_opened_total

已開啟的串連總數

rabbitmq_connections_closed_total

已關閉的串連總數

rabbitmq_channels_opened_total

開啟的通道總數

rabbitmq_channels_closed_total

關閉的通道總數

rabbitmq_queues_declared_total

聲明的隊列總數

rabbitmq_queues_deleted_total

刪除的隊列總數

rabbitmq_exchange_declared_total

-

rabbitmq_exchange_deleted_total

-

rabbitmq_exchange_bind_total

-

rabbitmq_exchange_unbind_total

-

rabbitmq_queue_bind_total

-

rabbitmq_queue_unbind_total

-

rabbitmq_connections

當前開啟的串連

rabbitmq_channels

目前開放的渠道

Connections

自訂指標

rabbitmq_connection_channels

串連上的通道

Exchange

自訂指標

rabbitmq_exchange_messages_published_in_total

流入訊息量

rabbitmq_exchange_messages_published_out_total

流出訊息量

Queues

自訂指標

rabbitmq_queue_messages_published_total

發布到隊列的訊息總數

rabbitmq_queue_messages_ready

準備好交付給消費者的訊息量

rabbitmq_queue_messages_unacked

定時中的訊息量

rabbitmq_queue_deliver_total

已傳遞給消費者但尚未確認的訊息總數

rabbitmq_queue_get_total

-

rabbitmq_queue_ack_total

-

rabbitmq_queue_uack_total

-

rabbitmq_queue_recover_total

-

rabbitmq_queue_reject_total

-

rabbitmq_queue_consumers

隊列中的消費者

MongoDB

指標類型

指標名稱

指標說明

自訂指標

avg_rt

執行個體平均回應時間

bytes_in

執行個體的網路進口流量

bytes_out

執行個體的網路出口流量

bytes_read_into_cache

WiredTiger,顯示讀入Cache的資料量大小

bytes_written_from_cache

WiredTiger,顯示從Cache寫的磁碟大小

command

協議命令操作QPS數

conn_usage

串連數使用率,顯示執行個體當前串連數與最大串連數的比值

connections_active

執行個體當前活躍串連數

cpu_usage

執行個體的CPU使用率

current_conn

執行個體當前串連總數

data_iops

資料盤的IOPS使用量

data_size

執行個體資料磁碟使用空間

delete

刪除操作QPS數

disk_usage

磁碟使用率,顯示執行個體總使用空間與最大可使用空間的比值

document_deleted_ps

執行個體刪除的文檔數量

document_inserted_ps

執行個體插入的文檔數量

document_returned_ps

執行個體返回的文檔數量

document_updated_ps

執行個體更新的文檔數量。

getmore

讀取操作QPS數

gl_ac_readers

執行個體當前使用全域讀鎖數量

gl_ac_writers

執行個體當前使用全域寫鎖數量

gl_cq_readers

全域讀鎖的等待隊列長度

gl_cq_total

所有全域鎖的等待隊列長度

gl_cq_writers

全域寫鎖的等待隊列長度

ins_size

執行個體磁碟總使用空間

insert

插入操作QPS數

iocheck_cost

IO延遲,當前IO的響應效能

iops_usage

IOPS使用率

job_cursors_closed

Cursors,顯示因關閉會話關閉的Cursor數量

log_iops

日誌盤的IOPS使用量

log_size

執行個體日誌磁碟使用空間

maximum_bytes_configured

WiredTiger,顯示配置最大可用的磁碟大小

mem_usage

記憶體使用量率

moveChunk_donor_started_ps

moveChunk,當前節點作為moveChunk源的次數

moveChunk_recip_stared_ps

moveChunk,當前節點作為moveChunk目標的次數

noTimeout_open

Cursors,顯示當前無逾時時間的Cursor開啟數量

operation_exactIDCount_ps

操作詳情,顯示需要通過廣播方式擷取匹配_id的資訊請求數

operation_scanAndOrder_ps

操作詳情,顯示無法使用索引進行Sort的請求數

operation_writeConflicts_ps

操作詳情,顯示發生寫衝突的次數

pinned_open

Cursors,顯示當前有逾時時間的Cursor開啟數量

query

查詢操作QPS數

queryExecutor_scannedObject_ps

查詢掃描索引與文檔數量,顯示查詢掃描文檔的數量

queryExecutor_scanned_ps

查詢掃描索引與文檔數量,顯示查詢掃描索引的數量

read_concurrent_trans_available

WiredTiger請求隊列,顯示可用的讀並發請求數

read_concurrent_trans_out

WiredTiger請求隊列,顯示讀並發請求數

repl_lag

主備延遲,顯示執行個體主備節點的資料同步延時資訊

timed_out

Cursors,顯示因逾時關閉的Cursor數量

total_open

Cursors,顯示當前Cursor開啟數量

ttl_deletedDocuments_ps

TTL,顯示因TTL索引而刪除的文檔數量

ttl_passes_ps

TTL,顯示後台TTL線程進行刪除的次數

update

更新操作QPS數

write_concurrent_trans_available

WiredTiger請求隊列,顯示可用的寫並發數

write_concurrent_trans_out

WiredTiger請求隊列,顯示寫並發請求數

wt_cache_dirty_usage

WiredTigerCache使用率,顯示執行個體WiredTiger引擎髒Cache使用率

wt_cache_usage

WiredTigerCache使用率,顯示執行個體WiredTiger引擎髒Cache使用率

Flink

Flink指標

指標

含義

詳情

單位

指標類型

flink_jobmanager_job_numRestarts

作業錯誤恢複次數

作業出錯重啟次數,不包含JM Failover次數。

次數

自訂指標

flink_taskmanager_job_task_operator_currentEmitEventTimeLag

業務延時

延時較大時,表示作業可能在拉取資料或者處理資料時存在延時。

毫秒(ms)

自訂指標

flink_taskmanager_job_task_operator_currentFetchEventTimeLag

傳輸延時

延時較大時,表示作業可能在拉取資料時存在延時。

毫秒(ms)

自訂指標

flink_taskmanager_job_task_numRecordsIn

所有Operator輸入的記錄總數

如果某個運算元的numRecordsIn值長時間未增長,可能是由於上遊吞掉了資料,因此未成功傳遞資料。此時,您需要查看上遊資料。

自訂指標

flink_taskmanager_job_task_numRecordsOut

輸出記錄總數

如果某個運算元的numRecordsOut的值長時間未增長,可能是由於作業代碼邏輯錯誤,導致資料被吞掉,因此未成功傳遞資料。此時,您需要查看作業代碼邏輯。

自訂指標

flink_taskmanager_job_task_operator_numBytesIn

輸入位元組總數

查看上遊吞吐的輸入情況,協助您觀察作業流量表現。

Byte

自訂指標

flink_taskmanager_job_task_operator_numBytesOut

輸出位元組總數

查看上遊吞吐的輸出情況,協助您觀察作業流量表現。

Byte

自訂指標

flink_taskmanager_job_task_operator_numRecordsIn

所有Operator輸入的記錄總數

如果某個運算元的numRecordsIn值長時間未增長,可能是由於上遊吞掉了資料,因此未成功傳遞資料。此時,您需要查看上遊資料。

自訂指標

flink_taskmanager_job_task_operator_numRecordsInPerSecond

整個資料流每秒輸入的記錄數

適用於需要監控整個資料流的處理速度的情境。

例如,您可以使用numRecordsInPerSecond觀察整個資料流的處理速度是否達到了預期水平,以及在不同的輸入資料負載下效能的變化情況。

條/秒

自訂指標

flink_taskmanager_job_task_operator_numRecordsOut

輸出記錄總數

如果某個運算元的numRecordsOut的值長時間未增長,可能是由於作業代碼邏輯錯誤,導致資料被吞掉,因此未成功傳遞資料。此時,您需要查看作業代碼邏輯。

自訂指標

flink_taskmanager_job_task_operator_numRecordsOutPerSecond

整個資料流每秒輸出的記錄數

適用於需要監控整個資料流輸出速度的情境,可以測量整個資料流每秒輸出的記錄數。

例如,您可以使用numRecordsOutPerSecond觀察整個資料流的輸出速度是否達到了預期水平,以及在不同的輸出資料負載下效能的變化情況。

條/秒

自訂指標

flink_taskmanager_job_task_operator_source_numRecordsIn

僅Source Operator的輸入記錄

查看上遊資料輸入情況。

自訂指標

flink_taskmanager_job_task_operator_sink_numRecordsOut

Sink端輸出記錄總數

查看上遊資料輸出情況。

自訂指標

flink_taskmanager_job_task_numRecordsInPerSecond

整個資料流每秒輸入的記錄數

適用於需要監控整個資料流的處理速度的情境。

例如,您可以使用numRecordsInPerSecond觀察整個資料流的處理速度是否達到了預期水平,以及在不同的輸入資料負載下效能的變化情況。

條/秒

自訂指標

flink_taskmanager_job_task_numRecordsOutPerSecond

整個資料流每秒輸出的記錄數

適用於需要監控整個資料流輸出速度的情境,可以測量整個資料流每秒輸出的記錄數。

例如,您可以使用numRecordsOutPerSecond觀察整個資料流的輸出速度是否達到了預期水平,以及在不同的輸出資料負載下效能的變化情況。

條/秒

自訂指標

flink_taskmanager_job_task_operator_source_numRecordsInPerSecond

資料來源Source端每秒輸入的記錄數

適用於需要瞭解每個資料來源的產生速度的情境,可以測量每個資料來源每秒產生的記錄數。

例如,在一個資料流中,不同的資料來源可能會產生不同數量的記錄,使用numRecordsInOfSourcePerSecond可以協助您瞭解每個資料來源的產生速度,並對資料流進行調整以達到更好的效能。

同時,該資料用於監控警示。如果該值為0,可能是由於上遊吞掉了資料。您需要查看是否由於上遊資料一直未被消費,因此導致輸出阻塞問題。

條/秒

自訂指標

flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond

資料目的Sink端每秒輸出的記錄數

適用於需要瞭解每個Sink的輸出速度的情境,可以測量每個Sink端每秒輸出的記錄數。

例如,在一個資料流中,不同的Sink可能會輸出不同數量的記錄。使用numRecordsOutOfSinkPerSecond可以協助您瞭解每個Sink的輸出速度,並對資料流進行調整以達到更好的效能。

同時,該資料用於監控警示。如果該值為0,可能是作業代碼邏輯錯誤,導致全部資料被過濾了。此時,您需要查看作業代碼邏輯。

條/秒

自訂指標

flink_taskmanager_job_task_numBuffersInLocalPerSecond

每秒內本地消耗的資料緩衝區(buffer)數量

如果該指標值很高,表示任務之間的本地通訊(即在相同節點上的通訊)很頻繁。

條/秒

自訂指標

flink_taskmanager_job_task_numBuffersInRemotePerSecond

每秒內從遠程工作管理員接收到的緩衝區的數量

該指標反映了跨TaskManager通訊的頻率。

條/秒

自訂指標

flink_taskmanager_job_task_numBuffersOutPerSecond

每秒向其他任務發送的緩衝區的數量

該指標可以協助您瞭解任務的輸出壓力以及網路頻寬的使用方式。

條/秒

自訂指標

flink_taskmanager_job_task_numBytesInLocalPerSecond

每秒輸入位元組(Local)總數

查看上遊流速的輸入情況,協助您觀察作業流量表現。

Byte/秒

自訂指標

flink_taskmanager_job_task_operator_numBytesOutPerSecond

每秒輸出位元組總數

查看上遊吞吐輸出情況,協助您觀察作業流量表現。

Byte/秒

自訂指標

flink_taskmanager_job_task_operator_pendingRecords

源端未讀取資料的條數

外部系統中尚未被Source拉取的資料條數。

自訂指標

flink_taskmanager_job_task_operator_sourceIdleTime

源端未處理資料的時間

該指標反映Source是否有閑置。如果該指標值較大,表示資料在外部系統中的產生速率較低。

毫秒(ms)

自訂指標

flink_taskmanager_job_task_operator_numBytesInPerSecond

每秒輸入位元組總數

Byte/秒

自訂指標

flink_taskmanager_job_task_numBytesOutPerSecond

每秒輸出位元組總數

Byte/秒

自訂指標

flink_taskmanager_job_task_operator_currentSendTime

發送最新一條記錄用時

毫秒 (ms)

自訂指標

flink_jobmanager_job_totalNumberOfCheckpoints

總Checkpoint數量

自訂指標

flink_jobmanager_job_numberOfFailedCheckpoints

失敗的Checkpoints數量

自訂指標

flink_jobmanager_job_numberOfCompletedCheckpoints

已完成的Checkpoints數量

自訂指標

flink_jobmanager_job_numberOfInProgressCheckpoints

進行中的Checkpoints數量

自訂指標

flink_jobmanager_job_lastCheckpointDuration

最近一個Checkpoint的期間

如果Checkpoint耗時過長或逾時,可能是由於狀態過大、臨機操作網路原因、Barrier未對齊或資料存在反壓。

毫秒(ms)

自訂指標

flink_jobmanager_job_lastCheckpointSize

最近一個Checkpoint的大小

最近一次實際上傳的Checkpoint大小,您可以在Checkpoint有瓶頸時協助分析Checkpoint效能。

Byte

自訂指標

flink_taskmanager_job_task_operator_state_name_stateClearLatency

單次狀態清理延遲最大值

查看清理State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_valueStateGetLatency

單次Value State訪問延遲的最大值

查看運算元訪問Value State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_valueStateUpdateLatency

單次Value State Update延遲的最大值

查看Value State Update效能。

納秒(ns

自訂指標

flink_taskmanager_job_task_operator_state_name_aggregatingStateGetLatency

單次Aggregating State訪問延遲的最大值

查看運算元訪問Aggregating State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_aggregatingStateAddLatency

單次Aggregating State Add延遲的最大值

查看Aggregating State Add效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_aggregatingStateMergeNamespacesLatency

單次Aggregating State Merge Namespace延遲的最大值

查看Aggregating State Merge Namespace效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_reducingStateGetLatency

單次Reducing State訪問延遲的最大值

查看運算元訪問Reducing State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_reducingStateAddLatency

單次Reducing State Add延遲的最大值

查看Reducing State Add效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_reducingStateMergeNamespacesLatency

單次Reducing State Merge Namespace延遲的最大值

查看Reducing State Merge Namespace的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateGetLatency

單次Map State訪問延遲的最大值

查看運算元訪問Map State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStatePutLatency

單次Map State Put延遲的最大值

查看Map State Put效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStatePutAllLatency

單次Map State Put All延遲的最大值

查看Map State Put All效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateRemoveLatency

單次Map State Remove延遲的最大值

查看Map State Remove效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateContainsLatency

單次Map State Contains延遲的最大值

查看Map State Contains效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateEntriesInitLatency

單次Map State EntriesInit延遲的最大值

查看Map State EntriesInit效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateKeysInitLatency

單次Map State KeysInit延遲的最大值

查看Map State KeysInit效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateValuesInitLatency

單次Map State ValuesInit延遲的最大值

查看Map State ValuesInit效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateIteratorInitLatency

單次Map State IteratorInit延遲的最大值

查看Map State IteratorInit效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateIsEmptyLatency

單次Map State Empty延遲的最大值

查看Map State Empty效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateIteratorHasNextLatency

單次Map State IteratorHasNext延遲的最大值

查看Map State IteratorHasNext效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateIteratorNextLatency

單次Map State IteratorNext延遲的最大值

查看Map State IteratorNext效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_mapStateIteratorRemoveLatency

單次Map State IteratorRemove延遲的最大值

查看Map State IteratorRemove效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_listStateGetLatency

單次List State訪問延遲的最大值

查看運算元訪問List State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_listStateAddLatency

單次List State Add延遲的最大值

查看List State Add效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_listStateAddAllLatency

單次List State Add All延遲的最大值

查看List State Add All效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_listStateUpdateLatency

單次List State Update延遲的最大值

查看List State Update效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_listStateMergeNamespacesLatency

單次List State Merge Namespace延遲的最大值

查看List State Merge Namespace效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_sortedMapStateFirstEntryLatency

單次Sorted Map State第一個條目訪問延遲的最大值

查看運算元訪問Sorted Map State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_state_name_sortedMapStateLastEntryLatency

單次Sorted Map State最後一個條目訪問延遲的最大值

查看運算元訪問Sorted Map State的效能。

納秒(ns)

自訂指標

flink_taskmanager_job_task_operator_geminiDB_total_size

狀態資料的大小

通過觀測該指標,您可以:

  • 直接或提前定位可能出現的State瓶頸的節點。

  • 判斷TTL是否生效。

Byte

自訂指標

flink_taskmanager_job_task_operator_geminiDB_total_filesize

狀態資料檔案的大小

通過觀測該指標,您可以:

  • 查看本地磁碟中State部分佔用的大小,在佔用較大時提前採取措施。

  • 判斷是否因狀態資料過大,導致本地磁碟空間不足。

Byte

自訂指標

flink_taskmanager_job_task_currentInputWatermark

每個Task最近收到一條浮水印的時間

TM收到資料的延時情況。

自訂指標

flink_taskmanager_job_task_operator_watermarkLag

Watermark延遲

Subtask層級的作業延遲情況。

毫秒(ms)

自訂指標

flink_jobmanager_Status_JVM_CPU_Load

單個JM CPU的負載

如果該值長期大於100%,表示CPU很繁忙,負載很高。這可能會影響系統效能,導致系統卡頓或回應時間過長等。

基礎指標

flink_jobmanager_Status_JVM_Memory_Heap_Used

JM的堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Memory_Heap_Committed

JM提交的堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Memory_Heap_Max

JM的最大堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Memory_NonHeap_Used

JM的非堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Memory_NonHeap_Committed

JM提交的非堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Memory_NonHeap_Max

JM的最大非堆記憶體

Byte

基礎指標

flink_jobmanager_Status_JVM_Threads_Count

JM線程數

JM線程數過多會導致佔用過大的記憶體空間,從而降低作業穩定性。

基礎指標

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count

JM GC次數

GC次數過多會導致佔用過大的記憶體空間,從而影響作業效能。該指標可以協助您進行作業診斷,排查作業層級的故障原因。

次數

基礎指標

flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count

JM 年輕代 GC次數(G1記憶體回收行程)

次數

自訂指標

flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count

JM 老年代 GC次數(G1記憶體回收行程)

次數

自訂指標

flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time

JM 年輕代 GC時間(G1記憶體回收行程)

毫秒(ms)

自訂指標

flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time

JM 老年代 GC時間(G1記憶體回收行程)

毫秒(ms)

自訂指標

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

JM CMS記憶體回收行程的回收次數

次數

基礎指標

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time

每次JM GC時間

長時間的GC會導致佔用過大的記憶體空間,從而影響作業的效能。該指標可以協助您進行作業診斷,排查作業層級的故障原因。

毫秒(ms)

基礎指標

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JM CMS記憶體回收行程的回收耗時

毫秒(ms)

基礎指標

flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded

JM所在的JVM在建立後,載入的類總數

JM所在的JVM建立後,載入類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。

基礎指標

flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded

JM所在的JVM在建立後,卸載的類總數

JM所在的JVM建立後,卸載類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。

基礎指標

flink_taskmanager_Status_JVM_CPU_Load

單個TM CPU的負載

指一段時間內CPU正在處理以及等待CPU處理的進程數之和,通常可以理解為CPU的繁忙程度。

CPU的繁忙程度和CPU核心數有關。Flink中的CPU Load值為CPU Usage/CPU核心數。flink_taskmanager_Status_JVM_CPU_Load大於CPU Load值時,說明CPU處理可能存在堵塞。

基礎指標

flink_jobmanager_Status_ProcessTree_CPU_Usage

單個JM CPU的CPU使用率

該指標值反映了Flink對CPU時間片的佔用情況。

  • 1 Core CPU用滿時,該值為100%。

  • 4 Core CPU用滿時,該值為400%。

如果該值長期大於100%,說明CPU非常繁忙。

如果負載很高,但CPU使用率較低,可能是由於頻繁的讀寫操作,導致不可中斷睡眠狀態的進程過多。

基礎指標

flink_taskmanager_Status_ProcessTree_CPU_Usage

單個TM CPU的CPU使用率

該指標值反映了Flink對CPU時間片的佔用情況。

  • 1 Core CPU用滿時,該值為100%。

  • 4 Core CPU用滿時,該值為400%。

如果該值長期大於100%,說明CPU非常繁忙。

如果負載很高,但CPU使用率較低,可能是由於頻繁的讀寫操作,導致不可中斷睡眠狀態的進程過多。

基礎指標

flink_taskmanager_Status_JVM_Memory_Heap_Used

TM的堆記憶體

Byte

基礎指標

flink_taskmanager_Status_JVM_Memory_Heap_Committed

TM堆記憶體的已提交量

Byte

基礎指標

flink_taskmanager_Status_JVM_Memory_Heap_Max

TM最大堆記憶體

Byte

基礎指標

flink_taskmanager_Status_JVM_Memory_NonHeap_Used

TM的非堆記憶體

Byte

基礎指標

flink_taskmanager_Status_JVM_Memory_NonHeap_Committed

TM非堆記憶體的已提交量

Byte

基礎指標

flink_taskmanager_Status_JVM_Memory_NonHeap_Max

TM最大非堆記憶體

Byte

基礎指標

flink_taskmanager_Status_ProcessTree_Memory_RSS

通過Linux擷取整個進程的記憶體

查看進程記憶體的變化。

Byte

基礎指標

flink_taskmanager_Status_JVM_Threads_Count

TM線程數

TM線程數過多會導致佔用過多記憶體,從而降低作業穩定性。

基礎指標

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count

TM GC次數

GC次數過多會導致佔用過大的記憶體空間,從而影響作業效能。該指標可以協助您進行作業診斷,排查作業Task層級的故障原因。

次數

基礎指標

flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count

TM 年輕代 GC次數(G1記憶體回收行程)

次數

自訂指標

flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count

TM 老年代 GC次數(G1記憶體回收行程)

次數

自訂指標

flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time

TM 年輕代 GC時間(G1記憶體回收行程)

毫秒(ms)

自訂指標

flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time

TM 老年代 GC時間(G1記憶體回收行程)

毫秒(ms)

自訂指標

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

TM CMS記憶體回收行程的回收次數

次數

基礎指標

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time

每次TM GC時間

長時間GC會導致佔用過大的記憶體空間,從而影響作業效能。該指標協助您進行作業診斷,排查作業層級的故障原因。

毫秒(ms)

基礎指標

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JM CMS記憶體回收行程的回收耗時

毫秒(ms)

基礎指標

flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded

TM所在的JVM在建立後,載入的類總數

TM所在的JVM建立後,載入類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。

基礎指標

flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded

TM所在的JVM在建立後,卸載的類總數

TM所在的JVM建立後,卸載類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。

基礎指標

flink_jobmanager_job_uptime

作業已耗用時間

毫秒(ms)

自訂指標

flink_jobmanager_numRunningJobs

啟動並執行作業數目

自訂指標

flink_jobmanager_taskSlotsAvailable

可用Task Slot數目

自訂指標

flink_jobmanager_taskSlotsTotal

Task Slot的總數

自訂指標

flink_jobmanager_numRegisteredTaskManagers

註冊的TM數目

自訂指標

flink_taskmanager_job_task_numBytesInRemotePerSecond

作業每秒從遠程源讀取的位元組數

Byte/秒

自訂指標

flink_taskmanager_job_task_operator_numLateRecordsDropped

視窗延遲丟棄數

自訂指標

flink_taskmanager_job_task_operator_lateRecordsDroppedRate

視窗延遲比率

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_isSnapshotting

作業是否在處理全量資料階段

確定作業處理階段。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_isBinlogReading

作業是否在處理增量資料階段

確定作業處理階段。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_numTablesRemaining

作業是否在處理增量資料階段

查看剩餘未處理的表數量。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_numTablesSnapshotted

全量階段等待處理的表的個數

查看剩餘未處理的表數量。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_numSnapshotSplitsProcessed

全量階段已經處理的表的個數

查看已經處理的表數量。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_cdcns_schema_table_numSnapshotSplitsProcessed

全量階段已經處理的分區的個數

查看已經處理的分區數。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_numSnapshotSplitsRemaining

全量階段等待處理的分區的個數

查看未處理的分區數。

自訂指標

flink_jobmanager_job_operator_coordinator_enumerator_cdcns_schema_table_numSnapshotSplitsRemaining

全量階段等待處理的分區的個數

查看未處理的分區數。

自訂指標

flink_taskmanager_job_task_operator_currentReadTimestampMs

當前讀取到的最新資料的時間戳記

查看目前最新的binlog資料時間。

毫秒(ms)

自訂指標

flink_taskmanager_job_task_operator_numSnapshotRecords

全量階段已經處理的資料條數

查看全量階段已處理的資料量.

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numRecordsIn

每個表已經讀取的資料條數

查看每個表已經處理的全部資料量。

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numSnapshotRecords

每個表全量階段已經處理的資料條數

查看每個表全量階段已處理的資料量。

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numInsertDMLRecords

每個表增量階處理的insert DML語句條數

查看每個表insert語句資料量。

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numUpdateDMLRecords

每個表增量階處理的update DML語句條數

查看每個表update語句資料量。

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numDeleteDMLRecords

每個表增量階處理的delete DML語句條數

查看每個表delete語句資料量。

自訂指標

flink_taskmanager_job_task_operator_cdcns_schema_table_numDDLRecords

每個表增量階處理的DDL語句條數

查看每個表DDL語句資料量。

自訂指標

flink_taskmanager_job_task_operator_numInsertDMLRecords

增量階處理的insert DML語句條數

查看insert語句資料量

自訂指標

flink_taskmanager_job_task_operator_numUpdateDMLRecords

增量階處理的update DML語句條數

查看update語句資料量。

自訂指標

flink_taskmanager_job_task_operator_numDeleteDMLRecords

增量階處理的delete DML語句條數

查看delete語句資料量。

自訂指標

flink_taskmanager_job_task_operator_numDDLRecords

增量階處理的DDL語句條數

查看DDL語句資料量。

自訂指標

指標常用Label

Label

說明

vvpNamespace

專案空間名稱。

deploymentName

部署作業名。

deploymentId

部署作業ID。

jobId

Job ID。

其他

若您需要查看ARMS應用監控的指標,請參考應用監控指標說明