全部產品
Search
文件中心

Container Service for Kubernetes:開啟Fluid組件監控

更新時間:Dec 27, 2024

Fluid是開源Kubernetes原生的分布式資料集編排和加速引擎,主要服務於雲原生情境下的資料密集型應用,例如巨量資料應用、AI應用等。Fluid提供面嚮應用的資料集統一抽象、可擴充的資料引擎外掛程式、自動化資料操作、通用資料加速、運行時平台無關等核心功能。阿里雲Prometheus監控支援一鍵安裝Fluid組件,並提供開箱即用的監控大盤。本文介紹如何為Fluid開啟Prometheus監控。

前提條件

  • 已為ACK叢集或ACK Serverless叢集開啟阿里雲Prometheus監控。具體操作,請參見使用阿里雲Prometheus監控

  • 已部署雲原生AI套件(選擇開啟Fluid資料加速功能)。具體操作,請參見部署雲原生AI套件

    • 如需使用Fluid控制面監控大盤的完整能力,請確保叢集中啟動並執行ack-fluid組件版本為0.9.7及以上。

    • 如需使用Fluid JindoRuntime緩衝系統監控大盤的完整能力,請確保叢集中啟動並執行ack-fluid組件版本為1.0.11及以上。

使用限制

緩衝系統監控大盤僅支援對JindoRuntime類型(JindoCache緩衝引擎)的緩衝運行時組件進行監控。

步驟一:接入Fluid

  1. 登入ARMS控制台

  2. 在左側導覽列單擊接入中心,然後在人工智慧地區單擊Fluid卡片。

  3. Fluid頁面的選擇Container Service叢集地區,選擇目的地組群。若顯示已經安裝Fluid組件,則無需再重複安裝。

  4. 配置資訊地區配置參數,然後單擊確定,完成組件接入。

    配置項

    說明

    接入名稱(非必填)

    當前Fluid監控唯一名稱,可留空。

    metrics採集間隔(秒)

    監控資料擷取時間間隔。

  5. 已接入的組件可在ARMS控制台的接入管理頁面查看。

    1. 登入ARMS控制台

    2. 在左側導覽列單擊接入管理,然後單擊已接入組件頁簽,選擇單擊Fluid組件的卡片。

    3. 環境列表頁簽下,單擊操作列的查看詳情,即可查看目的地組群Fluid的組件、大盤警示規則等資訊。

步驟二:查看Fluid大盤資料

(推薦)從Container Service控制台查看Fluid大盤資料

  1. 登入Container Service管理主控台,在左側導覽列單擊叢集

  2. 叢集列表頁面,單擊已接入Fluid組件的ACK叢集或ACK Serverless叢集,然後在左側導覽列,選擇營運管理 > Prometheus 監控

  3. Prometheus監控頁面,選擇其他 > Fluid Control Plane,查看Fluid控制面監控大盤的詳情資料。

    在Fluid控制面監控大盤中,您可以查看有關Fluid控制面組件的詳情資料,Prometheus監控提供的Fluid大盤資料包括Fluid組件運行狀態、Fluid控制器處理耗時、Fluid Webhook處理請求量QPS、請求處理時延,以及各組件資源使用量等等。更多詳細資料,請參見Fluid監控大盤參數說明

    • 組件運行狀態地區,可查看Fluid控制面組件的就緒Pod數量,歷史重啟次數和歷史重啟時刻等資訊。組件運行狀態

    • Fluid控制器詳細指標地區,可查看Fluid控制器組件閑忙程度、處理失敗情況、Kubernetes API請求等資訊。控制器詳細指標

    • Fluid Webhook詳細指標地區,可查看Fluid Webhook組件資源使用、請求處理數量以及請求處理時延等資訊。webhook詳細指標

    • 資源使用地區,可查看Fluid控制面的全部組件的資源使用和網路收發速率等資訊。資源使用

  4. Prometheus監控頁面,選擇其他 > Fluid JindoRuntime Dashboard ,查看Fluid JindoRuntime緩衝系統監控大盤的詳情資料。

    在Fluid JindoRuntime緩衝系統監控大盤中,您可以查看有關Fluid JindoRuntime緩衝系統的詳情資料,大盤資料包括Fluid Dataset概覽、緩衝系統監控指標、FUSE用戶端監控指標等。更多詳細資料,請參見Fluid監控大盤參數說明

    • Dataset Overview(資料集概覽)地區,可查看選中的Fluid資料集的概覽資訊,包括緩衝系統中正常啟動並執行Master組件Pod、Worker組件Pod、FUSE組件Pod的數量,以及各Pod的資源配置情況。

      image

    • Cache System Metrics(緩衝系統指標)地區,可查看選中的緩衝系統服務端指標,包括緩衝系統當前已使用的緩衝容量、快取命中率、緩衝系統彙總頻寬以及緩衝系統處理檔案元資訊操作的QPS等。

      image

    • FUSE Metrics (via CSI)(FUSE Pod用戶端指標)地區,可查看通過Fluid CSI外掛程式和FUSE Pod方式掛載的FUSE檔案系統的用戶端指標,包括各FUSE Pod的網路I/O情況、中繼資料操作延時和QPS、讀寫資料操作延時和QPS等。

      image

    • FUSE Metrics (via Sidecar)(FUSE Sidecar容器用戶端指標)地區,可查看通過Fluid FUSE Sidecar方式掛載的FUSE檔案系統的用戶端指標,包括中繼資料操作延時和QPS、讀寫資料操作延時和QPS等。

      image

從ARMS控制台查看Fluid大盤資料

  1. 登入ARMS控制台

  2. 左側導覽列單擊接入管理,在組件類型地區選取項目Fluid,並單擊右側的大盤頁簽,然後單擊頁面底部的Fluid Control Plane,您可以查看Fluid控制面監控大盤的詳情資料。

    在Fluid大盤中,您可以查看有關Fluid控制面組件的詳情資料,Prometheus監控提供的Fluid大盤資料包括Fluid組件運行狀態、Fluid控制器處理耗時、Fluid Webhook處理請求量QPS、請求處理時延,以及各組件資源使用量等等。更多詳細資料,請參見Fluid監控大盤參數說明

    • 組件運行狀態地區,可查看Fluid控制面組件的就緒Pod數量,歷史重啟次數和歷史重啟時刻等資訊。

    • Fluid控制器詳細指標地區,可查看Fluid控制器組件閑忙程度、處理失敗情況、Kubernetes API請求等資訊。

    • Fluid Webhook詳細指標地區,可查看Fluid Webhook組件資源使用、請求處理數量以及請求處理時延等資訊。

    • 資源使用地區,可查看Fluid控制面的全部組件的資源使用和網路收發速率等資訊。

  3. 左側導覽列單擊接入管理,在組件類型地區選取項目Fluid,並單擊右側的大盤頁簽,然後單擊頁面底部的Fluid JindoRuntime Dashboard,您可以查看Fluid JindoRuntime緩衝系統監控大盤的詳情資料。

    • Dataset Overview(資料集概覽)地區,可查看選中的Fluid資料集的概覽資訊,包括緩衝系統中正常啟動並執行Master組件Pod、Worker組件Pod、FUSE組件Pod的數量,以及各Pod的資源配置情況。

    • Cache System Metrics(緩衝系統指標)地區,可查看選中的緩衝系統服務端指標,包括緩衝系統當前已使用的緩衝容量、快取命中率、緩衝系統彙總頻寬以及緩衝系統處理檔案元資訊操作的QPS等。

    • FUSE Metrics (via CSI)(FUSE Pod用戶端指標)地區,可查看通過Fluid CSI外掛程式和FUSE Pod方式掛載的FUSE檔案系統的用戶端指標,包括各FUSE Pod的網路I/O情況、中繼資料操作延時和QPS、讀寫資料操作延時和QPS等。

    • FUSE Metrics (via Sidecar)(FUSE Sidecar容器用戶端指標)地區,可查看通過Fluid FUSE Sidecar方式掛載的FUSE檔案系統的用戶端指標,包括中繼資料操作延時和QPS、讀寫資料操作延時和QPS等。

監控指標說明

Fluid控制面各組件使用的指標清單如下。

指標

類型

說明

dataset_ufs_total_size

Gauge

當前叢集記憶體活的Dataset資來源物件掛載的資料集大小。

dataset_ufs_file_num

Gauge

當前叢集記憶體活的Dataset資來源物件掛載的資料集檔案數量。

runtime_setup_error_total

Counter

控制器Reconcile過程中啟動Runtime操作失敗數量。

runtime_sync_healthcheck_error_total

Counter

控制器Reconcile過程中Runtime健全狀態檢查操作失敗數量。

controller_runtime_reconcile_time_seconds_bucket

Histogram

控制器Reconcile流程耗時。

controller_runtime_reconcile_errors_total

Counter

控制器Reconcile失敗數量。

controller_runtime_reconcile_total

Counter

控制器已完成的Reconcile過程總數。

controller_runtime_max_concurrent_reconciles

Gauge

控制器的最大可用Reconcile協程數量。

controller_runtime_active_workers

Gauge

控制器當前處於活躍狀態的Reconcile協程數量。

workqueue_adds_total

Counter

控制器Workqueue處理的Adds事件的數量。

workqueue_depth

Gauge

控制器Workqueue當前隊列深度。

workqueue_queue_duration_seconds_bucket

Histogram

待處理對象在控制器Workqueue中等待時間長度。

workqueue_work_duration_seconds_bucket

Histogram

控制器歷史已完成的處理過程的時間長度分布。

workqueue_unfinished_work_seconds

Gauge

控制器Workqueue中當前正在被處理,但還未處理完成的任務的總時間長度。

workqueue_longest_running_processor_seconds

Gauge

控制器歷史處理過程最大時間長度。

rest_client_requests_total

Counter

從狀態值(Status Code)、方法(Method)和主機(Host)維度分析的到的HTTP請求數。

rest_client_request_duration_seconds_bucket

Histogram

從方法(Verb)和URL維度分析得到的HTTP請求時延。

controller_runtime_webhook_requests_in_flight

Gauge

Webhook當前正在處理的請求數量。

controller_runtime_webhook_requests_total

Counter

Webhook處理請求數量。

controller_runtime_webhook_latency_seconds_bucket

Histogram

Webhook處理請求時延。

process_cpu_seconds_total

Counter

CPU使用時間長度。

process_resident_memory_bytes

Gauge

記憶體使用量量。

Fluid JindoRuntime緩衝監控大盤中JindoCache緩衝系統服務端暴露的指標清單如下。

指標清單

類型

解釋

jindocache_server_total_stsnodes_num

Gauge

當前分布式緩衝存活的Worker組件副本數量。

jindocache_server_total_disk_cap

Gauge

分布式緩衝系統中以磁碟介質(包含tmpfs等記憶體盤)的緩衝容量上限。

jindocache_server_total_used_disk_cap

Gauge

分布式緩衝系統中已使用的磁碟介質(包含tmpfs等記憶體盤)緩衝空間。

jindocache_server_total_mem_cap

Gauge

分布式緩衝系統中以進程記憶體為介質的緩衝容量上限。

jindocache_server_total_used_mem_cap

Gauge

分布式緩衝系統中已使用的以進程記憶體為介質的緩衝空間。

jindocache_server_total_used_rocksdb_cap

Gauge

分布式緩衝系統中已使用的RocksDB。

jindocache_server_backend_read_bytes_total

Gauge

總計回源底層儲存讀取資料量大小,單位Byte。

回源底層儲存讀取指待讀資料不在JindoCache分布式緩衝中,需要回源底層儲存系統進行讀取的情況。

jindocache_server_backend_read_time_total

Gauge

回源底層儲存讀取資料總耗時,單位微秒。

jindocache_server_backend_readop_num_total

Gauge

總計回源底層儲存讀取資料次數,對應 JindoCache緩衝中 Block 個數。

jindocache_server_backend_read_bytes_time_total_window

Gauge

一分鐘內回源底層儲存讀取資料耗時,單位微秒。

jindocache_server_backend_read_bytes_total_window

Gauge

一分鐘內回源底層儲存讀取總資料量大小,單位Byte。

jindocache_server_remote_read_bytes_total

Gauge

總計同叢集內遠端快取命中讀取資料量大小,單位Byte。

遠端快取命中指待讀資料在JindoCache分布式緩衝中,但是快取資料與應用不在相同節點的情況。

jindocache_server_remote_read_time_total

Gauge

總計同叢集內遠端快取命中讀取資料總耗時,單位微秒。

jindocache_server_remote_readop_num_total

Gauge

總計同叢集內遠端快取命中讀取次數。

jindocache_server_remote_read_bytes_time_total_window

Gauge

一分鐘內遠端快取命中讀取總資料耗時,單位微秒。

jindocache_server_remote_read_bytes_total_window

Gauge

一分鐘內遠端快取命中讀取總資料量大小,單位Byte。

jindocache_server_local_read_bytes_total

Gauge

總計同叢集內本機快取命中讀取資料量大小,單位Byte。

本機快取命中指待讀資料在JindoCache分布式緩衝中,並且快取資料與應用在相同節點的讀取情況。

jindocache_server_local_read_time_total

Gauge

總計同叢集內本機快取命中讀取資料總耗時,單位微秒。

jindocache_server_local_readop_num_total

Gauge

總計同叢集內本機快取命中讀取次數。

jindocache_server_local_read_bytes_time_total_window

Gauge

一分鐘內本機快取命中讀取總資料耗時,單位微秒。

jindocache_server_local_read_bytes_total_window

Gauge

一分鐘內本機快取命中讀取總資料量大小,單位Byte。

jindocache_server_ns_filelet_op_count_total

Gauge

JindoCache Master組件側統計的檔案元資訊操作(包括getAttr操作和listStatus操作)總數。

jindocache_server_ns_filelet_op_time_total

Gauge

JindoCache Master組件側統計的處理檔案元資訊操作(包括getAttr操作和listStatus操作)的總耗時。

jindocache_server_ns_get_attr_op_total

Gauge

JindoCache Master組件側統計的getAttr操作總數。

jindocache_server_ns_get_attr_time_total

Gauge

JindoCache Master組件側統計的處理getAttr操作的總耗時。

jindocache_server_ns_get_attr_fallback_op_total

Gauge

JindoCache Master組件回源底層儲存系統擷取檔案元資訊的總次數。

jindocache_server_ns_list_status_op_total

Gauge

JindoCache Master組件側統計的listStatus操作總數。

jindocache_server_ns_list_status_time_total

Gauge

JindoCache Master組件側統計的處理listStatus操作的總耗時。

jindocache_server_ns_list_status_fallback_op_total

Gauge

JindoCache Master組件回源底層儲存系統擷取檔案清單的總次數。

jindocache_server_dist_get_attr_op_num_total

Gauge

JindoCache用戶端側統計的getAttr操作總數。

jindocache_server_dist_get_attr_time_total

Gauge

JindoCache用戶端側統計的處理getAttr操作的總耗時。

jindocache_server_dist_list_dir_op_num_total

Gauge

JindoCache用戶端側統計的listStatus操作總數。

jindocache_server_dist_list_dir_time_total

Gauge

JindoCache用戶端側統計的處理listStatus操作的總耗時。

Fluid JindoRuntime緩衝監控大盤中JindoCache緩衝系統FUSE用戶端暴露的指標清單如下。

指標清單

類型

解釋

jindo_fuse_open_count

Gauge

Jindo FUSE用戶端open操作次數。

jindo_fuse_open_latency

Gauge

Jindo FUSE用戶端open操作P50分位延遲。

jindo_fuse_open_latency_80

Gauge

Jindo FUSE用戶端open操作P80分位延遲。

jindo_fuse_open_latency_90

Gauge

Jindo FUSE用戶端open操作P90分位延遲。

jindo_fuse_open_latency_99

Gauge

Jindo FUSE用戶端open操作P99分位延遲。

jindo_fuse_open_latency_999

Gauge

Jindo FUSE用戶端open操作千分之999分位延遲。

jindo_fuse_open_latency_9999

Gauge

Jindo FUSE用戶端open操作萬分之9999分位延遲。

jindo_fuse_getattr_count

Gauge

Jindo FUSE用戶端getAttr操作次數。

jindo_fuse_getattr_latency

Gauge

Jindo FUSE用戶端getAttr操作P50分位延遲。

jindo_fuse_getattr_latency_80

Gauge

Jindo FUSE用戶端getAttr操作P80分位延遲。

jindo_fuse_getattr_latency_90

Gauge

Jindo FUSE用戶端getAttr操作P90分位延遲。

jindo_fuse_getattr_latency_99

Gauge

Jindo FUSE用戶端getAttr操作P99分位延遲。

jindo_fuse_getattr_latency_999

Gauge

Jindo FUSE用戶端getAttr操作千分之999分位延遲。

jindo_fuse_getattr_latency_9999

Gauge

Jindo FUSE用戶端getAttr操作萬分之9999分位延遲。

jindo_fuse_readdir_count

Gauge

Jindo FUSE用戶端readDir操作次數。

jindo_fuse_readdir_latency

Gauge

Jindo FUSE用戶端readDir操作P50分位延遲。

jindo_fuse_readdir_latency_80

Gauge

Jindo FUSE用戶端readDir操作P80分位延遲。

jindo_fuse_readdir_latency_90

Gauge

Jindo FUSE用戶端readDir操作P90分位延遲。

jindo_fuse_readdir_latency_99

Gauge

Jindo FUSE用戶端readDir操作P99分位延遲。

jindo_fuse_readdir_latency_999

Gauge

Jindo FUSE用戶端readDir操作千分之999分位延遲。

jindo_fuse_readdir_latency_9999

Gauge

Jindo FUSE用戶端readDir操作萬分之9999分位延遲。

jindo_fuse_read_count

Gauge

Jindo FUSE用戶端read操作次數。

jindo_fuse_read_latency

Gauge

Jindo FUSE用戶端read操作P50分位延遲。

jindo_fuse_read_latency_80

Gauge

Jindo FUSE用戶端read操作P80分位延遲。

jindo_fuse_read_latency_90

Gauge

Jindo FUSE用戶端read操作P90分位延遲。

jindo_fuse_read_latency_99

Gauge

Jindo FUSE用戶端read操作P99分位延遲。

jindo_fuse_read_latency_999

Gauge

Jindo FUSE用戶端read操作千分之999分位延遲。

jindo_fuse_read_latency_9999

Gauge

Jindo FUSE用戶端read操作萬分之9999分位延遲。

jindo_fuse_write_count

Gauge

Jindo FUSE用戶端write操作次數。

jindo_fuse_write_latency

Gauge

Jindo FUSE用戶端write操作P50分位延遲。

jindo_fuse_write_latency_80

Gauge

Jindo FUSE用戶端write操作P80分位延遲。

jindo_fuse_write_latency_90

Gauge

Jindo FUSE用戶端write操作P90分位延遲。

jindo_fuse_write_latency_99

Gauge

Jindo FUSE用戶端write操作P99分位延遲。

jindo_fuse_write_latency_999

Gauge

Jindo FUSE用戶端write操作千分之999分位延遲。

jindo_fuse_write_latency_9999

Gauge

Jindo FUSE用戶端write操作萬分之9999分位延遲。

相關文檔