本文介紹Managed Service for Prometheus支援的Flink指標。
Managed Service for Prometheus按寫入量或者按上報次數收費。指標分為兩種類型:基礎指標和自訂指標,非基礎指標即是自訂指標。其中,基礎指標不收費,自訂指標自2020年01月06日起開始收費。
指標說明
指標 | 含義 | 詳情 | 單位 | 指標類型 |
| 作業錯誤恢複次數 | 作業出錯重啟次數,不包含JM Failover次數。 | 次數 | 自訂指標 |
| 業務延時 | 延時較大時,表示作業可能在拉取資料或者處理資料時存在延時。 | 毫秒(ms) | 自訂指標 |
| 傳輸延時 | 延時較大時,表示作業可能在拉取資料時存在延時。 | 毫秒(ms) | 自訂指標 |
| 所有Operator輸入的記錄總數 | 如果某個運算元的numRecordsIn值長時間未增長,可能是由於上遊吞掉了資料,因此未成功傳遞資料。此時,您需要查看上遊資料。 | 條 | 自訂指標 |
| 輸出記錄總數 | 如果某個運算元的numRecordsOut的值長時間未增長,可能是由於作業代碼邏輯錯誤,導致資料被吞掉,因此未成功傳遞資料。此時,您需要查看作業代碼邏輯。 | 條 | 自訂指標 |
| 輸入位元組總數 | 查看上遊吞吐的輸入情況,協助您觀察作業流量表現。 | Byte | 自訂指標 |
| 輸出位元組總數 | 查看上遊吞吐的輸出情況,協助您觀察作業流量表現。 | Byte | 自訂指標 |
| 所有Operator輸入的記錄總數 | 如果某個運算元的numRecordsIn值長時間未增長,可能是由於上遊吞掉了資料,因此未成功傳遞資料。此時,您需要查看上遊資料。 | 條 | 自訂指標 |
| 整個資料流每秒輸入的記錄數 | 適用於需要監控整個資料流的處理速度的情境。 例如,您可以使用numRecordsInPerSecond觀察整個資料流的處理速度是否達到了預期水平,以及在不同的輸入資料負載下效能的變化情況。 | 條/秒 | 自訂指標 |
| 輸出記錄總數 | 如果某個運算元的numRecordsOut的值長時間未增長,可能是由於作業代碼邏輯錯誤,導致資料被吞掉,因此未成功傳遞資料。此時,您需要查看作業代碼邏輯。 | 條 | 自訂指標 |
| 整個資料流每秒輸出的記錄數 | 適用於需要監控整個資料流輸出速度的情境,可以測量整個資料流每秒輸出的記錄數。 例如,您可以使用numRecordsOutPerSecond觀察整個資料流的輸出速度是否達到了預期水平,以及在不同的輸出資料負載下效能的變化情況。 | 條/秒 | 自訂指標 |
| 僅Source Operator的輸入記錄 | 查看上遊資料輸入情況。 | 條 | 自訂指標 |
| Sink端輸出記錄總數 | 查看上遊資料輸出情況。 | 條 | 自訂指標 |
| 整個資料流每秒輸入的記錄數 | 適用於需要監控整個資料流的處理速度的情境。 例如,您可以使用numRecordsInPerSecond觀察整個資料流的處理速度是否達到了預期水平,以及在不同的輸入資料負載下效能的變化情況。 | 條/秒 | 自訂指標 |
| 整個資料流每秒輸出的記錄數 | 適用於需要監控整個資料流輸出速度的情境,可以測量整個資料流每秒輸出的記錄數。 例如,您可以使用numRecordsOutPerSecond觀察整個資料流的輸出速度是否達到了預期水平,以及在不同的輸出資料負載下效能的變化情況。 | 條/秒 | 自訂指標 |
| 資料來源Source端每秒輸入的記錄數 | 適用於需要瞭解每個資料來源的產生速度的情境,可以測量每個資料來源每秒產生的記錄數。 例如,在一個資料流中,不同的資料來源可能會產生不同數量的記錄,使用numRecordsInOfSourcePerSecond可以協助您瞭解每個資料來源的產生速度,並對資料流進行調整以達到更好的效能。 同時,該資料用於監控警示。如果該值為0,可能是由於上遊吞掉了資料。您需要查看是否由於上遊資料一直未被消費,因此導致輸出阻塞問題。 | 條/秒 | 自訂指標 |
| 資料目的Sink端每秒輸出的記錄數 | 適用於需要瞭解每個Sink的輸出速度的情境,可以測量每個Sink端每秒輸出的記錄數。 例如,在一個資料流中,不同的Sink可能會輸出不同數量的記錄。使用numRecordsOutOfSinkPerSecond可以協助您瞭解每個Sink的輸出速度,並對資料流進行調整以達到更好的效能。 同時,該資料用於監控警示。如果該值為0,可能是作業代碼邏輯錯誤,導致全部資料被過濾了。此時,您需要查看作業代碼邏輯。 | 條/秒 | 自訂指標 |
| 每秒內本地消耗的資料緩衝區(buffer)數量 | 如果該指標值很高,表示任務之間的本地通訊(即在相同節點上的通訊)很頻繁。 | 條/秒 | 自訂指標 |
| 每秒內從遠程工作管理員接收到的緩衝區的數量 | 該指標反映了跨TaskManager通訊的頻率。 | 條/秒 | 自訂指標 |
| 每秒向其他任務發送的緩衝區的數量 | 該指標可以協助您瞭解任務的輸出壓力以及網路頻寬的使用方式。 | 條/秒 | 自訂指標 |
| 每秒輸入位元組(Local)總數 | 查看上遊流速的輸入情況,協助您觀察作業流量表現。 | Byte/秒 | 自訂指標 |
| 每秒輸出位元組總數 | 查看上遊吞吐輸出情況,協助您觀察作業流量表現。 | Byte/秒 | 自訂指標 |
| 源端未讀取資料的條數 | 外部系統中尚未被Source拉取的資料條數。 | 條 | 自訂指標 |
| 源端未處理資料的時間 | 該指標反映Source是否有閑置。如果該指標值較大,表示資料在外部系統中的產生速率較低。 | 毫秒(ms) | 自訂指標 |
| 每秒輸入位元組總數 | 無 | Byte/秒 | 自訂指標 |
| 每秒輸出位元組總數 | 無 | Byte/秒 | 自訂指標 |
| 發送最新一條記錄用時 | 無 | 毫秒 (ms) | 自訂指標 |
| 總Checkpoint數量 | 無 | 個 | 自訂指標 |
| 失敗的Checkpoints數量 | 無 | 個 | 自訂指標 |
| 已完成的Checkpoints數量 | 無 | 個 | 自訂指標 |
| 進行中的Checkpoints數量 | 無 | 個 | 自訂指標 |
| 最近一個Checkpoint的期間 | 如果Checkpoint耗時過長或逾時,可能是由於狀態過大、臨機操作網路原因、Barrier未對齊或資料存在反壓。 | 毫秒(ms) | 自訂指標 |
| 最近一個Checkpoint的大小 | 最近一次實際上傳的Checkpoint大小,您可以在Checkpoint有瓶頸時協助分析Checkpoint效能。 | Byte | 自訂指標 |
| 單次狀態清理延遲最大值 | 查看清理State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Value State訪問延遲的最大值 | 查看運算元訪問Value State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Value State Update延遲的最大值 | 查看Value State Update效能。 | 納秒(ns | 自訂指標 |
| 單次Aggregating State訪問延遲的最大值 | 查看運算元訪問Aggregating State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Aggregating State Add延遲的最大值 | 查看Aggregating State Add效能。 | 納秒(ns) | 自訂指標 |
| 單次Aggregating State Merge Namespace延遲的最大值 | 查看Aggregating State Merge Namespace效能。 | 納秒(ns) | 自訂指標 |
| 單次Reducing State訪問延遲的最大值 | 查看運算元訪問Reducing State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Reducing State Add延遲的最大值 | 查看Reducing State Add效能。 | 納秒(ns) | 自訂指標 |
| 單次Reducing State Merge Namespace延遲的最大值 | 查看Reducing State Merge Namespace的效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State訪問延遲的最大值 | 查看運算元訪問Map State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State Put延遲的最大值 | 查看Map State Put效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State Put All延遲的最大值 | 查看Map State Put All效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State Remove延遲的最大值 | 查看Map State Remove效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State Contains延遲的最大值 | 查看Map State Contains效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State EntriesInit延遲的最大值 | 查看Map State EntriesInit效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State KeysInit延遲的最大值 | 查看Map State KeysInit效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State ValuesInit延遲的最大值 | 查看Map State ValuesInit效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State IteratorInit延遲的最大值 | 查看Map State IteratorInit效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State Empty延遲的最大值 | 查看Map State Empty效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State IteratorHasNext延遲的最大值 | 查看Map State IteratorHasNext效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State IteratorNext延遲的最大值 | 查看Map State IteratorNext效能。 | 納秒(ns) | 自訂指標 |
| 單次Map State IteratorRemove延遲的最大值 | 查看Map State IteratorRemove效能。 | 納秒(ns) | 自訂指標 |
| 單次List State訪問延遲的最大值 | 查看運算元訪問List State的效能。 | 納秒(ns) | 自訂指標 |
| 單次List State Add延遲的最大值 | 查看List State Add效能。 | 納秒(ns) | 自訂指標 |
| 單次List State Add All延遲的最大值 | 查看List State Add All效能。 | 納秒(ns) | 自訂指標 |
| 單次List State Update延遲的最大值 | 查看List State Update效能。 | 納秒(ns) | 自訂指標 |
| 單次List State Merge Namespace延遲的最大值 | 查看List State Merge Namespace效能。 | 納秒(ns) | 自訂指標 |
| 單次Sorted Map State第一個條目訪問延遲的最大值 | 查看運算元訪問Sorted Map State的效能。 | 納秒(ns) | 自訂指標 |
| 單次Sorted Map State最後一個條目訪問延遲的最大值 | 查看運算元訪問Sorted Map State的效能。 | 納秒(ns) | 自訂指標 |
| 狀態資料的大小 | 通過觀測該指標,您可以:
| Byte | 自訂指標 |
| 狀態資料檔案的大小 | 通過觀測該指標,您可以:
| Byte | 自訂指標 |
| 每個Task最近收到一條浮水印的時間 | TM收到資料的延時情況。 | 無 | 自訂指標 |
| Watermark延遲 | Subtask層級的作業延遲情況。 | 毫秒(ms) | 自訂指標 |
| 單個JM CPU的負載 | 如果該值長期大於100%,表示CPU很繁忙,負載很高。這可能會影響系統效能,導致系統卡頓或回應時間過長等。 | 無 | 基礎指標 |
| JM的堆記憶體 | 無 | Byte | 基礎指標 |
| JM提交的堆記憶體 | 無 | Byte | 基礎指標 |
| JM的最大堆記憶體 | 無 | Byte | 基礎指標 |
| JM的非堆記憶體 | 無 | Byte | 基礎指標 |
| JM提交的非堆記憶體 | 無 | Byte | 基礎指標 |
| JM的最大非堆記憶體 | 無 | Byte | 基礎指標 |
| JM線程數 | JM線程數過多會導致佔用過大的記憶體空間,從而降低作業穩定性。 | 個 | 基礎指標 |
| JM GC次數 | GC次數過多會導致佔用過大的記憶體空間,從而影響作業效能。該指標可以協助您進行作業診斷,排查作業層級的故障原因。 | 次數 | 基礎指標 |
| JM 年輕代 GC次數(G1記憶體回收行程) | 無 | 次數 | 自訂指標 |
| JM 老年代 GC次數(G1記憶體回收行程) | 無 | 次數 | 自訂指標 |
| JM 年輕代 GC時間(G1記憶體回收行程) | 無 | 毫秒(ms) | 自訂指標 |
| JM 老年代 GC時間(G1記憶體回收行程) | 無 | 毫秒(ms) | 自訂指標 |
| JM CMS記憶體回收行程的回收次數 | 無 | 次數 | 基礎指標 |
| 每次JM GC時間 | 長時間的GC會導致佔用過大的記憶體空間,從而影響作業的效能。該指標可以協助您進行作業診斷,排查作業層級的故障原因。 | 毫秒(ms) | 基礎指標 |
| JM CMS記憶體回收行程的回收耗時 | 無 | 毫秒(ms) | 基礎指標 |
| JM所在的JVM在建立後,載入的類總數 | JM所在的JVM建立後,載入類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。 | 無 | 基礎指標 |
| JM所在的JVM在建立後,卸載的類總數 | JM所在的JVM建立後,卸載類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。 | 無 | 基礎指標 |
| 單個TM CPU的負載 | 指一段時間內CPU正在處理以及等待CPU處理的進程數之和,通常可以理解為CPU的繁忙程度。 CPU的繁忙程度和CPU核心數有關。Flink中的CPU Load值為CPU Usage/CPU核心數。 | 無 | 基礎指標 |
| 單個JM CPU的CPU使用率 | 該指標值反映了Flink對CPU時間片的佔用情況。
如果該值長期大於100%,說明CPU非常繁忙。 如果負載很高,但CPU使用率較低,可能是由於頻繁的讀寫操作,導致不可中斷睡眠狀態的進程過多。 | 無 | 基礎指標 |
| 單個TM CPU的CPU使用率 | 該指標值反映了Flink對CPU時間片的佔用情況。
如果該值長期大於100%,說明CPU非常繁忙。 如果負載很高,但CPU使用率較低,可能是由於頻繁的讀寫操作,導致不可中斷睡眠狀態的進程過多。 | 無 | 基礎指標 |
| TM的堆記憶體 | 無 | Byte | 基礎指標 |
| TM堆記憶體的已提交量 | 無 | Byte | 基礎指標 |
| TM最大堆記憶體 | 無 | Byte | 基礎指標 |
| TM的非堆記憶體 | 無 | Byte | 基礎指標 |
| TM非堆記憶體的已提交量 | 無 | Byte | 基礎指標 |
| TM最大非堆記憶體 | 無 | Byte | 基礎指標 |
| 通過Linux擷取整個進程的記憶體 | 查看進程記憶體的變化。 | Byte | 基礎指標 |
| TM線程數 | TM線程數過多會導致佔用過多記憶體,從而降低作業穩定性。 | 個 | 基礎指標 |
| TM GC次數 | GC次數過多會導致佔用過大的記憶體空間,從而影響作業效能。該指標可以協助您進行作業診斷,排查作業Task層級的故障原因。 | 次數 | 基礎指標 |
| TM 年輕代 GC次數(G1記憶體回收行程) | 無 | 次數 | 自訂指標 |
| TM 老年代 GC次數(G1記憶體回收行程) | 無 | 次數 | 自訂指標 |
| TM 年輕代 GC時間(G1記憶體回收行程) | 無 | 毫秒(ms) | 自訂指標 |
| TM 老年代 GC時間(G1記憶體回收行程) | 無 | 毫秒(ms) | 自訂指標 |
| TM CMS記憶體回收行程的回收次數 | 無 | 次數 | 基礎指標 |
| 每次TM GC時間 | 長時間GC會導致佔用過大的記憶體空間,從而影響作業效能。該指標協助您進行作業診斷,排查作業層級的故障原因。 | 毫秒(ms) | 基礎指標 |
| JM CMS記憶體回收行程的回收耗時 | 無 | 毫秒(ms) | 基礎指標 |
| TM所在的JVM在建立後,載入的類總數 | TM所在的JVM建立後,載入類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。 | 無 | 基礎指標 |
| TM所在的JVM在建立後,卸載的類總數 | TM所在的JVM建立後,卸載類的總數過大,會導致佔用過大的記憶體空間,從而影響作業效能。 | 無 | 基礎指標 |
| 作業已耗用時間 | 無 | 毫秒(ms) | 自訂指標 |
| 啟動並執行作業數目 | 無 | 無 | 自訂指標 |
| 可用Task Slot數目 | 無 | 無 | 自訂指標 |
| Task Slot的總數 | 無 | 無 | 自訂指標 |
| 註冊的TM數目 | 無 | 無 | 自訂指標 |
| 作業每秒從遠程源讀取的位元組數 | 無 | Byte/秒 | 自訂指標 |
| 視窗延遲丟棄數 | 無 | 個 | 自訂指標 |
| 視窗延遲比率 | 無 | 無 | 自訂指標 |
| 作業是否在處理全量資料階段 | 確定作業處理階段。 | 無 | 自訂指標 |
| 作業是否在處理增量資料階段 | 確定作業處理階段。 | 無 | 自訂指標 |
| 全量階段未處理表數量 | 查看剩餘未處理的表數量。 | 個 | 自訂指標 |
| 全量階段等待處理的表的個數 | 查看剩餘未處理的表數量。 | 個 | 自訂指標 |
| 全量階段已經處理的表的個數 | 查看已經處理的表數量。 | 個 | 自訂指標 |
| 全量階段已經處理的分區的個數 | 查看已經處理的分區數。 | 個 | 自訂指標 |
| 全量階段等待處理的分區的個數 | 查看未處理的分區數。 | 個 | 自訂指標 |
| 全量階段等待處理的分區的個數 | 查看未處理的分區數。 | 個 | 自訂指標 |
| 當前讀取到的最新資料的時間戳記 | 查看目前最新的binlog資料時間。 | 毫秒(ms) | 自訂指標 |
| 全量階段已經處理的資料條數 | 查看全量階段已處理的資料量. | 條 | 自訂指標 |
| 每個表已經讀取的資料條數 | 查看每個表已經處理的全部資料量。 | 條 | 自訂指標 |
| 每個表全量階段已經處理的資料條數 | 查看每個表全量階段已處理的資料量。 | 條 | 自訂指標 |
| 每個表增量階處理的insert DML語句條數 | 查看每個表insert語句資料量。 | 條 | 自訂指標 |
| 每個表增量階處理的update DML語句條數 | 查看每個表update語句資料量。 | 條 | 自訂指標 |
| 每個表增量階處理的delete DML語句條數 | 查看每個表delete語句資料量。 | 條 | 自訂指標 |
| 每個表增量階處理的DDL語句條數 | 查看每個表DDL語句資料量。 | 條 | 自訂指標 |
| 增量階處理的insert DML語句條數 | 查看insert語句資料量 | 條 | 自訂指標 |
| 增量階處理的update DML語句條數 | 查看update語句資料量。 | 條 | 自訂指標 |
| 增量階處理的delete DML語句條數 | 查看delete語句資料量。 | 條 | 自訂指標 |
| 增量階處理的DDL語句條數 | 查看DDL語句資料量。 | 條 | 自訂指標 |
指標常用Label
Label | 說明 |
| 專案空間名稱。 |
| 部署作業名。 |
| 部署作業ID。 |
| Job ID。 |