全部產品
Search
文件中心

Realtime Compute for Apache Flink:監控警示與日誌問題

更新時間:Sep 13, 2024

本文介紹監控警示與日誌中的常見問題。

Datastream作業TM日誌中拋NullPointerException如果沒有詳細錯誤棧怎麼辦?

營運中心 > 作業營運頁面,單擊目標作業名稱後,在部署詳情頁簽的運行參數配置地區的其他配置中,添加如下代碼。

env.java.opts: "-XX:-OmitStackTraceInFastThrow"

如何針對單個Class設定記錄層級參數?

例如,設定Kafka Connector相關的log4j.logger.org.apache.kafka.clients.consumer=trace(源表)log4j.logger.org.apache.kafka.clients.producer=trace(結果表)參數時,需要在Log Levels中配置,不能在其他配置中配置。參數設定

如何開啟Realtime ComputeFlink版GC日誌參數?

營運中心 > 作業營運頁面,單擊目標作業名稱後,在部署詳情頁簽的運行參數配置地區的其他配置中,添加如下代碼。

env.java.opts: >-
-XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/flink/log/gc.log
-XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=2 -XX:GCLogFileSize=50M

Datastream作業無延遲、輸出曲線,應該如何處理?

  • 問題詳情

    源表有源源不斷的資料進入Flink,Kafka物理表每個Partition也是有源源不斷的資料的情況下,Datastream作業Kafka Source CurrentEmitEventTimeLag和CurrentFetchEventTimeLag顯示作業延遲為52年。

  • 問題原因

    Datastream中Kafka Connector依賴是社區的Connector,不是Ververica內建的Connector。社區Connector是沒有實現曲線彙報邏輯的,所以輸入輸出延遲等曲線顯示異常。

  • 解決方案

    使用Ververica Connector依賴,詳情請參見ververica maven倉庫

如何解決非Static方法輸出不到SLS中的問題?

  • 問題詳情

    由於SLS Logger Appender實現邏輯,非Static方法輸出不到SLS中。

  • 解決方案

    您需要使用標準的定義方式private static final Logger LOG = LoggerFactory.getLogger(xxx.class);

資料正常寫入(如Kafka能收到Flink寫入的資料),但Flink任務狀態總覽顯示資料為0?

  • 問題詳情

    如果作業中只有一個節點,source沒有input只有output,sink只有input沒有output,在作業拓撲圖中將無法看到讀取和寫入的資料量。

  • 解決方案

    為了能夠在拓撲圖中看到具體的資料流量,需要對運算元進行分割。將source運算元和sink運算元拆分成獨立的運算元,分別與其他的運算元進行串連,形成新的拓撲結構,在拓撲圖中即可看到資料的流向和流量。

    您需要在營運中心 > 作業營運頁面,單擊目標作業名稱,在部署詳情頁簽運行參數配置地區的其他配置中添加分割運算元的參數配置pipeline.operator-chaining: 'false'監控FAQ.png

配置日誌到SLS後,作業啟動報錯

  • 問題詳情

    修改作業日誌輸出到SLS後,作業啟動時顯示作業啟動失敗,請重試,並報錯如下:

    Unknown ApiException {exceptionType=com.ververica.platform.appmanager.controller.domain.TemplatesRenderException, exceptionMessage=Failed to render {userConfiguredLoggers={}, jobId=3fd090ea-81fc-4983-ace1-0e0e7b******, rootLoggerLogLevel=INFO, clusterName=f7dba7ec27****, deploymentId=41529785-ab12-405b-82a8-1b1d73******, namespace=flinktest-default, priorityClassName=flink-p5, deploymentName=test}}
    029999 202312121531-8SHEUBJUJU
  • 問題原因

    配置作業日誌時,請確認是否將部分Twig變數(例如namespace、deploymentId等)進行了修改。

    image.png

  • 解決方案

    參考配置作業日誌輸出重新進行配置,根據實際情況對錶格中說明的參數進行修改。

CloudMonitor警示相對ARMS有哪些不足?

  • 不支援查詢分析文法。

  • 目前只能查看當前作業曲線,而無法查看歷史作業曲線,這將不利於進行多輪調優對比RPS效果。

  • 無法查看subtask粒度的曲線,多Source、多subtask的情境下,無法直觀快速定位聚類後的延遲問題。

  • 目前無法查看使用者代碼內部埋點上報的指標,這可能會對問題排查造成不便。