全部產品
Search
文件中心

Realtime Compute for Apache Flink:作業智能診斷

更新時間:Oct 11, 2024

Flink Advisor作業智能診斷服務能夠幫您監控作業健康情況,分析和診斷錯誤記錄檔、異常運行和風險情況,並提供可理解和可操作的診斷建議,全面保障您的業務穩定可靠運行。本文為您介紹如何使用作業智能診斷服務。

背景資訊

Flink Advisor作業智能診斷服務即時監控作業的健康情況並計算健康分數。健康分滿分為100,平台會統計和分析最近半小時內作業情況,根據作業命中診斷風險的個數及風險等級進行相應扣分。從開發到營運全流程,它提供了作業看護和診斷能力。全量即時分析Flink作業全生命週期過程中產生的日誌、事件、指標以及配置,並依據阿里雲技術專家排查Flink作業高頻問題的營運經驗,提供作業開發態報錯日誌診斷、運行態健康分及異常態根因診斷。針對診斷結果給出相應的最佳化和建議,減少您的資料分析耗時和修複時間,保障作業啟動並執行穩定性和健康度。可以實現的功能如下圖所示。

image..png

使用限制

僅流作業支援作業智能診斷功能,批作業不支援作業智能診斷功能。

異常日誌自動分析

開發態異常

  1. Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台

  2. 資料開發 > ETL頁面編寫SQL後,單擊深度檢查

    深度檢查能夠檢查作業的SQL語義、網路連通性以及作業使用的表的中繼資料資訊。同時,您可以單擊結果地區的SQL最佳化,展開查看SQL風險問題提示以及對應的SQL最佳化建議。

  3. 在下方結果地區,查看問題、可能原因和參考方案。

    image..png

    說明

    如果深度檢查無法直接幫您提供問題原因和最佳化建議,您可以滑鼠選中相關問題內容,單擊在協助文檔中搜尋,在協助文檔中尋找相關資訊。

運行態異常

  1. Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台

  2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

  3. 作業日誌頁簽左側,切換作業記錄開機記錄異常資訊後,查看運行態日誌分析。

作業智能診斷.jpg

詳情請參見查看啟動和作業記錄查看運行異常日誌查看歷史工作執行個體日誌

對作業進行智能診斷

  1. 進入智能診斷頁面。

    1. Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台

    2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

    3. 進入智能診斷頁面。

      您通過以下任意一種方式進入:

      • 在作業列表頁面,單擊目標作業健康分按鈕。健康分按鈕

        作業健康分顏色和含義詳情如下表。

        顏色

        含義

        健康分範圍

        綠色

        表示作業健康狀態良好,沒有發現潛在風險,但可能存在一些配置建議。

        大於80分

        黃色

        表示作業可能存在一些問題或潛在的風險,需要留意和進行檢查。

        60分~80分

        紅色

        表示存在嚴重問題,需要立即處理,否則可能會導致作業停止,影響業務正常運行。

        小於60分

      • 單擊目標作業名稱後,單擊智能診斷頁簽。

        作業智能診斷1.jpg

  2. 單擊開始診斷

    Flink Advisor建立了豐富的面向Flink錯誤記錄檔的日誌知識庫,具體的診斷類型、階段、診斷項及處理方法詳情請參見Flink Advisor診斷項

  3. 查看診斷結果和最佳化建議。

    對於系統提供的最佳化建議,您可以直接單擊對應的立刻應用

Flink Advisor診斷項

類型

階段

診斷項

診斷內容

異常(影響作業當前運行)

啟動

開機檔案分析

如果作業需要的OSS中的JAR包不存在,則作業會無法啟動。請您重新上傳JAR包後再啟動作業。

資源分析

如果剩餘可用資源不足,則作業無法啟動。請您調小作業資源配置或對叢集進行擴容解決。

如果綁定CNI失敗,則作業無法啟動。請您檢查對應vSwitch IP是否用完。

如果彈性網卡ENI的IP用量超過網路上限,則作業無法啟動。建議您擴容彈性網卡後重試。

拓撲網路分析

如果TaskManager與JobManager的網路不通,則作業狀態顯示異常。

如果最近10分鐘記憶體在彈性網卡掛載逾時,則作業啟動慢。建議您耐心等待。

上下遊網路分析

如果TCP連接埠探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下遊服務網路設定是否正確。

上下遊許可權探測

如果上遊資料來源無法連通,則作業無法啟動。建議您檢查上遊服務許可權配置。

如果下遊資料來源無法連通,則作業無法啟動。建議您檢查下遊服務許可權配置。

啟動速度分析

如果作業JAR包過大,則作業啟動慢。建議您壓縮JAR包後重新上傳或耐心等待。

JobGraph檢查

由於產品老版本存在設定檔丟失的隱患,因此作業FailOver後可能會無法恢複。請手動重啟(停止後再啟動)作業解決。

Session叢集檢查

由於產品老版本存在Session叢集異常的隱患,因此作業狀態可能會顯示異常。

運行

HA狀態檢查

如果作業未開啟HA,則作業FailOver無法正常恢複。請重新上線作業並手動重啟(停止後再啟動)作業解決。

Checkpoint檢查

由於產品老版本存在CheckPoint功能異常的隱患,因此Checkpoint可能會失敗。

上下遊許可權探測

如果TCP連接埠探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下遊服務許可權配置。

作業運行狀態檢查

作業的TaskManager發生記憶體溢出,導致作業Failover,請檢查作業配置,嘗試調大TaskManager記憶體。

停止

停止速度分析

由於產品老版本過低的隱患,因此停止作業會比較慢。如果出現作業停止比較慢的情況,請通過手動重啟(停止後再啟動)作業解決。

風險(不影響作業當前運行)

配置

JobGraph檢查

雖然作業目前狀態正常,但系統檢測到產品老版本存在設定檔丟失的隱患,FailOver後無法恢複。請手動重啟(停止後再啟動)作業解決。

HA狀態檢查

雖然作業目前狀態正常,但系統檢測到由於作業未開啟HA,會導致FailOver後無法恢複,請重新上線作業並手動重啟(停止後再啟動)作業解決。

版本檢查

雖然作業目前狀態正常,但檢測使用的版本存在重大缺陷。

運行

Checkpoint檢查

作業目前狀態雖正常,但檢測到由於產品老版本存在Checkpoint異常的穩定性隱患。

作業目前狀態雖正常,但檢測到Checkpoint已長時間未做成功。

停止速度分析

作業目前狀態雖正常,但檢測到由於產品老版本存在停止作業慢的隱患,請通過手動重啟(停止後再啟動)作業解決。

作業運行環境分析

  • 作業所在機器出現異常導致作業Failover,平台會自動修複,您無需手動處理。

  • 作業所在機器升級過程,可能存在分鐘級的Failover,Failover成功後會自動回復,您也可以在升級前手動重啟(停止後再啟動)作業,來提前規避。

  • 作業所在機器存在硬體故障,將在一段時間後自愈,屆時您的作業將會發生一次Failover。您可以手動重啟(停止後再啟動)作業,來規避自愈產生的Failover。

作業運行版本檢測

版本已到EOS(服務與支援中止),可能存在穩定性問題或無法得到有效產品支援。詳情請參見空間管理與操作

相關文檔