Flink Advisor作業智能診斷服務能夠幫您監控作業健康情況,分析和診斷錯誤記錄檔、異常運行和風險情況,並提供可理解和可操作的診斷建議,全面保障您的業務穩定可靠運行。本文為您介紹如何使用作業智能診斷服務。
背景資訊
Flink Advisor作業智能診斷服務即時監控作業的健康情況並計算健康分數。健康分滿分為100,平台會統計和分析最近半小時內作業情況,根據作業命中診斷風險的個數及風險等級進行相應扣分。從開發到營運全流程,它提供了作業看護和診斷能力。全量即時分析Flink作業全生命週期過程中產生的日誌、事件、指標以及配置,並依據阿里雲技術專家排查Flink作業高頻問題的營運經驗,提供作業開發態報錯日誌診斷、運行態健康分及異常態根因診斷。針對診斷結果給出相應的最佳化和建議,減少您的資料分析耗時和修複時間,保障作業啟動並執行穩定性和健康度。可以實現的功能如下圖所示。
使用限制
僅流作業支援作業智能診斷功能,批作業不支援作業智能診斷功能。
異常日誌自動分析
開發態異常
在Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台。
在
頁面,編寫SQL後,單擊深度檢查。深度檢查能夠檢查作業的SQL語義、網路連通性以及作業使用的表的中繼資料資訊。同時,您可以單擊結果地區的SQL最佳化,展開查看SQL風險問題提示以及對應的SQL最佳化建議。
在下方結果地區,查看問題、可能原因和參考方案。
說明如果深度檢查無法直接幫您提供問題原因和最佳化建議,您可以滑鼠選中相關問題內容,單擊在協助文檔中搜尋,在協助文檔中尋找相關資訊。
運行態異常
在Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台。
在
頁面,單擊目標作業名稱。在作業日誌頁簽左側,切換作業記錄、開機記錄和異常資訊後,查看運行態日誌分析。
詳情請參見查看啟動和作業記錄、查看運行異常日誌和查看歷史工作執行個體日誌。
對作業進行智能診斷
進入智能診斷頁面。
在Realtime Compute管理主控台,單擊目標工作空間操作列下的控制台。
在
頁面,單擊目標作業名稱。進入智能診斷頁面。
您通過以下任意一種方式進入:
在作業列表頁面,單擊目標作業健康分按鈕。
作業健康分顏色和含義詳情如下表。
顏色
含義
健康分範圍
綠色
表示作業健康狀態良好,沒有發現潛在風險,但可能存在一些配置建議。
大於80分
黃色
表示作業可能存在一些問題或潛在的風險,需要留意和進行檢查。
60分~80分
紅色
表示存在嚴重問題,需要立即處理,否則可能會導致作業停止,影響業務正常運行。
小於60分
單擊目標作業名稱後,單擊智能診斷頁簽。
單擊開始診斷。
Flink Advisor建立了豐富的面向Flink錯誤記錄檔的日誌知識庫,具體的診斷類型、階段、診斷項及處理方法詳情請參見Flink Advisor診斷項。
查看診斷結果和最佳化建議。
對於系統提供的最佳化建議,您可以直接單擊對應的立刻應用。
Flink Advisor診斷項
類型 | 階段 | 診斷項 | 診斷內容 |
異常(影響作業當前運行) | 啟動 | 開機檔案分析 | 如果作業需要的OSS中的JAR包不存在,則作業會無法啟動。請您重新上傳JAR包後再啟動作業。 |
資源分析 | 如果剩餘可用資源不足,則作業無法啟動。請您調小作業資源配置或對叢集進行擴容解決。 | ||
如果綁定CNI失敗,則作業無法啟動。請您檢查對應vSwitch IP是否用完。 | |||
如果彈性網卡ENI的IP用量超過網路上限,則作業無法啟動。建議您擴容彈性網卡後重試。 | |||
拓撲網路分析 | 如果TaskManager與JobManager的網路不通,則作業狀態顯示異常。 | ||
如果最近10分鐘記憶體在彈性網卡掛載逾時,則作業啟動慢。建議您耐心等待。 | |||
上下遊網路分析 | 如果TCP連接埠探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下遊服務網路設定是否正確。 | ||
上下遊許可權探測 | 如果上遊資料來源無法連通,則作業無法啟動。建議您檢查上遊服務許可權配置。 | ||
如果下遊資料來源無法連通,則作業無法啟動。建議您檢查下遊服務許可權配置。 | |||
啟動速度分析 | 如果作業JAR包過大,則作業啟動慢。建議您壓縮JAR包後重新上傳或耐心等待。 | ||
JobGraph檢查 | 由於產品老版本存在設定檔丟失的隱患,因此作業FailOver後可能會無法恢複。請手動重啟(停止後再啟動)作業解決。 | ||
Session叢集檢查 | 由於產品老版本存在Session叢集異常的隱患,因此作業狀態可能會顯示異常。 | ||
運行 | HA狀態檢查 | 如果作業未開啟HA,則作業FailOver無法正常恢複。請重新上線作業並手動重啟(停止後再啟動)作業解決。 | |
Checkpoint檢查 | 由於產品老版本存在CheckPoint功能異常的隱患,因此Checkpoint可能會失敗。 | ||
上下遊許可權探測 | 如果TCP連接埠探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下遊服務許可權配置。 | ||
作業運行狀態檢查 | 作業的TaskManager發生記憶體溢出,導致作業Failover,請檢查作業配置,嘗試調大TaskManager記憶體。 | ||
停止 | 停止速度分析 | 由於產品老版本過低的隱患,因此停止作業會比較慢。如果出現作業停止比較慢的情況,請通過手動重啟(停止後再啟動)作業解決。 | |
風險(不影響作業當前運行) | 配置 | JobGraph檢查 | 雖然作業目前狀態正常,但系統檢測到產品老版本存在設定檔丟失的隱患,FailOver後無法恢複。請手動重啟(停止後再啟動)作業解決。 |
HA狀態檢查 | 雖然作業目前狀態正常,但系統檢測到由於作業未開啟HA,會導致FailOver後無法恢複,請重新上線作業並手動重啟(停止後再啟動)作業解決。 | ||
版本檢查 | 雖然作業目前狀態正常,但檢測使用的版本存在重大缺陷。 | ||
運行 | Checkpoint檢查 | 作業目前狀態雖正常,但檢測到由於產品老版本存在Checkpoint異常的穩定性隱患。 | |
作業目前狀態雖正常,但檢測到Checkpoint已長時間未做成功。 | |||
停止速度分析 | 作業目前狀態雖正常,但檢測到由於產品老版本存在停止作業慢的隱患,請通過手動重啟(停止後再啟動)作業解決。 | ||
作業運行環境分析 |
| ||
作業運行版本檢測 | 版本已到EOS(服務與支援中止),可能存在穩定性問題或無法得到有效產品支援。詳情請參見空間管理與操作。 |
相關文檔
Job Manager和運行Task Managers的效能查看詳情,請參見查看作業效能。
如果您希望系統能夠自動或者定時完成資源調節,而無需手動進行調節,可以配置自動調優,詳情請參見配置自動調優。
提升Flink SQL作業效能詳情,請參見高效能Flink SQL最佳化技巧。