作業智能診斷 - Realtime Compute for Apache Flink

Flink Advisor作業智能診斷服務能夠幫您監控作業健康情況，分析和診斷錯誤記錄檔、異常運行和風險情況，並提供可理解和可操作的診斷建議，全面保障您的業務穩定可靠運行。本文為您介紹如何使用作業智能診斷服務。

背景資訊

Flink Advisor作業智能診斷服務即時監控作業的健康情況並計算健康分數。健康分滿分為100，平台會統計和分析最近半小時內作業情況，根據作業命中診斷風險的個數及風險等級進行相應扣分。從開發到營運全流程，它提供了作業看護和診斷能力。全量即時分析Flink作業全生命週期過程中產生的日誌、事件、指標以及配置，並依據阿里雲技術專家排查Flink作業高頻問題的營運經驗，提供作業開發態報錯日誌診斷、運行態健康分及異常態根因診斷。針對診斷結果給出相應的最佳化和建議，減少您的資料分析耗時和修複時間，保障作業啟動並執行穩定性和健康度。可以實現的功能如下圖所示。

image..png

使用限制

僅流作業支援作業智能診斷功能，批作業不支援作業智能診斷功能。

異常日誌自動分析

開發態異常

在Realtime Compute管理主控台，單擊目標工作空間操作列下的控制台。
在資料開發 > ETL頁面，編寫SQL後，單擊深度檢查。
深度檢查能夠檢查作業的SQL語義、網路連通性以及作業使用的表的中繼資料資訊。同時，您可以單擊結果地區的SQL最佳化，展開查看SQL風險問題提示以及對應的SQL最佳化建議。
在下方結果地區，查看問題、可能原因和參考方案。
說明
如果深度檢查無法直接幫您提供問題原因和最佳化建議，您可以滑鼠選中相關問題內容，單擊在協助文檔中搜尋，在協助文檔中尋找相關資訊。

運行態異常

在Realtime Compute管理主控台，單擊目標工作空間操作列下的控制台。
在營運中心 > 作業營運頁面，單擊目標作業名稱。
在作業日誌頁簽左側，切換作業記錄、開機記錄和異常資訊後，查看運行態日誌分析。

作業智能診斷.jpg

詳情請參見查看啟動和作業記錄、查看運行異常日誌和查看歷史工作執行個體日誌。

對作業進行智能診斷

進入智能診斷頁面。

在Realtime Compute管理主控台，單擊目標工作空間操作列下的控制台。
在營運中心 > 作業營運頁面，單擊目標作業名稱。

進入智能診斷頁面。

您通過以下任意一種方式進入：

在作業列表頁面，單擊目標作業健康分按鈕。健康分按鈕

作業健康分顏色和含義詳情如下表。

顏色	含義	健康分範圍
綠色	表示作業健康狀態良好，沒有發現潛在風險，但可能存在一些配置建議。	大於80分
黃色	表示作業可能存在一些問題或潛在的風險，需要留意和進行檢查。	60分~80分
紅色	表示存在嚴重問題，需要立即處理，否則可能會導致作業停止，影響業務正常運行。	小於60分

單擊目標作業名稱後，單擊智能診斷頁簽。

單擊開始診斷。
Flink Advisor建立了豐富的面向Flink錯誤記錄檔的日誌知識庫，具體的診斷類型、階段、診斷項及處理方法詳情請參見Flink Advisor診斷項。
查看診斷結果和最佳化建議。
對於系統提供的最佳化建議，您可以直接單擊對應的立刻應用。

Flink Advisor診斷項

類型	階段	診斷項	診斷內容
異常（影響作業當前運行）	啟動	開機檔案分析	如果作業需要的OSS中的JAR包不存在，則作業會無法啟動。請您重新上傳JAR包後再啟動作業。
		資源分析	如果剩餘可用資源不足，則作業無法啟動。請您調小作業資源配置或對叢集進行擴容解決。
			如果綁定CNI失敗，則作業無法啟動。請您檢查對應vSwitch IP是否用完。
			如果彈性網卡ENI的IP用量超過網路上限，則作業無法啟動。建議您擴容彈性網卡後重試。
		拓撲網路分析	如果TaskManager與JobManager的網路不通，則作業狀態顯示異常。
		拓撲網路分析	如果最近10分鐘記憶體在彈性網卡掛載逾時，則作業啟動慢。建議您耐心等待。
		上下遊網路分析	如果TCP連接埠探測正常，但Connector無法連通，作業無法啟動。建議您檢查上下遊服務網路設定是否正確。
		上下遊許可權探測	如果上遊資料來源無法連通，則作業無法啟動。建議您檢查上遊服務許可權配置。
		上下遊許可權探測	如果下遊資料來源無法連通，則作業無法啟動。建議您檢查下遊服務許可權配置。
		啟動速度分析	如果作業JAR包過大，則作業啟動慢。建議您壓縮JAR包後重新上傳或耐心等待。
		JobGraph檢查	由於產品老版本存在設定檔丟失的隱患，因此作業FailOver後可能會無法恢複。請手動重啟（停止後再啟動）作業解決。
		Session叢集檢查	由於產品老版本存在Session叢集異常的隱患，因此作業狀態可能會顯示異常。
	運行	HA狀態檢查	如果作業未開啟HA，則作業FailOver無法正常恢複。請重新上線作業並手動重啟（停止後再啟動）作業解決。
		Checkpoint檢查	由於產品老版本存在CheckPoint功能異常的隱患，因此Checkpoint可能會失敗。
		上下遊許可權探測	如果TCP連接埠探測正常，但Connector無法連通，作業無法啟動。建議您檢查上下遊服務許可權配置。
		作業運行狀態檢查	作業的TaskManager發生記憶體溢出，導致作業Failover，請檢查作業配置，嘗試調大TaskManager記憶體。
	停止	停止速度分析	由於產品老版本過低的隱患，因此停止作業會比較慢。如果出現作業停止比較慢的情況，請通過手動重啟（停止後再啟動）作業解決。
風險（不影響作業當前運行）	配置	JobGraph檢查	雖然作業目前狀態正常，但系統檢測到產品老版本存在設定檔丟失的隱患，FailOver後無法恢複。請手動重啟（停止後再啟動）作業解決。
		HA狀態檢查	雖然作業目前狀態正常，但系統檢測到由於作業未開啟HA，會導致FailOver後無法恢複，請重新上線作業並手動重啟（停止後再啟動）作業解決。
		版本檢查	雖然作業目前狀態正常，但檢測使用的版本存在重大缺陷。
	運行	Checkpoint檢查	作業目前狀態雖正常，但檢測到由於產品老版本存在Checkpoint異常的穩定性隱患。
		Checkpoint檢查	作業目前狀態雖正常，但檢測到Checkpoint已長時間未做成功。
		停止速度分析	作業目前狀態雖正常，但檢測到由於產品老版本存在停止作業慢的隱患，請通過手動重啟（停止後再啟動）作業解決。
		作業運行環境分析	作業所在機器出現異常導致作業Failover，平台會自動修複，您無需手動處理。作業所在機器升級過程，可能存在分鐘級的Failover，Failover成功後會自動回復，您也可以在升級前手動重啟（停止後再啟動）作業，來提前規避。作業所在機器存在硬體故障，將在一段時間後自愈，屆時您的作業將會發生一次Failover。您可以手動重啟（停止後再啟動）作業，來規避自愈產生的Failover。
		作業運行版本檢測	版本已到EOS（服務與支援中止），可能存在穩定性問題或無法得到有效產品支援。詳情請參見空間管理與操作。

Realtime Compute for Apache Flink：作業智能診斷