DLA不僅支援使用定義好的警示模板對所有作業進行監控警示,還支援對單個作業進行監控警示。本文介紹如何針對特定的作業進行監控警示。
前提條件
- 您已經成功購買DLA虛擬叢集。
- 如果您是RAM使用者,請確認已具備AliyunARMSFullAccess許可權。
- 您已經成功建立了Spark作業。如何建立Spark作業,請參見建立和執行Spark作業。
指定作業延時觸發警示
通常情況下,選擇了作業延時的模板,只要有作業延時就會警示。如果您需要精確地針對特定虛擬叢集的特定作業進行監控警示,可以在建立警示頁面選擇Spark Structure Streaming作業處理延時大於10秒模板,按下面的文法修改警示運算式。
spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > $(latency_sec)
說明 如何進入建立警示頁面請參見添加警示。
警示運算式中的參數說明如下。
參數名稱 | 參數說明 |
vcName | 作業相關的虛擬叢集名稱。 |
job_id | 作業ID。 |
latency_sec | 作業處理延時時間,以秒為單位。 |
說明 關於警示的更多資訊,請參見管理警示。
指定作業停止觸發警示
通常情況下,選擇了作業停止的模板,只要有作業停止就會警示。如果您需要精確地針對特定作業進行監控警示,可以在建立警示頁面選擇Spark作業停止模板,按下面的文法修改警示運算式。
sum by (parent_job) (label_replace(up{pod_name=~"${job_id}.*-driver"}, "parent_job", "$1", "pod_name", "(.*?)-(.*)")) < 1
說明 如何進入建立警示頁面請參見添加警示。
警示運算式中的參數說明如下。
參數名稱 | 參數說明 |
job_id | 作業ID。 |
說明 關於警示的更多資訊,請參見管理警示。