在DataWorks執行個體任務中,E-MapReduce(簡稱EMR)計算引擎任務會被分為若干作業有序執行。您可以使用DataWorks的引擎營運功能,查看各個E-MapReduce作業的詳細資料,及時尋找並清理運行有誤的作業,避免該類作業阻塞下遊任務,影響執行個體任務的正常運行。
使用限制
注意事項
部分EMR組件任務運行時支援複用YARN應用程式(即YARN Application),複用後,在DataWorks不同功能模組運行該任務,引擎營運頁面中的作業ID(即Application ID)相同。
例如,EMR Kyuubi組件的共用層級kyuubi.engine.share.level
預設設定為USER
,即以使用者為單位,每個使用者擁有一個引擎,該使用者發起的所有引擎作業共用一個Application ID。EMR Kyuubi任務在DataWorks的資料開發執行後會產生一個Application ID,此時,再前往資料分析執行該任務,該任務在引擎營運頁面不會產生新的Application ID,而是複用資料開發作業的Application ID。不同EMR組件的特性存在差異,具體請以實際介面為準。
引擎營運頁面僅會展示首次在DataWorks運行EMR作業時產生的Application ID。
EMR作業對應的DataWorks執行個體運行完成(即成功或失敗)後,YARN Application可能還會處於運行中(RUNNING)狀態。例如,Kyuubi通常由會話閑置逾時時間
kyuubi.session.engine.idle.timeout
決定YARN Application是否會繼續保留一段時間,kyuubi.session.engine.idle.timeout
配置為PT30M
,表示EMR Kyuubi作業運行完成後,YARN Application仍會保留30分鐘。您可進入EMR on ECS控制台,查看對應服務的配置。
前提條件
已將EMR叢集註冊至DataWorks工作空間,且在DataWorks中運行相關EMR任務。
註冊叢集:請參見註冊EMR叢集至DataWorks。
運行EMR任務:請參見DataWorks On EMR使用說明。
進入引擎營運
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入營運中心。
在左側導覽列,選擇
,進入E-MapReduce引擎營運頁面。
查看引擎作業
E-MapReduce引擎營運頁面,為您展示了當前地區所有DataWorks工作空間中建立的E-MapReduce作業,您可查看作業詳情並按需執行相關營運操作。
篩選指定E-MapReduce作業(地區1)
在E-MapReduce引擎營運頁面的頂部功能表列,您可根據不同條件(例如,作業ID、作業類型)進行篩選,快速搜尋目標作業。
說明引擎營運頁面預設為您展示最近三天的引擎執行個體資料。
DataWorks執行個體ID僅支援使用營運中心的執行個體ID搜尋。通過作業ID或DataWorks執行個體ID搜尋時,僅支援查詢近7天的工作執行個體。
執行E-MapReduce作業相關操作(地區2)
在該地區,您可查看所選作業的詳細資料,並按需執行營運操作。
功能
描述
查看作業詳情
您可查看E-MapReduce作業的基本資料,包括作業ID、作業狀態、已耗用時間、作業來源、作業所屬DataWorks執行個體等。
作業狀態說明如下:
NEW:表示作業剛建立。
NEW_SAVING:表示正在儲存作業。
SUBMITTED:表示作業已提交執行申請。
ACCEPTED:表示發送器已接受作業的執行申請。
RUNNING:表示作業正在運行。
說明如果目標作業長期處於運行狀態,您可以手動終止運行目標作業的DataWorks執行個體任務,防止運行有誤的作業長期佔用資源,阻塞下遊任務。
FINISHED:表示作業已運行結束。
SUCCESSED:表示作業運行成功。
FAILED:表示作業運行失敗。如果作業呈現該狀態,需及時識別並處理相關報錯,以免阻塞下遊作業,影響任務的正常運行。您可單擊作業ID或所屬DataWorks執行個體ID,進入相應任務詳情介面,處理報錯。
KILLED:表示作業的執行者或管理員終止了作業的運行。
DataWorks執行個體ID:
不同E-MapReduce作業所屬的DataWorks執行個體ID可能相同,但如果不同作業的運行開始時間不同,則會認為該作業屬於不同的DataWorks執行個體任務。您可通過作業所屬的DataWorks執行個體ID判斷任務是否屬於同一個DataWorks執行個體任務。
說明部分DataWorks功能模組(例如,資料品質、資料開發、資料分析)觸發的任務沒有執行個體ID,平台會展示為中劃線(-)。
EMR作業類型:僅支援查看MAPREDUCE及SPARK類型的作業。
已耗用時間排序:您可對開始時間或結束時間,進行升序或降序排列,直觀地查看作業的運行先後順序及運行時間長度,瞭解目標作業的運行情況。
作業來源:為您展示運行E-MapReduce作業的DataWorks功能模組。您可在操作列前往相應模組查看任務詳情。
隊列使用率(%):運行當前作業使用的隊列容量佔比(即運行該任務時,叢集資源管理員YARN為隊列分配的資源比例)。
執行執行個體任務相關操作
終止運行DataWorks執行個體任務
如果E-MapReduce作業長期處於運行狀態,即作業狀態顯示為RUNNING,您可手動終止運行。該類作業往往是由於運行內部出錯,導致作業不能自動終止,防止該作業長時間佔用資源,阻塞並影響其他作業的運行,則需要手動將其停止,及時處理相關報錯。
終止運行單個作業:單擊對應作業操作列的終止運行。
批量終止運行作業:若需終止啟動並執行作業較多,您可勾選目標作業,單擊左下角的終止運行對應的DataWorks執行個體,批量終止作業所在的DataWorks執行個體任務。
重要僅空間管理員、營運角色,以及任務責任人可終止運行執行個體任務。
若多個E-MapReduce作業屬於同一個DataWorks執行個體任務,當終止運行任意E-MapReduce作業時,都會導致DataWorks執行個體任務的運行狀態置為失敗。
當前僅支援對運行中的DataWorks執行個體任務進行終止運行操作。
執行終止運行操作後,目標執行個體任務的狀態將被置為失敗。置為失敗狀態後,當前執行個體任務會阻塞該任務的下遊節點運行。請知悉風險並謹慎操作。
進入功能模組查看任務
單擊任務操作列的模組入口(例如,前往資料開發),即可進入觸發該執行個體任務的DataWorks功能模組,查看任務在該模組的運行詳情。
說明資料分析:僅支援檔案Owner跳轉查看SQL查詢檔案。
資料開發:前往資料開發介面後,當前工作空間的所有開發人員均可查看該任務,但僅支援任務執行者查看對應任務的歷史運行記錄。