全部產品
Search
文件中心

MaxCompute:作業營運

更新時間:Nov 16, 2024

MaxCompute作業營運功能支援查看歷史作業和正在啟動並執行作業,方便您瞭解作業運行詳情及分析作業運行時的資源負載情況,協助您對作業進行營運管理。

功能介紹

MaxCompute的作業營運功能支援查看並營運您當前專案下歷史作業和正在啟動並執行作業

  • 如果您是資料開發人員,作業營運功能方便您日常查看作業詳情,及時發現作業的異常情況和問題,對有問題的作業及時進行處理,例如終止或批量終止作業。

  • 如果您是管理員,作業營運功能方便您日常結合配額組查看某時刻的資源負載,合理分配和管理系統資源,提高作業的執行效率和效能。

您可以在MaxCompute管理主控台作業營運頁面通過配置過濾條件式篩選目標作業,實現查看作業詳情、分析作業等功能。具體功能如下:

操作功能

  • 過濾作業

    按照過濾參數對作業進行過濾,篩選出您希望查看的作業,過濾作業參數說明如下。

    過濾作業參數(單擊展開查看參數說明)

    參數

    說明

    時間範圍

    按照時間範圍(開始和結束時間)進行過濾,必選參數。

    說明

    總過濾條件,影響作業統計圖和作業列表。

    輸入的時間有如下兩個含義:

    • 過濾在這個時間範圍內執行完成的作業。

    • 過濾在結束時間這個時間點或往前3分鐘正在啟動並執行作業,會有作業快照資訊,這個時間也稱為作業快照觀測時間。

    預設範圍為最近1小時。時間範圍最長支援7天,最小支援2分鐘。最多可以搜尋最近45天的作業。

    您可以選擇已預置的時間範圍或單擊時間範圍輸入框,在選擇時間面板快速配置時間範圍:

    • 1h:最近1小時。

    • 12h:最近12小時。

    • 1d:最近1天。

    • 選擇具體時間段:在選擇時間面板,選擇需要查詢的年、月、日後單擊選擇時間,選擇時間段。

    專案選擇

    按照MaxCompute專案名稱進行過濾。

    說明

    總過濾條件,影響作業統計圖和作業列表。

    您可以同時選擇多個MaxCompute專案。預設為空白。

    Quota選擇

    按照配額組進行過濾

    說明

    總過濾條件,影響作業統計圖和作業列表。

    僅支援選擇訂用帳戶配額組。預設為空白。

    說明

    查詢隨用隨付作業時,不需要配置該參數。

    更多配額組資訊,請參見計算資源-Quota管理

    作業類型

    按作業類型進行過濾。

    說明

    總過濾條件,影響作業統計圖和作業列表。

    作業類型取值如下:

    • SQL:SQL作業。

    • SQLRT:查詢加速SQL作業。

    • LOT:MapReduce作業。

    • CUPID:Spark或Mars作業。

    • Algo_Task:機器學習作業。

    • GRAPH:圖計算作業。

    Instance ID

    按照MaxCompute作業產生的InstanceID進行過濾,您可以輸入作業的InstanceID精準尋找作業。

    說明

    作業列表的結果進行二次過濾,僅影響作業列表。

    預設為空白。

    更多InstanceID資訊,請參見查看執行個體資訊

    作業Owner

    按照提交MaxCompute作業的帳號進行過濾

    說明

    作業列表的結果進行二次過濾,僅影響作業列表。

    預設為空白。

    不支援模糊查詢,格式必須是完整的帳號名如ALIYUN$xxx或RAM$xxx

    ExtNodeId

    按照運行MaxCompute作業的來源端作業ID進行過濾

    說明

    作業列表的結果進行二次過濾,僅影響作業列表。

    如來自DataWorks的節點ID。更多DataWorks節點ID資訊,請參見配置基礎屬性

    Signature

    SQL作業簽名過濾。

    說明

    作業列表的結果進行二次過濾,僅影響作業列表。

    只有SQL類型作業可用。您可以通過此簽名尋找同一個SQL每次執行的Instances。

    預設為空白。

    最新狀態

    按照作業運行狀態進行過濾。

    說明

    作業列表的結果進行二次過濾,僅影響作業列表。

    作業運行狀態取值如下:

    • Running:正在運行,未結束的作業都處於此狀態。

    • Success:運行成功。

    • Failed:失敗。

    • Cancelled:取消。

    • Submitted:已提交,等待計算資源中。

    預設為不選擇,即所有狀態。

    說明

    這裡的狀態是整個作業的總體狀態,但是作業本身可能會是多並發,每個並發會有不同的子狀態,詳細資料需要進入LogView進行查看,詳情請參見使用LogView 2.0查看作業運行資訊

    智能診斷

    根據作業智能診斷結果標籤進行過濾,預設為不選擇任何標籤。有關智能診斷結果標籤的詳細含義,請參見作業智能診斷

  • 排序作業

    作業篩選結果預設按作業結束時間從高到低排序,未結束的作業會排在最前。支援普通單列排序和進階多列排序。

    • 普通單列排序:對列表中有排序按鈕的列進行升序或降序排列。

    • 進階多列排序:單擊列表右上方的進階排序按鈕,通過添加排序增加多列列名,並指定每列的排序方式為升序或降序,單擊確定實現多列排序。

    說明

    進階排序條件生效時,無法進行普通單列排序,需單擊列表右上方的進階排序按鈕,單擊重設確定後,方可再進行普通單列排序。

  • 查看作業詳情

    您可以在作業列表,單擊目標作業操作列的LogView跳轉至LogView頁面,查看作業啟動並執行狀態、細節結果。

  • 終止作業

    您可以對最新狀態正在運行(Running)狀態的作業,執行終止批量終止操作。

  • 洞察作業

    您可以對單個作業執行洞察操作,以查看作業概覽資訊、資源消耗情況及某時刻計算Quota的資源分派情況,並觸發作業智能診斷操作。

    說明
    • 當前僅支援對SQL作業進行智能診斷。

    • 運行時間長度小於2分鐘或作業類型為SQL、MapReduce、Spark、Mars以外的作業,暫時沒有作業層級資源消耗資料。

作業統計圖

根據過濾條件式篩選的結果,按時間和狀態繪製作業數統計堆疊直條圖,方便您查看作業運行整體情況。

作業統計圖說明(單擊展開查看詳細說明)

不同的時間範圍,每根柱形代表的時間長度不一樣,詳細如下:

  • 時間範圍在24小時內:每個柱形最小時間間隔是2分鐘,柱形個數為自適應,最多24個。

  • 時間範圍大於24小時小於等於48小時:則固定每個柱形時間間隔為2小時,柱形個數為自適應,最多24個。

  • 時間範圍大於48小時小於等於7天:則每個柱形時間間隔為6小時,柱形個數為自適應,最多29個。

其中統計的作業狀態包含:

  • 運行中:快照為Running狀態。

  • 已結束:已經成功、失敗或被終止的狀態。

說明

由於作業快照資料是3分鐘採集一次,因此有些作業可能採集不到快照資料,因此即使是運行中的作業,快照狀態可能也為空白。

支援通過滑鼠拖選圖表進行時間範圍篩選,即把時間段縮短。

作業列表

作業列表即根據過濾條件式篩選的作業結果,主要提供常用的作業資訊方便您進行作業營運。

說明

目前已知如下作業資訊無法採集:

  • 作業快照資料是三分鐘採集一次,因此有些作業快照資料擷取不到,即在採集前三分鐘以內啟動的作業,採集不到快照資料。

  • 通過PAI發起的部分MaxCompute作業(特別是RAM使用者發起的作業)暫時採集不到。

  • 開發人員版(即將停用)專案的作業採集不到。

由於資料處理有一定的頻率,當查看當前時刻的作業列表時,可能會出現一些作業目前狀態Running但LogView裡看作業已經結束,特別是執行時間非常短的作業容易出現此情況,請以LogView裡看到的最新狀態為準。

作業列表參數說明(單擊展開查看參數說明)

列名稱

說明

Instance ID

每個MaxCompute作業都會產生一個Instance,每個Instance又會產生一個對應的Instance ID。同時顯示該作業所屬專案、類型、優先順序資訊。

您可以單擊InstanceID對應操作列的LogView跳轉至LogView頁面,查看作業的具體進度。查看LogView的方法,請參見使用LogView查看作業運行資訊

作業Owner

運行MaxCompute作業的阿里雲帳號。

您可以根據帳號資訊找到作業所屬責任人。如果某個作業佔用資源較多,影響其他任務運行,可以聯絡對應責任人停止作業。停止作業的方法請參見執行個體操作

最新狀態

作業當前最新狀態。

智能診斷

根據作業智能診斷得出結果後所產生的標籤。

提交時間

Instance的提交時間。

開始已耗用時間

作業擷取第一份計算資源的時間。對於已耗用時間過短或不消耗計算資源(如DDL語句)的作業,以作業提交時間替代。預設不顯示,可單擊自訂欄表選項設定顯示。

等待時間長度

作業從提交時間到開始已耗用時間的時間長度。預設不顯示,可單擊自訂欄表選項設定顯示。

運行時間長度

作業從開始已耗用時間到結束已耗用時間的時間長度。預設不顯示,可單擊自訂欄表選項設定顯示。

結束已耗用時間

Instance運行結束時間。

總運行時間長度

作業從提交時間到結束時間總時間長度。

Quota(配額)

作業運行所在的Quota。

快照狀態

作業在觀測時間的狀態。

CPU使用佔比快照

作業在觀測時刻的CPU使用佔比(CPU使用量 / (預留CPU保障+彈性預留CPU)。隨用隨付作業無此資訊,採集不到快照資訊的作業也無此資訊。

記憶體使用量佔比快照

作業在觀測時刻的記憶體使用量佔比(記憶體使用量量 / (預留記憶體保障+彈性預留記憶體))。隨用隨付作業無此資訊,採集不到快照資訊的作業也無此資訊。

CPU累計使用量

作業整個執行過程的CPU消耗總和,單位:100*Core*s

記憶體累計使用量

作業整個執行過程的記憶體消耗總和,單位:MB*s

ExtPlantFrom

作業發起的用戶端。

例如DataWorks,需要發起端發起作業的時候主動傳入資訊。

ExtNodeId

作業發起端對應的任務ID。

例如DataWorks的節點ID,需要發起端發起作業的時候主動傳入資訊。

ExtNodeOnDuty

作業發起端對應的任務負責人帳號ID。

例如DataWorks的節點負責人,需要發起端發起作業的時候主動傳入資訊。

Signature

SQL作業簽名。

可通過此簽名尋找SQL每次執行的Instances。

常用營運情境樣本

查看具體作業運行詳情

  • 營運情境

    您需要查看某個DataWorks小時調度節點發起的作業運行情況或需要對指定的MaxCompute作業進行審計。

  • 操作步驟

    1. 登入MaxCompute管理主控台作業營運頁面。

    2. 根據實際需要設定時間範圍

    3. 單擊搜尋

    4. 在作業列表上方,選擇ExtNodeIdInstance ID參數,填入您作業的實際值。

    5. 單擊image.png按鈕,對作業列表再次過濾。

      您可以在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊

查看某個時段的作業運行詳情

  • 營運情境

    您需要查看負責的Project_1、Project_2兩個專案最近一天執行的作業,並分析哪些作業執行失敗,以便對失敗作業進行處理。

  • 操作步驟

    1. 登入MaxCompute管理主控台作業營運頁面。

    2. 設定時間範圍1d或設定時間範圍為從這一天00:00:00開始到目前時間。

    3. 專案選擇下拉式清單選擇Project_1Project_2

    4. 您可以在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊

查看訂用帳戶Quota某個時間點作業佔用資源情況

  • 營運情境

    您的預付費預設Quota這個Quota當前資源使用的水位很滿,很多作業在等待,您需要查看具體什麼作業在佔用Quota資源。

  • 操作步驟

    1. 登入MaxCompute管理主控台作業營運頁面。

    2. 設定時間範圍1h或自訂開始時間結束時間即觀測時間輸入當前的時間。

    3. 設定Quota選擇參數為預付費預設Quota

    4. 單擊搜尋

      您可以在查詢結果清單中,查看快照狀態Running作業的CPU使用佔比快照記憶體使用量佔比快照,可以查看佔比最大的作業是否滿足業務情況,並通過其他作業資訊輔助決定該作業是否為正常作業或者需要終止(kill)作業。

      說明

      每個作業的更多作業資訊可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊

查看查詢加速作業運行詳情

  • 營運情境

    您想要查看最近一天查詢加速作業的運行狀態和詳情。

  • 操作步驟

    1. 登入MaxCompute管理主控台作業營運頁面。

    2. 設定時間範圍1d作業類型選擇SQLRT(查詢加速)

    3. 單擊搜尋

      在作業列表查看作業基礎資訊,每個作業的更多作業資訊可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊

      說明

      使用查詢加速功能的作業,會出現多個SQL命令在同一個會話(Session)中執行的情況,一個會話對應一個Instance ID,您可以通過Instance ID對應的LogView查看該會話中所有SQL的運行情況。因此在作業營運頁面查看查詢加速作業時,您需要注意:

      • 會話未退出時,即部分SQL已完成,部分SQL還在運行,作業的最新狀態Running

      • 會話到期退出或因為關閉介面退出時,作業的最新狀態Cancelled

查看作業資源消耗情況及某時刻計算Quota的資源分派情況

  • 營運情境

    當遇到作業運行較長時間仍未結束且通過LogView難以定位原因,或作業運行結束後,發現作業運行時間長度達不到預期(作業運行慢),您需要分析是否是因為資源供給導致的。

  • 操作步驟

    1. 登入MaxCompute管理主控台作業營運頁面。

    2. 選擇時間範圍同時配合Quota選擇參數進行過濾,單擊搜尋

    3. 單擊目標Instance ID操作列的洞察,跳轉至作業洞察頁面。

    4. 資源消耗頁簽查看作業生命週期內的資源消耗情況。

      • 資源消耗圖展示作業層級的使用CU與等待CU隨時間的變化曲線圖,以及作業啟動並執行Quota層級的使用CU與等待CU隨時間變化。若發現作業使用CU較低,而Quota層級使用CU較高,甚至持續達到上限,說明Quota資源緊張,有其他作業在與當前作業搶佔計算資源。

      • 您可以通過單擊資源消耗圖橫軸的時間點,查看對應時刻計算Quota層級的資源分派情況,具體為所有運行中等待中的資源分派給的作業數量與優先順序分布,您可以單擊目標優先順序對應的色塊跳轉至作業列表,查看對應作業的詳細資料。以此判斷出具體是哪些作業在與當前作業搶佔計算資源。您可以依據業務情況最佳化任務執行情況,進行作業優先順序調整或計算資源管理,詳情請參見作業優先順序計算資源-Quota管理

下一步

如果您看到某個作業資源使用佔比一直很高且還有很多作業在等待。

  • 如果此作業不符合業務情況,您可以執行終止作業操作。

  • 如果此作業符合業務情況,說明此時Quota資源配置不合理,您需要最佳化資源配置方案,詳情請參見計算成本最佳化

相關文檔

通過命令查看作業資訊、狀態和停止作業等操作,請參見執行個體操作