全部產品
Search
文件中心

DataWorks:自動營運

更新時間:Feb 11, 2025

自動營運是DataWorks為保障系統持續穩定運行而提供的進階功能。使用者可以將過往處理資料故障的應急經驗,配置為自動營運規則。當滿足規則引發條件時,系統將自動執行營運操作,提升服務穩定性和營運效率,並降低夜間起夜率。

背景資訊

DataWorks的自動營運功能支援自動終止運行執行個體自動重跑

  • 自動終止運行執行個體

    當運行在獨享調度資源群組上的任務觸發了資源群組的自訂監控警示時,使用自動營運規則對資源群組上的部分執行個體執行自動終止啟動並執行操作。例如:當獨享調度資源群組的資源使用率達到80%並且持續10分鐘,則自動終止運行在該資源群組上優先順序為1、3的非周期調度執行個體執行。

  • 自動重跑

    當任務狀態為失敗,且任務本身未設定失敗自動重跑的情況下;或者任務因執行逾時導致失敗時,按照自動營運的自動重跑規則重跑任務。

使用限制

  • 許可權限制:僅支援阿里雲主帳號、擁有AliyunDataWorksFullAccess許可權RAM帳號以及空間管理員管理自動營運規則。

    說明

    滿足自動營運操作條件時,會以規則責任人身份執行營運操作,您可以在執行個體動作記錄中查看執行個體觸發的自動營運操作。

  • 資源群組限制

    • 自動終止運行執行個體類型的自動營運規則僅對運行在獨享調度資源群組上的任務生效,且僅獨享調度資源群組利用率類型的監控規則可觸發自動營運操作。

    • 自動重跑執行個體類型的自動營運規則僅對運行在通用型(Serverless)資源群組上的任務生效。

  • 功能限制

    • 自動終止運行執行個體類型的自動營運規則,多個營運規則支援關聯同一條監控規則。

    • 自動重跑執行個體類型的自動營運規則,一個空間僅支援建立一條。

    • 目前僅支援查看30天內的自動營運規則執行記錄。

進入自動營運

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 營運中心,在下拉框中選擇對應工作空間後單擊進入營運中心

  2. 在左側導覽列,選擇營運助手 > 自動營運,進入自動營運頁面。

營運規則管理

自動營運頁面為您展示已建立的營運規則列表及規則執行記錄資訊,您可以根據需求,執行如下操作。

說明

僅支援阿里雲主帳號、擁有AliyunDataWorksFullAccess許可權RAM帳號以及空間管理員管理自動營運規則。

添加規則

規則管理頁面,單擊右上方的添加規則,按照要求填寫如下資訊:

參數

說明

名稱

輸入建立的營運規則名稱。

責任人

您可以指定規則的責任人。自動營運執行的相關營運動作,會以此處設定的規則責任人身份執行。

營運動作

選擇觸發監控規則時,執行個體需要執行的營運操作。

  • 終止運行執行個體

  • 自動重跑

當前支援終止運行執行個體自動重跑兩個自動營運動作,請根據您選擇的營運動作,參考下文配置相關參數。

自動營運規則需要定義規則引發條件,DataWorks僅對滿足過濾條件的任務執行自動營運操作。您可設定黑名單排除不需要執行營運操作的任務,同時,自動營運規則具體生效邏輯將受到您定義的約束規則限制。

終止運行執行個體

類別

參數

說明

觸發條件

關聯監控規則

選擇需要關聯的監控規則,在滿足監控規則時,將會自動停止運行執行個體。

說明
  • 如需建立監控規則,請參見規則管理

  • 目前僅支援關聯物件類型調度資源群組觸發條件資源群組利用率的監控規則。

過濾條件

資源群組

展示監控規則中設定的資源群組名稱,無需配置。

工作空間

選擇該營運規則生效的工作空間。

執行個體類型

選擇該營運規則對哪些類型的執行個體生效。

調度周期

選擇該營運規則對哪些調度周期的執行個體生效。當執行個體類型選擇周期執行個體補資料執行個體時,需要配置調度周期。

優先順序

選擇該營運規則對哪些優先順序的執行個體生效,數值越大優先順序越高。

狀態

選擇該營運規則對處於哪些狀態的執行個體生效。

黑名單

黑名單

配置即使命中規則也不需要執行自動營運操作的任務。如需添加,請在搜尋方塊中輸入任務名稱或任務ID查詢選擇。

約束規則

生效時段

設定規則生效的起始時間和結束時間。在生效時段內,自動營運規則滿足規則運行條件時,才會執行自動營運操作。非生效時段,即便滿足自動營運規則引發條件,也不會執行自動營運操作。

最大生效次數

設定規則引發的最大次數,即最多執行多少次自動營運規則。

說明

每次執行自動營運規則前,都會檢查是否還滿足觸發條件。如果不滿足,下一次將不會執行自動營運規則。

最小生效間隔

設定規則引發的最小時間間隔。

自動重跑

類別

參數

說明

觸發條件

運行狀態

在滿足如下情況時,將自動重跑指定執行個體。

  • 任務因執行逾時導致失敗。

  • 資料開發節點調度配置中,未設定自動重跑的任務執行失敗。

過濾條件

工作空間

選擇該營運規則生效的工作空間。

執行個體類型

選擇該營運規則對哪些類型的執行個體生效。

任務類型

選擇該營運規則對哪些類型的任務生效。

調度周期

選擇該營運規則對哪些調度周期的執行個體生效。當執行個體類型選擇周期執行個體補資料執行個體時,需要配置調度周期。

優先順序

選擇該營運規則對哪些優先順序的執行個體生效,數值越大優先順序越高。

標籤

選擇該營運規則對關聯了哪些標籤的執行個體生效。

日誌含關鍵字

選擇日誌關鍵字,當任務的日誌中包含了此處選擇的關鍵字時,會觸發自動重跑規則。

當前支援選擇abnormal exit(任務進程啟動失敗或異常退出)和out of memory(任務因運行記憶體不足導致失敗退出)。

說明

僅運行在Serverless資源群組上的任務日誌包含out of memory關鍵字時可觸發自動重跑規則。

黑名單

黑名單

配置即使命中規則也不需要執行自動營運操作的任務。如需添加,請在搜尋方塊中輸入任務名稱或任務ID查詢選擇。

重跑操作

前置操作

如果您的任務是Serverless資源群組計算型任務,可選擇在重跑前增加計算型任務CU

說明

請合理配置每次重跑增加的CU,避免出現資源搶佔而阻塞其他任務運行。

增加CU

在原任務執行消耗CU的基礎上,添加指定CU運行本次重跑執行個體。增加的CU僅用於本執行個體的本次運行。

重跑次數

觸發自動重跑時,最大重跑次數,取值範圍1~10,單位:次。

重跑間隔

重跑間隔時間,取值範圍3~30,單位:分鐘。

約束規則

生效時段

設定規則生效的起始時間和結束時間。在生效時段內,自動營運規則滿足規則運行條件時,才會執行自動營運操作。非生效時段,即便滿足自動營運規則引發條件,也不會執行自動營運操作。

啟用/停用規則

建立規則後預設立即生效,如需使規則停止生效,請單擊目標規則所在行右側的image,設定是否啟用。

管理規則

  • 如需查看規則資訊,請在規則管理頁面,單擊目標規則所在行右側的查看

  • 如需修改規則定義,請單擊查看規則對話方塊下方的修改

  • 如需刪除目標規則,請單擊目標規則所在行右側的刪除,在彈出的對話方塊單擊確認

  • 規則管理頁面左上方的搜尋欄,可以通過輸入規則名稱進行模糊比對來快速尋找目標規則。

查看規則執行記錄

執行記錄頁面,為您展示營運規則的執行情況,包括執行時間、規則責任人及涉及任務數等,如需查看詳細資料,請單擊目標執行記錄右側的查看詳情

說明

滿足自動營運操作條件時,會以規則責任人身份執行營運操作,您可以在執行個體動作記錄中查看執行個體觸發的自動營運操作。

  • 終止運行執行個體的自動營運,執行記錄包含如下內容:

    • 等資源執行個體數/利用率:以水位曲線形式為您展示等資源執行個體數和利用率情況,您還可以將滑鼠移至上方在水位線顯示地區內的任意位置,即可顯示此刻資源執行個體數和利用率情況。

    • 被終止啟動並執行執行個體:為您展示被終止啟動並執行工作清單。

  • 自動重跑的自動營運,執行記錄包含如下內容:

    • 自動重跑的執行個體:為您展示觸發自動重跑的執行個體個數,以及各執行個體的節點名稱業務日期執行個體類型任務類型責任人等。

後續步驟

配置好營運規則後,系統會自動根據營運規則對資源群組使用方式進行監控,資源群組監控詳情請參見資源營運