全部產品
Search
文件中心

DataWorks:離線同步任務營運

更新時間:Jun 19, 2024

為確保任務運行無誤,當您在DataStudio中完成任務開發,並發布至生產環境後,您可以進入營運中心管理離線同步任務、監控任務運行狀態、修改同步資源群組和查看任務作業記錄等。本文列舉離線同步任務的常見營運操作。

前提條件

已完成離線同步任務的建立、運行、發布。詳情請參見:通過嚮導模式配置離線同步任務通過指令碼模式配置離線同步任務

使用說明

  • 離線同步任務的營運操作與其他離線調度任務操作一致,本文僅以離線同步典型營運操作為例進行說明,更多關於離線調度任務的營運操作,詳情請參見:周期任務基本營運操作
  • 為確保周期調度的離線同步任務運行無誤,請在任務發布完成後,前往生產營運中心 > 周期任務介面查看生產環境任務配置(任務代碼,任務使用的調度資源群組及Data Integration任務執行資源組)是否符合預期。
  • DataWorks的離線同步任務通過調度資源群組將其下發到Data Integration任務執行資源組上執行,所以離線同步任務除了涉及Data Integration任務執行資源組外,還會佔用調度資源群組資源。如果使用了獨享調度資源群組,將會產生調度執行個體費用。您可通過文檔對該機制進行瞭解,詳情請參見任務下發機制
  • 標準模式工作空間下,存在資料來源隔離機制。
    • 任務發布至生產調度系統前,預設訪問任務配置所用資料來源對應的開發環境指定的資料庫或資料倉儲。
    • 任務發布至生產調度系統後,預設訪問任務配置所用資料來源對應的生產環境指定的資料庫或資料倉儲。
    關於資料來源開發生產隔離機制,詳情請參見:資料來源開發和生產環境隔離

任務調度與管理

離線同步依託DataWorks強大的調度能力,為您實現離線任務的周期性自動調度執行,同時,可以結合DataWorks調度參數,實現增量資料和全量資料寫入到目標表對應分區,離線同步任務的營運操作與其他離線調度任務操作一致,支援手動觸發執行與自動調度執行。
操作說明
運行離線同步任務任務發布至生產環境後,您可以進入生產營運中心 > 周期任務介面查看發行的任務,調度系統會按照調度配置自動運行任務,同時,還支援您手動觸發任務執行。
  • 自動調度:任務發布後,調度系統將會根據您配置的執行個體產生方式產生周期執行個體並自動調度,您可以進入營運中心 > 周期執行個體介面查看執行個體的執行情況。
    說明 任務提交發布生產環境時,是否當天執行任務與您配置的執行個體生效時間有關,詳情請參見執行個體產生方式
  • 手動觸發:任務發布後,您可以對周期任務執行測試或補資料操作,產生測試執行個體與補資料執行個體。
    • 測試操作:用於測試離線調度任務在生產環境的執行情況。
    • 補資料操作:用於對任務執行補歷史資料的操作,詳情請參見:同步歷史資料
暫停離線同步任務調度執行周期任務介面,您可以對單個任務執行暫停(凍結)操作,使周期調度任務在一段時間內停止調度運行,並且阻塞其下遊節點執行。
說明 周期任務運行將產生執行個體,如果某個執行個體及其下遊執行個體不需要執行,您可以凍結該執行個體。
恢複離線同步任務調度執行周期任務介面,您可以對凍結狀態的任務執行恢複(解凍)操作,解凍後的任務將會正常調度運行。
說明 凍結狀態的周期任務運行將產生凍結狀態的執行個體,若凍結的執行個體及其下遊執行個體需要運行,您可以解凍該執行個體。

同步歷史資料

DataWorks的調度參數結合補資料功能,可實現基於一套任務配置,批量將歷史資料同步至目標資料庫或資料倉儲指定表或表指定分區。若您的任務配置為增量同步處理,且需要同步歷史資料至目標表對應分區中,您可以使用補資料功能,調度參數將根據補資料配置的業務日期自動替換為具體的值,關於補資料功能使用,請參見執行補資料並查看補資料執行個體

任務狀態監控

您可以進入營運中心 > 智能監控配置監控規則,監控任務的運行狀態。包括完成、未完成、出錯、逾時等狀態。詳情請參見:智能監控概述

資源群組營運

  • 資源群組監控:您可以在營運中心監控任務運行所用資源群組的使用方式。詳情請參見資源營運
  • 資源群組切換:您可以通過如下方式切換任務使用的資源群組。
    說明 修改資源群組前,請確保待切換的資源群組與資料來源網路已經連通,避免由於資源群組與資料來源網路不通導致任務執行失敗。
    作業環境支援的切換操作介面入口
    切換生產環境資源群組批量切換進入營運中心 > 周期任務介面設定。
    勾選需要修改資源群組的任務,單擊底部功能表列的修改Data Integration資源群組,即可批量修改。批量切換
    切換開發環境資源群組
    說明 開發環境切換資源群組後需要將任務重新提交發布至生產環境。
    • 單個任務切換
    • 批量切換
    進入DataStudio版面設定。
    • 單個任務切換
      進入目標節點的編輯頁面,在右側導覽列的Data Integration資源群組配置中即可修改。修改Data Integration資源群組
    • 批量切換
      單擊大量操作表徵圖,勾選需要修改資源群組的任務,單擊底部功能表列的修改Data Integration資源群組,即可批量修改。大量操作

表資料品質監控

Data Integration部分目標端資料來源支援配置產出表的資料品質監控,您可以進入資料品質規則頁面,對資料同步寫入的目標表配置資料品質校正規則。對於配置了資料品質監控規則的表,當表關聯的調度節點運行(執行節點代碼邏輯)完成後,將會觸發資料品質校正。DataWorks平台將會根據資料品質規則強弱和資料品質規則校正結果決定任務是否由於品質規則校正失敗退出,並阻塞下遊節點執行,防止髒資料影響範圍進一步擴大。Data Integration目標端資料來源是否支援資料品質監控,及資料品質監控的使用詳情請參見資料品質概述

說明 在離線同步任務產出表配置資料品質規則的情況下,請注意任務所使用的調度資源群組與目標資料來源的網路問題。

查看離線任務作業記錄

進入營運中心,待周期執行個體、補資料執行個體、測試執行個體執行完成後,您可以在執行個體DAG面板查看任務作業記錄。詳情請參見:附錄:DAG圖功能介紹
說明 若您需要瞭解日誌執行過程中的相關參數請參見:離線同步處理記錄分析

查看離線資料大屏

您還可以在營運大屏 > 離線同步頁面查看離線同步任務的運行狀態分布、資料同步進度、同步資料量統計、同步任務執行詳情(可基於來源端與目標端資料來源,以及任務是否產生公網等條件過濾目標任務)等運行指標資訊。詳情請參見:查看營運大屏

使用Logview查看任務運行資訊

說明

該功能目前在灰階邀測中,如需使用,請聯絡技術支援人員處理。

Data IntegrationLogView是在Data Integration同步任務中進行埋點採集、分析處理、可視化展現等更加細粒度展示分析同步任務過程的同步速率,日誌等資訊。

  1. 營運中心,找到離線任務的運行執行個體,單擊運行診斷運行診斷
  2. 智能診斷頁面,單擊Data Integration頁簽。Data Integration
    參數描述
    日誌日誌頁面下,可以查看Data Integration同步任務的詳細日誌。

    單擊同步資源群組名稱,還可以查看該資源群組詳情。

    進度進度頁面下,可以查看Data Integration同步任務的詳細進度資訊。包括同步條數同步位元組數同步條數速率同步位元組數速率進度
    您還可以在該頁面執行如下操作:
    • 您可以通過時間篩選框,篩選某段時間內任務的同步資訊。
      說明 時間篩選最多支援查看15天內的詳細資料。
    • 在進程列表右側,單擊自訂欄表徵圖,可以選擇展現更多的列資訊。設定
    • 在進程列表中,可以單擊具體的內容,查看某個指標的曲線變化。曲線
    執行個體瀏覽如果該執行個體是周期執行個體,您還可以在執行個體瀏覽頁面下,查看該執行個體下不同周期各維度對比詳情。
    • 您可以在工作清單中查看該任務的狀態以及對應的執行個體ID,單擊執行個體ID可以查看任務詳情。
    • 您還可以在柱狀圖中對比不同執行個體之間的同步速率同步條數等待時間同步時間長度的差異。

後續:離線同步資料品質問題與同步任務調優

離線同步任務營運常見問題