全部產品
Search
文件中心

Realtime Compute for Apache Flink:查看血緣關係

更新時間:Dec 24, 2024

Flink作業的血緣關係可以進行作業的資料溯源和追蹤、協助您更好地管理和最佳化作業的資料流、快速定位問題和評估影響面。本文為您介紹如何通過作業角度和中繼資料角度查看血緣關係。

背景資訊

在資料的來源和變更歷史無法追蹤的情況下,資料的品質和安全難以保障,且資料的分析和故障排查效率很低。此時,您可以使用資料血緣功能。資料血緣關係描述了資料在來源、處理、傳輸和消費過程中形成的關係,包括中繼資料之間的流向、依賴關係以及中繼資料與流批作業的生產消費關係。在Flink中,我們提供了N層作業的表層級和欄位層級的資料血緣關係的查看和分析能力,具體的優勢詳情如下表所示。

優勢

詳情

提升資料確認效率

通過溯來源資料,可以全面瞭解資料的各個方面,包括作業涉及的產品、資料庫和表情況,表欄位的屬性和關聯關係,資料的來源、經過的處理步驟、傳輸路徑以及最終的消費者。這樣可以協助您更好地理解資料的流向和依賴關係,從而驗證資料的可信度和準確性,更好地管理和分析資料,並提高工作效率。

提升故障排查效率

當資料在處理過程中出現問題時,通過血緣關係,您可以追蹤到問題的根源,快速定位和解決故障,避免業務損失和高昂的人力成本。

提升資料分析效率

當資料資產變更或者出錯的情況下快速定位所影響的線上作業,及時進行處理,避免錯誤決策。

最佳化資料資產成本

通過分析血緣關係,您可以瞭解資料的流轉路徑和依賴關係,從而最佳化資料處理流程,及時下線長期沒有調用的服務,提高資料處理的效率和品質且節省資料成本。

資料血緣模型

完整的血緣系統的資料模型如下圖所示。

圖中包含節點(實體)和邊(關係),實體和關係的組合顯示為資料血緣。

類別

詳情

節點

每個Catalog、資料表、欄位都可以認為是一個資料實體。實體在血緣圖展示中抽象成為節點,血緣關係的節點包含以下兩類:

  • 資料節點:對於儲存資料的介質的抽象,包括中繼資料(Catalog、DB、表、欄位)。

  • 作業節點:對於部署的抽象,一個Flink SQL作業。

關係

生產實體的上遊,以及使用它的下遊,都是對應的實體之間的關係。您可以看到以下血緣關係:

  • 表之間的依賴關係。

  • 表、欄位之間的從屬關係。

  • 生產消費關係:從作業節點指向資料節點的邊,作業生產了該資料節點的資料;從資料節點指向作業節點的邊,作業消費了該資料節點的資料。

使用限制

  • 僅支援查看專案空間內作業和中繼資料間的血緣關係,不支援跨專案空間查看血緣關係。

  • 中繼資料角度查看血緣需要使用Catalog,作業角度查看血緣不依賴Catalog。

  • 僅支援查看和搜尋SQL作業的血緣關係。

  • 僅已部署並啟動一次的SQL作業支援查看血緣關係,作業停止後會維持最後一次血緣關係。

  • 目前僅支援QueryOperation、SinkModifyOperation和CreateTableAsTableOperation三種類型操作,對於CDAS文法以及過濾條件、Join條件等間接血緣,資料血緣資訊無法被追蹤和顯示。

從作業角度查看血緣資訊

作業營運頁面,您可以查看作業節點和資料節點具體的資訊,以及目標作業中表之間的依賴關係,表和欄位之間的從屬關係。

說明

預設會以該作業為中心節點,展示三層血緣關係,即上遊表、中心作業和下遊表。如果您需要再往前或往後追溯血緣情況,可以依次單擊上遊左側或下遊右側的加號。

  1. 登入Realtime Compute控制台

  2. 單擊目標工作空間操作列下的控制台

  3. 營運中心 > 作業營運頁面,單擊目標作業名稱。

  4. 血緣關係頁簽,單擊表層級欄位層級,分別查看錶層級或欄位層級的血緣關係。

    • 表層級

      可以查看節點類型、連接器、Catalog名稱、資料庫名稱、目標表和源表名稱,以及作業ID,作業建立時間、建立者、最近修改時間、最近修改人等資訊。

      image.png

    • 欄位層級

      可以查看錶欄位、欄位類型、表的資料庫名稱、Catalog名稱和連接器,以及作業有關資訊。

      image.png

從中繼資料角度查看血緣資訊

說明

如果Catalog下某個表關聯的作業比較多,血緣關係圖不好查看,您可以通過縮放等功能查看血緣關係圖。也可以開啟置中選中節點開關,開啟後再單擊到目標作業或表,節點會進行自動置中。

  1. 登入Realtime Compute控制台

  2. 單擊目標工作空間操作列下的控制台

  3. 資料管理頁面,左鍵雙擊Catalog下目標資料庫的表名稱。

  4. 血緣關係頁簽,單擊表層級欄位層級,分別查看錶層級或者欄位層級的血緣關係。

    • 表層級

      可以查看目標Catalog的某個表都被哪些作業引用,當該表結構或者資料發生變更時,您可以快速的對被引用的作業進行處理(修改作業代碼或停止作業)。

      雙擊目標作業節點,您可以看到該作業ID、建立和修改資訊。如果您需要快速跳轉到該作業的營運頁面,單擊下圖位置的作業名稱即可。

      image.png

    • 欄位層級

      可以單擊目標欄位,根據淡藍色的實線指引,確定該欄位被哪些作業中的哪個表引用,對應的欄位是哪個。當目標欄位被刪除、名稱或者屬性發生變化時,您可以快速找到被引用的作業及表和欄位,對關聯的表欄位進行相應的處理。

      image.png

通過節點或欄位名稱搜尋查看血緣資訊

當血緣關係圖很複雜時,您可以通過節點名稱或欄位名稱進行模糊搜尋,快速定位目標並查看資訊。

  1. 營運中心 > 作業營運目標作業的血緣關係頁面,在文字框中輸入目標節點名稱或欄位名稱(僅在欄位層級血緣下支援)後,按斷行符號鍵進行搜尋。

    image

    中心節點會由當前作業移動至搜尋目標,並高亮顯示。

  2. 雙擊目標節點或欄位名稱,查看血緣資訊。