全部產品
Search
文件中心

DataWorks:MaxCompute表資料

更新時間:Jul 01, 2024

建立MaxCompute資料來源並綁定至DataWoks資料開發後,您可以直接在資料地圖進行MaxCompute表的相關操作。包括資料檢索、資料預覽、查看中繼資料詳情、查看資料血緣關係、分類分組管理資料表等操作。本文為您介紹如何在資料地圖查看和管理MaxCompute表。

前提條件

建立MaxCompute資料來源並綁定至DataWoks資料開發,綁定後DataWorks會面向引擎自動採集中繼資料,系統將一次性全量採集存量的中繼資料,同時每天採集增量的中繼資料,並彙集至資料地圖。由系統自動營運中繼資料採集器,您無需額外管理中繼資料採集器。

說明

若在資料地圖中,沒有找到目標表,您可進入我的資料 > 我的工具 > 重新整理表中繼資料,手動同步相關表。

進入資料地圖

登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

尋找表

在左側功能表列,單擊image。進入尋找表的頁面。支援您在搜尋方塊中輸入表名、表描述等尋找該資料來源中包含關鍵字的所有表,您還可以單擊左側欄位類目,在輸入框中輸入欄位名稱、欄位描述等關鍵字搜尋該資料來源中包含關鍵字的所有欄位。同時還可以通過表所在類目、專案或資料庫進行表過濾。類目配置請參見類目導航管理:組態管理

對於搜尋結果,您可以執行如下快捷操作:

  • 申請許可權:您可以在資訊安全中心申請表許可權,並在資料地圖查看申請記錄。詳情請參見申請和管理表許可權

  • 加入專輯:您可以將當前表添加到目標資料專輯,在目標資料專輯詳情頁面中進行表管理。詳情請參見業務視角管理:資料專輯

  • 收藏表:您可以收藏或者移除最愛不需要的表。

  • 查看血緣:單擊後,您可以查看該表基於調度作業、資料同步等實際資料流轉情況解析得出的表和表、欄位和欄位之間的血緣關係,暫不包含臨時查詢等手動操作產生的血緣關係。詳情請參見查看血緣資訊

  • 查看DDL:單擊後,在產生DDL語句對話方塊中,查看或複製當前表的建表語句。

查看錶詳情

在尋找到的表結果清單中,單擊目標表名稱,即可進入表詳情頁面查看錶詳細資料:

image.png

功能

說明

相關文檔

快捷操作

您可以在頁面上方對錶進行申請許可權、將表加入資料專輯/查看專輯收藏表、在資料服務頁面產生API、在SQL查詢頁面通過編寫SQL語句進行資料查詢與分析等操作。

表基礎資訊

您可以在表基礎資訊地區查看錶的瀏覽次數讀取次數收藏次數生命週期

審批負責人Table Owner表類型等資訊。

查看錶基本資料

表模型資訊

用於查看當前模型表所屬的數倉分層、業務分類、儲存策略等資訊。

單擊查看模型,即可進入智能資料建模 > 維度建模頁面,查看建立的模型表。您可以在表編輯頁面,修改表資訊、發行資料表、查看錶的動作記錄或進行表模型的資料開發。

說明

僅DataWorks智能資料建模產生的表會顯示模型資訊。

維度建模概述

表許可權資訊

用於查看您當前擁有的表許可權,您可以單擊點擊查看,進入表許可權申請頁面申請許可權。

申請和管理表許可權

表技術資訊

用於查看DDL最後變更時間最後資料變更時間最後查看時間

說明

最後查看時間:

  • 統計的為表的最後訪問時間,其訪問包括手動執行命令訪問該表資料和任務調度情境下訪問該表資料。

  • 此資料僅供參考,不能百分之百精確反映該資料的真實訪問時間。

  • 此資料為離線統計,有T+1的延遲。

-

明細資訊

用於查看錶的欄位資訊分區資訊變更記錄

查看明細資訊

產出資訊

如果表的資料會隨著對應的任務周期性發生變化,您可以單擊產出資訊,查看該表對應的生產任務的運行資訊。此資料為離線統計,有T+1的延遲。

-

血緣資訊

用於查看引擎節點內部或引擎節點間的血緣關係,您也可以查看當引擎作為資料來源時,與產出的資料介面API之間的血緣關係。此外,MaxCompute還支援基於離線同步的完整鏈路血緣查看。此資料為離線統計,有T+1的延遲。

說明

如需從API視角查看上遊(資料來源)和下遊(APP)的完整端到端血緣鏈路,請參考查看API詳情

查看血緣資訊

使用說明

您可以進行編輯查看歷史版本查看markdown文法等操作,根據資料的業務說明瞭解相關的資訊。

-

資料品質

為您展示當前表配置的資料品質監控規則詳情及DQC警示列表,您可以單擊右側的配置規則跳轉至資料品質頁面為表配置品質監控規則。

配置規則:按表(單表)

使用記錄

通過頻繁關聯訪問統計維度為您展示表的使用記錄。

  • 頻繁關聯:為您展示有多少人在使用當前的表資料。

  • 訪問統計:通過讀取趨勢圖、欄位熱度明細、讀取TOP人員等表徵圖方式為您展示表的使用記錄。

查看錶的使用記錄

資料預覽

可以預覽當前表中的隨機20條資料。

重要
  • 您需要擁有許可權,才可以預覽生產環境的表。如果沒有許可權,請參見申請表許可權進行申請。

  • 如果表所在工作空間在專案管理配置開啟了表預覽許可權,即使沒有在資訊安全中心申請表查詢許可權,同樣可以在此處預覽資料。

  • 如果您已配置資料脫敏規則並設定資料脫敏規則為生效狀態,那麼資料脫敏規則也會在資料預覽頁面生效。關於資料脫敏規則配置方法,詳情請參見建立資料脫敏規則

  • 暫不支援MaxCompute外部表格和包括JSON欄位類型的MaxCompute表的資料預覽。

-

進行資料探查

資料探查通過分析資料的結構和取值,為您展示資料的統計資訊和分布情況等探查結果。

說明
  • 資料探查將會產生資料品質執行個體費,您可以在資料品質任務查詢面板中,查看該表關於此次探查的日誌。

  • 資料探查目前僅支援在上海地區使用。

查看資料統計資訊和分布情況

查看錶基本資料

您可以在表詳情頁左側的表基礎資訊地區查看錶的瀏覽次數讀取次數收藏次數等資訊。

  • 瀏覽次數:統計30天內在資料地圖瀏覽此表詳情頁的次數,此資料為離線統計,有T+1的延遲。

  • 讀取次數:統計近30天內生產環境發起的讀取MaxCompute表的任務計數,讀取表的任務類型包括但不限於SQL、Tunnel Download、Data Integration等。目前僅統計與調度相關聯任務的表讀取次數,非DataWorks任務的表讀取次數將不會被統計。此資料為離線統計,有T+1的延遲。

  • 收藏次數:表被收藏的人次,為即時統計的資料。

  • 儲存量:統計的為表的邏輯儲存大小,此資料為離線統計,有T+1的延遲。

  • 產出任務:寫入當前表的DataWorks周期調度任務ID。若表被周期更新,但沒有展示任務ID,可能是非DataWorks周期調度任務寫入,詳可諮詢表負責人。此資料為離線統計,有T+1的延遲。

    說明

    若無許可權查看產出任務的任務代碼,則請聯絡對應任務所在工作空間的管理員進行相關授權,詳情請參見開啟安全隔離代碼和日誌

查看明細資訊

單擊明細資訊,查看錶的欄位資訊分區資訊變更記錄

  • 欄位資訊

    您可以查看錶的欄位資訊,如果該表為分區表,您還可以查看分區欄位資訊

    操作

    描述

    編輯

    單擊後,您可以編輯欄位的描述業務描述安全等級主鍵,並儲存取消編輯的內容。您也可以選中多個欄位,大量設定安全等級。

    說明
    • 空間管理員及表Owner支援編輯表欄位。如果目標使用者需要編輯表欄位,則可授權空間管理員許可權,詳情請參見全域級模組許可權控制

    • 僅單獨設定欄位安全等級的表,會顯示安全等級

    • 在MaxCompute引擎開啟欄位安全等級功能後,才可以在此處設定表欄位的安全等級。開啟安全等級功能,詳情請參見Label許可權控制

    大量編輯安全等級

    用於大量設定表欄位的安全等級,提升資料的安全性。

    上傳

    單擊後,拖拽本地需要上傳的資料至批量上傳欄位資訊對話方塊中。

    說明
    • 空間管理員及表Owner支援上傳資料至目標表。如果目標使用者需要上傳資料,則可授權空間管理員許可權,詳情請參見全域級模組許可權控制

    • 僅支援上傳.xlsx(Excel 2007版本)格式的檔案,您也可以下載模板檔案

    • 智能建模產生的模型表不支援此功能。

    下載

    單擊後,直接下載當前表的欄位資訊。

    產生select

    單擊後,在產生select語句對話方塊中,查看或複製當前表的select語句。

    產生DDL

    單擊後,在產生DDL語句對話方塊中,查看或複製當前表的建表語句。

    說明
    • 欄位熱度:統計資料為前一天該欄位在SQL中參與join的次數,次數按比例轉換為星級,熱度最高為5星,最小為0星。

    • 關聯指標:展示欄位關聯的模型指標。如需建立或更新關聯關係,請進入維度建模,在目標表的編輯頁面中,通過欄位管理來維護欄位與指標的關聯關係,發布建模表後,關聯關係即可生效。

  • 分區資訊

    查看當前表的分區名記錄數邏輯儲存大小等分區資訊。

    說明
    • 分區記錄數和大小僅供參考。資料更新可能有延遲,實際以引擎側為準。

    • 如果是MaxCompute Transactional表,暫不支援查看記錄數,固定顯示為-1,請以SELECT COUNT(*) FROM <表名> WHERE <分區>;命令查詢結果為準。

  • 變更記錄

    查看當前表的變更描述變更類型粒度等變更記錄。

    您可以在變更記錄頁簽的左上方,從變更類型列表中,選擇需要查看其變更記錄的變更類型。

查看血緣資訊

血緣資訊是基於解析調度作業、資料同步等真實資料的流轉情況,得出的表和表、欄位和欄位之間的血緣關係。在血緣資訊頁面,您可查看錶或表欄位的上下遊,查看錶未經處理資料來源及表資料最終流向的資料庫相關資訊。同時,也可根據需求進行不同層級血緣的影響分析。

說明
  • 僅DataWorks標準版及以上版本才可查看血緣資訊。

  • 表和欄位血緣是通過解析調度作業等真實資料的流轉情況,得出不同表及不同欄位間的血緣關係,該操作為離線統計,存在T+1的延遲。

  • 血緣資訊暫不支援通過臨時查詢等手動操作產生的血緣關係。

  • 若資料地圖無法正常展示通過PyODPS節點執行SQL產生的資料血緣關係,則您可在PyODPS任務代碼處通過手動設定DataWorks調度啟動並執行相關參數解決。詳情請參見開發PyODPS 3任務開發PyODPS 2任務

  • 查看錶血緣

    表血緣頁簽,您可查看當前表的血緣關係詳情。主要包括:

    • 查看當前表血緣關係中各節點的上下遊節點個數。滑鼠移至上方至表或任務類型,即可查看該表或任務類型的基本資料、日誌、代碼等。

    • 在血緣圖中的輸入框輸入關鍵詞,展示當前表下遊節點中包含該關鍵詞的所有表;也可輸入@+帳號名稱,展示當前表下遊節點中該帳號名下的所有表。

    • 根據業務需求單擊血緣圖中的image.pngimage.png,展開或收合相應的上下遊節點。

  • 查看欄位血緣

    欄位血緣頁簽,您可查看目標欄位的血緣關係詳情。主要包括:

    • 可根據業務需求在切換欄位地區切換當前表中的欄位,查看所選欄位對應的欄位血緣圖。

    • 查看當前欄位血緣關係中各節點的上下遊節點個數。滑鼠移至上方至欄位或任務類型,即可查看該欄位或任務類型的基本資料、日誌、代碼等。

    • 在血緣圖中的輸入框輸入關鍵詞,展示當前欄位下遊節點中包含該關鍵詞的所有欄位;也可輸入@+帳號名稱,展示當前欄位下遊節點中該帳號名下的所有欄位。

    • 根據業務需求單擊血緣圖中的image.pngimage.png,展開或收合相應的上下遊節點。

  • 影響分析

    若當前表的表結構或表資料發生變化,均會對下遊節點產生影響,可通過影響分析查看當前表存在哪些下遊表,提前預知變更操作可能影響到哪些表。您可以在該頁面根據血緣層級、任務類型、表類型等資訊進行篩選,展示所分析的血緣層級中合格下遊表,並支援下載分析結果至本地。

    說明

    最多支援分析50層表血緣層級。

查看錶的使用記錄

通過頻繁關聯訪問統計維度為您展示表的使用記錄

  • 頻繁關聯:為您展示有多少人在使用當前的表資料。

    說明

    統計30天內作為關聯條件參與計算的次數,此資料為離線統計,有T+1的延遲。

  • 訪問統計:以圖表方式為您展示表的使用記錄。

    • 讀取趨勢圖:折線圖上日期對應的為日期當天的讀取次數,區分是從開發環境還是生產環境進行讀取;欄位關聯次數與任務執行次數和該欄位在代碼中出現的次數相關,此資料為離線統計,有T+1的延遲。

      例如:如果在同一個任務中欄位出現1次,如果任務執行2次,統計次數便為2次;如果欄位在代碼中出現2次,那麼一次任務運行,其欄位統計次數便為2次。

    • 欄位熱度明細:欄位在SQL中的使用次數(where、select、join、groupBy)的統計資訊。此資料為離線統計,有T+1的延遲。

    • 讀取Top人員:統計近30天內,在SQL中對錶的讀取人員的統計資訊(包含調度使用的生產帳號和個人帳號的訪問),其讀取內容包括對欄位的where、select、join、groupBy等操作。此資料為離線統計,有T+1的延遲。

查看資料統計資訊和分布情況

資料探查通過分析資料的結構和取值,為您展示資料的統計資訊和分布情況等探查結果。

說明

資料探查的使用限制如下:

  • 僅支援探查分區表。

  • 僅支援探查生產環境的表。

  • 僅表的所有者有許可權開啟自動探查功能。

  • 僅上海地區支援使用該功能。

單擊資料探查,設定探查方式並查看探查記錄。資料探查提供手動探查自動探查兩種方式:

  • 手動探查:配置手動探查任務的操作如下:

    說明

    探查任務運行在當前表所在的MaxCompute專案下,單表探查僅支援10列。為最佳化資源,請僅勾選需要探查的列。

    1. 資料探查頁簽下,單擊手動探查

    2. 手動探查對話方塊中,配置各項參數。

      • 分區取值列表中,選擇需要探查的分區。

      • 詳細配置,選中需要探查的列。

      • 根據上述配置,預估運行探查任務所需要的費用。

        重要
        • 資料探查需要執行MaxCompute SQL語句,會帶來一定的MaxCompute計算費用。該頁面的預估費用僅為參考,實際費用受處理的資料量影響,會有波動,請以MaXCompute賬單為準。

        • 資料探查複用資料品質產品能力,將會同時產生資料品質執行個體費用,此部分費用由DataWorks收取,詳情請參見:計費簡介

    3. 選中我瞭解資料探查服務需要收費,單擊提交

    4. 待探查結束,在資料探查頁簽下,查看探查結果。

      您可以從探查記錄列表中,選擇需要查看的探查結果。其中資料分布 > 值範圍是對某個欄位的資料值分布的階段進行統計。

  • 自動探查:配置自動探查的操作如下:

    1. 開啟自動探查開關。

    2. 自動探查(當分區資訊發生變化時進行探查)對話方塊中,配置各項參數。

      • 詳細配置,選中需要探查的列。

      • 觸發綁定列表中,選擇需要關聯的調度節點觸發自動探查。您可以在營運中心尋找調度節點的ID,建議您選擇當前表對應的產出任務。

        選擇需要探查的指標並提交自動探查後,探查任務會在關聯的調度任務運行完成後再運行,針對最新的分區進行探查。

      • 根據上述配置,預估運行探查任務所需要的費用。

    3. 選中我瞭解資料探查服務需要收費,單擊提交

    4. 待探查結束,在資料探查頁簽下,查看探查結果。

      您可以從探查記錄列表中,選擇需要查看的探查結果。

申請和管理表許可權

您可通過DataWorks資訊安全中心申請MaxCompute表的查詢與操作許可權,並在資料地圖查看申請記錄。

  • 申請表許可權

    1. 進入表詳情頁面,單擊申請許可權

      image.png

      說明

      如果表被隱藏,則不會顯示申請許可權按鈕。

    2. 預設進入新版資訊安全中心的許可權申請頁面。詳情請參見MaxCompute資料存取權限控制

  • 管理表許可權

    1. 資料地圖左側功能表列,單擊我的資料

    2. 在左側導覽列,單擊許可權管理

      您可以在許可權管理頁面申請函數和資源許可權,並查看待我審批申請記錄我已處理的。您可以設定許可權有效期間,超過申請許可權時間長度時,系統將自動回收該許可權。詳情請參見查看和系統管理權限

管理MaxCompute表

使用資料專輯管理表

您可以將當前表加入目標資料專輯中,在目標資料專輯詳情頁面進行表管理,或者查看當前表已經加入的相關資料專輯。詳情請參見業務視角管理:資料專輯

配置類目導航管理表

您可以在資料地圖左側功能表列單擊組態管理>類目管理配置,配置類目導航對MaxCompute表進行管理。詳情請參見類目導航管理:組態管理