全部產品
Search
文件中心

Data Lake Formation:資料表-資料概況

更新時間:Nov 20, 2024

為您介紹資料表詳情中“資料概況”的主要功能。

功能說明

在資料表詳情的資料概況標籤頁,基於對中繼資料及儲存資料的統計,為您提供了資料表更加詳細的指標資訊,比如表格儲存體大小、表檔案總數、DDL最後更新時間、資料最後更新時間、訪問次數、分區儲存大小、分區檔案數、分區最後更新時間等資訊。如果您開通了資料湖管理功能,還可以查詢到儲存分層分布統計和大小檔案分布統計資訊。

適用情境

  • 隨著業務逐漸增大,期望能儘快分析出每個表中儲存資料大小,以便更有針對性地進行儲存最佳化,此時結合表格儲存體大小可以解決此類情境。

  • 資料越來越多,期望對訪問頻次不高的資料進行冷歸檔,以節省儲存成本,此時結合訪問次數可以快速區分訪問頻次較低的表。

  • 對於長時間未更新資料的表,期望儘快找到並對其進行清理或最佳化,此時可以結合資料最後更新時間快速定位到相關表。

指標說明

指標名稱

指標說明

指標來源說明

表格儲存體大小

當前表中儲存的所有資料大小

如託管Location給DLF,來源於對OSS資料的統計;否則來源於E-MapReduce引擎stats資料。

表檔案總數

當前表中儲存的所有檔案數量總和

如託管Location給DLF,來源於對OSS資料的統計;否則來源於E-MapReduce引擎stats資料。

分區數量

當前表中分區總數量

從中繼資料統計所得。

DDL最後更新時間

表結構DDL最後更新時間

來源於對OSS資料的統計,需要託管Location給DLF。

最後資料更新時間

資料的最後更新時間

來源於對OSS資料的統計,需要託管Location給DLF。

近1天檔案訪問次數

該表昨天的訪問次數

來源自各計算引擎,目前僅適用於E-MapReduce引擎,適用條件:

  • 僅支援EMR主要版本 >=3.45.1 或 >=5.11.1以上,其他版本需要單獨做gatewayhook升級。請參見EMR Gateway升級EMRHOOK組件

  • 目前僅支援Spark、Hive計算引擎。

  • 每天0:00資料重設,會有10分鐘左右資料延遲。

近7天檔案訪問次數

該表最近7天的訪問次數

近30天檔案訪問次數

該表最近30天的訪問次數

操作說明

  1. 登入資料湖構建控制台

  2. 在左側功能表列,選擇中繼資料 > 中繼資料管理

  3. 單擊資料表頁簽,選擇目標資料目錄庫名,輸入搜尋的表名。

  4. 單擊目標資料表的表名,進入表詳情頁。

  5. 單擊資料概況頁簽。