全部產品
Search
文件中心

Data Lake Formation:生命週期管理

更新時間:Nov 13, 2024

生命週期管理支援多種類型的生命週期管理規則,通過建立不同的規則,您可以方便的管理資料湖內的資料生命週期,以便節約儲存成本。本文為您介紹生命週期管理規則的基礎操作。

功能說明

您可以通過生命週期管理對資料湖中的資料庫、資料表配置資料管理規則,可以基於資料最後訪問時間、分區值(按時間)、分區/表建立時間、分區/表最近修改時間四種規則類型,對資料定期進行儲存類型轉換,從而節省資料存放區成本。

適用情境說明

資料湖中存在大量資料庫/錶的歷史資料,這些歷史資料隨著時間變化,不再被業務使用,期望轉為成本更低的低頻、歸檔,冷歸檔類型儲存。例如:

  • 訂單表(按pt分區,如pt=20220101),業務訴求為僅分析近3年資料,而歷史分區資料期望轉為冷歸檔,降低儲存使用成本。此類情境,可以配置按分區值規則類型進行定期歸檔。

  • 業務A的資料庫A,因為業務A不再發展,歷史資料暫時封存,可以配置該資料庫的定期轉為冷歸檔,將整個資料庫轉為冷歸檔。

使用限制

  • 中繼資料管理使用資料湖構建(DLF),且資料存放區在OSS中。

  • 暫時無法支援非結構化資料管理,如有這方面需求請參考OSS的生命週期管理。

費用說明

使用生命週期管理功能,涉及兩部分費用,如下:

  1. 資料湖構建(DLF)產品的生命週期管理功能,目前公測中,當前階段免費。

  2. OSS生命週期費用說明,請參考OSS生命週期費用說明

注意事項

  1. 如果資料被轉為歸檔、冷歸檔的資料將無法被計算引擎所訪問,您必須手工對其進行解凍恢複才可繼續使用,且解凍會產生相關費用。詳細介紹參考:

    請您結合自己業務情況,充分評估後,再進行規則配置。

  2. 如果資料被轉為低頻的資料,被計算引擎訪問時效能將會下降。請您結合自己業務情況,充分評估後,再進行規則配置。

  3. 生命規則任務,開啟調度執行時,每天晚上定時執行,在第二天早上8點前生效。手動執行的任務,執行完成後即生效。

操作說明

前提條件

  1. 您已經開通OSS產品,如未開通請前往OSS控制台

  2. 生命週期管理的庫表許可權,受到DLF的資料許可權管控,所以使用者僅能對其許可權內的資料庫/表進行生命週期規則配置。

建立生命週期規則

您可以參考如下步驟建立一條生命週期規則。

  1. 登入資料湖構建控制台

  2. 在左側功能表列,選擇湖管理>生命週期管理

  3. 單擊建立規則,進行規則配置

    1. 填寫基本資料:名稱描述資料目錄資源類型

      資源類型可以選擇庫、表兩種類型,分別對應中繼資料庫、中繼資料表進行生命週期規則配置。

    2. 選擇規則類型,目前DLF支援以下四種規則類型。

      • 資料最後訪問時間:可以實現按照資料最後訪問時間來界定生命週期。如果表有分區,則按最細粒度分區最後訪問時間,否則按表最後訪問時間。

      • 分區值(按時間):可以實現按分區值來界定生命週期。目前只適用於一級分區中包含時間格式的表。

      • 分區/表最近修改時間:可以實現按分區/表最近修改時間來界定生命週期。如果表有分區,則按最細粒度分區最近修改時間,否則按表最近修改時間。

      • 分區/表建立時間:可以實現按分區/表建立時間來界定生命週期。如果表有分區,則按最細粒度分區建立時間,否則按表建立時間。

    3. 選擇轉換至低頻、Archive Storage、冷Archive Storage的時間間隔。

    4. 配置規則執行機制。

      如果您希望DLF每天自動幫您執行當前規則,可開啟調度開關。如果不需要每天自動執行,可建立規則後,在頁面概覽頁手動執行。調度執行會在每天8點前執行完成。

  4. 單擊下一步,選擇要歸檔的中繼資料庫或中繼資料表。

  5. 單擊添加庫資源,選擇需要綁定的資源,支援搜尋和跨頁選擇,單擊添加

  6. 添加資源後,單擊確定,即可看到資源綁定結果。

    如果綁定成功,可看到成功綁定資源數;如果綁定失敗,可看到失敗原因。

    說明
    • 資源類型為庫時,可以綁定庫資源;資源類型為表時,可以綁定表資源。

    • 表規則優先順序大於庫規則,如果某表已經綁定庫規則,則該操作會覆蓋表上的原有庫規則。

    • 每個庫/每個表僅支援同時綁定一個規則。

    • 每個規則最多綁定1000個資源。

    • 支援僅配置規則,後續再為規則綁定資源;直接點擊儲存即可。

編輯生命週期規則

如果您要對當前的生命週期規則進行修改或編輯,可以在列表頁,單擊右側編輯按鈕。

重要
  1. 規則被修改後,如果調度執行是開啟的,其在第二天執行時才會生效。

  2. 規則被修改後,當其再次被執行,將會影響其綁定的所有資源,影響情況如下:

    • 如該資料已經被歷史規則判定轉為低頻/歸檔/冷歸檔,當繼續保持低頻/歸檔/冷歸檔狀態。

    • 如該資料未被轉為低頻/歸檔/冷歸檔,將會按照新規則生效。

查看生命週期資訊

  1. 在左側功能表列,選擇湖管理>生命週期管理

  2. 選擇一條規則,單擊規則ID進入,可以查看規則的當前資訊。

    • 基本資料:包括規則基礎資訊、規則詳情、執行機制。

    • 資源資訊:規則所綁定的庫或表資訊。

    • 執行歷史:規則手動執行、調度執行的歷史資訊。

刪除生命週期規則

  1. 在左側功能表列,選擇湖管理>生命週期管理

  2. 找到想要刪除的生命週期規則,單擊右側的刪除,在彈框中單擊確認

說明
  • 刪除生命週期規則將無法再次被手工執行,以及被調度執行。

  • 刪除生命週期規則後,之前被規則影響的資料將保持目前狀態。

手工執行任務

  1. 在左側功能表列,選擇湖管理>生命週期管理

  2. 找到想要手動執行的生命週期規則,單擊右側的手動執行,仔細閱讀彈出提示後,確認無誤,單擊確定,任務開始執行。

重要

手動執行的操作將會立即執行,並對當前綁定資源的資料產生影響,可能影響業務訪問,請您在執行前提前準確評估風險。

查看任務執行記錄

  1. 在左側功能表列,選擇湖管理>生命週期管理

  2. 單擊執行歷史頁簽,可以對所有歷史執行的歸檔任務進行查詢,並查看執行日誌。

  3. 單擊任務名稱,可以查看任務執行資訊及執行日誌。

表解凍

  1. 在左側功能表列,選擇中繼資料>中繼資料管理

  2. 單擊資料表頁簽,單擊表名稱。

  3. 單擊儲存規則頁簽,DLF產品上支援了表解凍,單擊表解凍,會將儲存類型轉為標準儲存。

  4. 如有更多對儲存的逆向需求,可以按照以下協助文檔操作。