全部產品
Search
文件中心

Data Lake Formation:中繼資料遷移

更新時間:Dec 05, 2024

中繼資料遷移提供可視化的中繼資料遷移能力,可以幫您快速地將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。

使用限制

  • 支援的Hive版本:2.3.x ,3.1.x 版本。

  • 支援的資料庫類型:MySQL。

建立中繼資料遷移任務

  1. 登入資料湖構建控制台

  2. 在左側功能表列,單擊中繼資料 > 中繼資料遷移

  3. 遷移任務頁簽,單擊建立遷移任務

  4. 配置以下源庫資訊,單擊下一步

    參數

    說明

    資料庫類型

    僅支援MySQL類型。

    MySQL類型

    根據Hive中繼資料類型選擇。

    • Aliyun RDS:阿里雲官網提供的RDS,可參考雲資料庫RDS MySQL版需選擇RDS執行個體,填寫資料庫名稱使用者名稱密碼

      重要

      RDS中繼資料僅支援阿里雲VPC串連方式訪問。

    • 其他MySQL:EMR叢集內建MySQL、自建MySQL或其他MySQL資料庫。需填寫JDBC URL使用者名稱密碼

      重要

      建議JDBC URL填寫內網IP,並通過阿里雲VPC串連方式訪問;如果選擇公網串連,則填寫公網IP。

    網路連接方式

    當前支援阿里雲VPC公網串連兩種方式。請根據上一步MySQL類型進行配置。

    • 阿里雲VPC:選擇與EMR叢集或RDS匹配的Virtual Private Cloud交換器vSwitch安全性群組,避免網路出現問題。

    • 公網串連:當選擇公網串連時,在EMR控制台上添加規則,使EMR叢集3306連接埠(預設)對DLFElastic IP Address開放。

      說明
  5. 配置以下遷移任務資訊,單擊下一步

    參數

    說明

    任務名稱

    輸入中繼資料遷移任務的名稱。

    任務描述

    可選,輸入您的一些任務備忘資訊。

    資料目錄

    選擇目標資料目錄。

    衝突解決方案策略

    • 更新舊的中繼資料(建議選擇):舊資料不會被刪除,在原有DLF中繼資料基礎上更新中繼資料。

    • 重建中繼資料,即先刪除舊的DLF中繼資料後再建立。

    日誌存放路徑

    所有遷移任務日誌將被儲存在指定的OSS位置。

    同步對象

    包括Database、Function、Table、Partition四種對象,一般為全選。

    Location替換

    可選,適用於遷移過程中需要對table、database的location進行替換修改的情況。比如從傳統HDFS架構遷移到OSS存算分離架構,則需要將hdfs://路徑,替換為oss://路徑等情況。

  6. 確認任務配置資訊無誤,單擊確定,建立任務完成。

管理中繼資料遷移任務

  1. 單擊遷移任務頁簽,在目標遷移任務操作列:

    • 單擊運行:運行當前中繼資料遷移任務。

    • 單擊運行記錄:可查看任務啟動並執行詳情資訊。

    • 單擊編輯:可修改任務的源庫配置遷移任務配置

    • 單擊刪除:可刪除遷移任務。

    • 單擊停止:可停止當前運行中的任務。

  2. 單擊執行歷史頁簽,單擊目標任務操作列的查看日誌,可查看運行中的日誌資訊。

    中繼資料遷移完成後,可以從日誌中看到成功或失敗的結果資訊。

驗證中繼資料同步結果

  1. 在左側功能表列,單擊中繼資料 > 中繼資料管理

  2. 單擊資料庫頁簽,選擇資料目錄,輸入同步的資料庫名稱,可以查詢到相應的資料庫資訊。

  3. 單擊資料表頁簽,選擇資料目錄庫名,輸入同步的表名,可以查詢到相應的資料表資訊。

最佳實務

EMR中繼資料遷移DLF最佳實務

相關資料

DLF Region和Elastic IP Address對照表

Region

Elastic IP Address

杭州

121.41.166.235

上海

47.103.63.0

北京

47.94.234.203

深圳

39.108.114.206

新加坡

161.117.233.48

法蘭克福

8.211.38.47

張家口

8.142.121.7

中國香港

8.218.148.213