全部產品
Search
文件中心

Data Lake Formation:中繼資料遷移

更新時間:Jul 13, 2024

中繼資料遷移提供可視化的中繼資料遷移能力,可以幫您快速的將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。

前提條件

  • 支援Hive版本:2.3.x 版本。

  • 支援中繼資料庫類型:MySQL。

建立中繼資料遷移任務

建立遷移任務

  1. 開啟資料湖構建控制台

  2. 選擇左側菜單“中繼資料-中繼資料遷移”。

  3. 單擊建立遷移任務,開始配置中繼資料遷移任務。

建立遷移任務

源庫配置

  • 中繼資料庫類型:目前僅支援MySQL類型。

  • MySQL類型:

    • Aliyun RDS:阿里雲官網提供的RDS,可參考雲資料庫RDS MySQL 版

    • 其他MySQL:EMR內建MySQL、自建MySQL或其他MySQL資料庫。

  • 如果選擇為Aliyun RDS,則需要填寫RDS執行個體相關資訊:

    • RDS執行個體。

    • 中繼資料庫名稱。

    • 使用者名稱。

    • 密碼。

    源庫配置

  • 如果選擇為其他MySQL,則需要填寫MySQL串連的相關資訊:

    • JDBC URL。

    • 使用者名稱。

    • 密碼。

源庫配置-其他MYSQL

  • 網路連接配置

    • 當MySQL類型=Aliyun RDS時,此時網路連接方式僅可選擇“阿里雲VPC”。當您選擇VPC串連時,建議選擇與RDS或MySQL匹配的VPC,vSwitch與安全性群組,避免網路出現問題。

    網路連接-RDS-阿里雲VPC

    • 當MySQL類型=其他MySQL時,此時網路連接方式可選擇“阿里雲VPC”,“公網串連”兩種方式。

    網路設定-其他MySQL

說明

當您選擇公網串連時,請確保公網MySQL允許遠端存取,並且連接埠對Elastic IP Address 121.41.166.235 放開(DLF中繼資料遷移會使用該IP訪問您的MySQL)。

遷移任務配置

  • 任務名稱:輸入中繼資料遷移任務的名稱。

  • 任務描述(可選):輸入您的一些任務備忘資訊。

  • 衝突解決方案策略:

    • 更新舊的中繼資料:舊資料不會被刪除,在原有基礎上更新中繼資料。

    • 重建中繼資料,即先刪除舊的中繼資料後再建立:舊資料將會被全部刪除,重新同步中繼資料並建立。

  • 日誌存放路徑:所有任務日誌將會存放的OSS位置。

  • 同步對象:包括Database、Function、Table、Partition 四種對象,一般為全選。

  • Location替換:適用於遷移過程中需要對table/database的location進行替換修改的情況。比如從傳統HDFS架構,遷移到OSS存算分離架構,則需要將hdfs://路徑,替換為oss://路徑等情況。

遷移任務配置

儲存任務

確認任務配置資訊無誤,單擊確定按鈕,建立任務完成。

確認中繼資料遷移任務資訊

運行中繼資料遷移任務

  • 單擊每行遷移任務右側操作“運行”,運行當前中繼資料遷移任務。

中繼資料遷移列表

  • 任務開始運行中,此時單擊右側 “停止”操作,可以停止當前任務。

中繼資料遷移運行中

  • 單擊右側操作 “運行記錄”,可以查看啟動並執行詳情資訊。

中繼資料遷移-運行歷史

  • 單擊查看日誌,可以查看運行中的日誌資訊。

中繼資料遷移-運行歷史-查看日誌

  • 中繼資料遷移完成後,可以從日誌中看到成功或者失敗的結果資訊。

中繼資料遷移-運行歷史-查看日誌-成功

驗證中繼資料同步結果

  • 在中繼資料管理-中繼資料庫中,查詢期望同步的資料庫資訊,可以查詢到相應的資料庫資訊。

中繼資料管理-中繼資料庫校正

  • 在中繼資料管理-中繼資料表中,查詢期望同步的資料表資訊,可以查詢到相應的資料表資訊。

中繼資料管理-中繼資料表-校正