中繼資料遷移提供可視化的中繼資料遷移能力,可以幫您快速地將Hive Metastore的中繼資料遷移到資料湖構建(DLF)中。
使用限制
支援的Hive版本:2.3.x ,3.1.x 版本。
支援的資料庫類型:MySQL。
建立中繼資料遷移任務
登入資料湖構建控制台。
在左側功能表列,單擊
。在遷移任務頁簽,單擊建立遷移任務。
配置以下源庫資訊,單擊下一步。
參數
說明
資料庫類型
僅支援MySQL類型。
MySQL類型
根據Hive中繼資料類型選擇。
Aliyun RDS:阿里雲官網提供的RDS,可參考雲資料庫RDS MySQL版。需選擇RDS執行個體,填寫資料庫名稱、使用者名稱和密碼。
重要RDS中繼資料僅支援阿里雲VPC串連方式訪問。
其他MySQL:EMR叢集內建MySQL、自建MySQL或其他MySQL資料庫。需填寫JDBC URL、使用者名稱和密碼。
重要建議JDBC URL填寫內網IP,並通過阿里雲VPC串連方式訪問;如果選擇公網串連,則填寫公網IP。
網路連接方式
當前支援阿里雲VPC、公網串連兩種方式。請根據上一步MySQL類型進行配置。
阿里雲VPC:選擇與EMR叢集或RDS匹配的Virtual Private Cloud、交換器vSwitch和安全性群組,避免網路出現問題。
公網串連:當選擇公網串連時,在EMR控制台上添加規則,使EMR叢集3306連接埠(預設)對DLFElastic IP Address開放。
說明添加連接埠詳情,請參見添加安全性群組規則。
各地區DLFElastic IP Address,請參見DLF Region和Elastic IP Address對照表。
配置以下遷移任務資訊,單擊下一步。
參數
說明
任務名稱
輸入中繼資料遷移任務的名稱。
任務描述
可選,輸入您的一些任務備忘資訊。
資料目錄
選擇目標資料目錄。
衝突解決方案策略
更新舊的中繼資料(建議選擇):舊資料不會被刪除,在原有DLF中繼資料基礎上更新中繼資料。
重建中繼資料,即先刪除舊的DLF中繼資料後再建立。
日誌存放路徑
所有遷移任務日誌將被儲存在指定的OSS位置。
同步對象
包括Database、Function、Table、Partition四種對象,一般為全選。
Location替換
可選,適用於遷移過程中需要對table、database的location進行替換修改的情況。比如從傳統HDFS架構遷移到OSS存算分離架構,則需要將
hdfs://
路徑,替換為oss://
路徑等情況。確認任務配置資訊無誤,單擊確定,建立任務完成。
管理中繼資料遷移任務
單擊遷移任務頁簽,在目標遷移任務操作列:
單擊運行:運行當前中繼資料遷移任務。
單擊運行記錄:可查看任務啟動並執行詳情資訊。
單擊編輯:可修改任務的源庫配置和遷移任務配置。
單擊刪除:可刪除遷移任務。
單擊停止:可停止當前運行中的任務。
單擊執行歷史頁簽,單擊目標任務操作列的查看日誌,可查看運行中的日誌資訊。
中繼資料遷移完成後,可以從日誌中看到成功或失敗的結果資訊。
驗證中繼資料同步結果
在左側功能表列,單擊
。單擊資料庫頁簽,選擇資料目錄,輸入同步的資料庫名稱,可以查詢到相應的資料庫資訊。
單擊資料表頁簽,選擇資料目錄和庫名,輸入同步的表名,可以查詢到相應的資料表資訊。
最佳實務
相關資料
DLF Region和Elastic IP Address對照表
Region | Elastic IP Address |
杭州 | 121.41.166.235 |
上海 | 47.103.63.0 |
北京 | 47.94.234.203 |
深圳 | 39.108.114.206 |
新加坡 | 161.117.233.48 |
法蘭克福 | 8.211.38.47 |
張家口 | 8.142.121.7 |
中國香港 | 8.218.148.213 |