通過Catalog、X2Doris、DataWorks和OSS Load,都可以將Hive資料移轉到ApsaraDB for SelectDB。您可依據遷移的資料量和業務情境,選擇合適的方式完成資料移轉。本文為您介紹Hive的離線資料移轉到ApsaraDB for SelectDB的各個方式以及方式選擇規則。
方式選擇
根據不同的業務情境,選擇合適您的遷移方式。具體的方式選擇可以參考如下規則:
方式 | 適用情境 | 推薦原因 | 操作步驟 |
Catalog | 資料存放區在阿里雲平台。 說明 包括阿里雲EMR叢集等情境。 |
| |
OSS Load | 資料未儲存在阿里雲平台。 | 可避免遷移使用的流量費用。 說明 通過OSSLoad從Object Storage Service中將資料移轉到SelectDB。這個過程使用內網流量進行資料移轉,可避免流量費用。 | |
DataWorks | 資料由DataWorks託管,或者DataWorks作為資料開發平台。 | 遷移使用可視化平台,簡單易用。 |
增量資料移轉說明
實際生產環境中,Hive資料主要分為離線資料和增量資料,由於Hive資料移轉到SelectDB,通常的使用情境是拷貝一份資料到資料倉儲進行查詢加速,因此對於增量資料的遷移,可以考慮以下方式:
在生產Hive資料時並行寫入一份資料到SelectDB。
通過周期性作業讀取Hive中的分區資料寫入SelectDB。
相關文檔
更多Hive詳情,請參見Hive資料來源。