通过Catalog、X2Doris、DataWorks和OSS Load,都可以将Hive数据迁移到云数据库 SelectDB 版。您可依据迁移的数据量和业务场景,选择合适的方式完成数据迁移。本文为您介绍Hive的离线数据迁移到云数据库 SelectDB 版的各个方式以及方式选择规则。
方式选择
根据不同的业务场景,选择合适您的迁移方式。具体的方式选择可以参考如下规则:
方式 | 适用场景 | 推荐原因 | 操作步骤 |
Catalog | 数据存储在阿里云平台。 说明 包括阿里云EMR集群等场景。 |
| |
OSS Load | 数据未存储在阿里云平台。 | 可避免迁移使用的流量费用。 说明 通过OSSLoad从对象存储中将数据迁移到SelectDB。这个过程使用内网流量进行数据迁移,可避免流量费用。 | |
DataWorks | 数据由DataWorks托管,或者DataWorks作为数据开发平台。 | 迁移使用可视化平台,简单易用。 |
增量数据迁移说明
实际生产环境中,Hive数据主要分为离线数据和增量数据,由于Hive数据迁移到SelectDB,通常的使用场景是拷贝一份数据到数据仓库进行查询加速,因此对于增量数据的迁移,可以考虑以下方式:
在生产Hive数据时并行写入一份数据到SelectDB。
通过周期性作业读取Hive中的分区数据写入SelectDB。
相关文档
更多Hive详情,请参见Hive数据源。