MoveTo命令可以实现表和分区数据的迁移功能。本文为您介绍MoveTo命令的使用方法。
前提条件
- 本地安装了Java JDK 8。
- 已创建集群,详情请参见创建集群。
背景信息
MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整地迁移到新路径;可以通过条件筛选,一次拷贝大量分区。在数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。
使用限制
EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群,支持使用MoveTo命令。
使用MoveTo命令
注意 集群上每次仅允许运行一个MoveTo进程。如果集群上有正在运行的MoveTo进程,启动新的MoveTo进程时会因为获取不到配置锁而退出,并告知正在运行的MoveTo进程。此时,您可以终止掉正在运行的MoveTo进程,启动新的MoveTo进程,或者等待正在运行的MoveTo进程结束。
配置锁目录
MoveTo工具实现了进程锁,需要提供一个HDFS的路径放置锁文件。默认情况下,该路径为hdfs:///tmp/jindotable-lock/。
注意 放置锁文件的路径只能是HDFS路径。如果您对该路径无操作权限时,可以按照如下步骤添加自定义配置,配置该路径。
- 进入HDFS服务页面。
- 登录阿里云E-MapReduce控制台。
- 在顶部菜单栏处,根据实际情况选择地域和资源组。
- 单击上方的集群管理页签。
- 在集群管理页面,单击相应集群所在行的详情。
- 在左侧导航栏,选择 。
- 修改配置。
- 保存配置。
- 单击右上角的保存。
- 在确认修改对话框中,输入执行原因,单击确定。