本文为您介绍如何使用DataStudio导入MaxCompute数据至Hologres。
前提条件
已在DataWorks中创建对应的Hologres数据源,并将其绑定至数据开发(DataStudio)模块,详情请参见绑定Hologres实例。
背景信息
DataStudio支持一键MaxCompute数据同步功能,您可以使用可视化方式导入MaxCompute表数据并进行查询。该方式比创建外部表直接查询数据的性能更好。
您也可以使用SQL语句导入MaxCompute数据,详情请参见使用SQL从MaxCompute导入。
操作步骤
新建一键MaxCompute数据同步节点。
登录DataWorks控制台。
在左侧导航栏,单击工作空间列表。
选择工作空间所在地域后,单击相应工作空间操作列的快速进入 > 数据开发。
在DataStudio界面的左侧导航栏,选择数据开发。
在数据开发页面,单击顶部菜单栏的新建,选择新建节点>Hologres>一键MaxCompute数据同步。
在新建节点对话框中,选择引擎实例和路径,并输入名称,单击确认。
在编辑节点页面,配置各项参数。
参数
配置项
说明
MaxCompute源表选择
目标连接
已绑定的Hologres数据源名称。
目标库
Hologres实例下的数据库名称。
外部表来源
已有外部表
已经提前在Hologres中创建映射MaxCompute数据的外部表。
新建外部表
表示无相应的外部表,需要同步时新建。
外部Schema
Hologres中已创建的MaxCompute外部表所在的Schema。
当外部表来源选择已有外部表时,需要配置此参数。
外部表表名字
Hologres中已创建的MaxCompute外部表名称。
当外部表来源选择已有外部表时,需要配置此参数。
外部服务器
Hologres实例创建成功后会自动创建名称为odps_server的服务器, 可以直接调用,相关原理请参见postgres_fdw。
当外部表来源选择新建外部表时,需要配置此参数。
MaxCompute项目
MaxCompute的项目名称。
当外部表来源选择新建外部表时,需要配置此参数。
MaxCompute表名
同步数据的MaxCompute表名称。
当外部表来源选择新建外部表时,需要配置此参数。
目标表设置
目标Schema
当前Hologres数据库下的Schema名称。
目标表名
需要导入数据的Hologres内部表名称。若表名称已存在,执行后原表和数据将被删除重建。
目标表描述
自定义添加需要导入数据的Hologres内部表的描述。
导入GUC参数设置
GUC参数
导入MaxCompute数据前需要设置的GUC参数,支持的GUC参数请见GUC参数。其余SQL均不支持。
同步设置
同步字段
选择需要同步的MaxCompute表字段,可以选择全部字段,也可以选择部分字段。
分区配置
选择需要同步的分区字段。当前Hologres仅支持一级分区。
MaxCompute的多级分区,在Hologres中设定为一级分区,其余分区自动映射为Hologres的普通字段。
索引配置
为目标表构建索引。索引的创建请参见建表概述。
SQL Script
SQL Script
自动解析出当前运行的SQL,方便参照。
在编辑节点页面单击图标,保存配置信息。
在编辑节点页面单击图标,运行同步任务,导入MaxCompute表数据。
查看同步的MaxCompute表数据。
在左侧导航栏,单击图标,进入表管理页面。
双击需要查看的Hologres内部表,显示表编辑页面。
说明若表管理页面未显示目标表,您需要在DataWorks数据地图中进行Hologres元数据采集,详情请参见数据地图。
(可选)周期性调度。
在节点的编辑页面,单击节点编辑区域右侧的调度配置,配置节点的调度属性,详情请参见配置基础属性。
在节点的编辑页面,单击工具栏中的图标,保存节点。
单击工具栏中的图标,提交节点。
在提交新版本对话框中,输入变更描述,单击确认。