全部产品
Search
文档中心

大数据开发治理平台 DataWorks:一键MaxCompute表结构同步节点

更新时间:Aug 27, 2024

DataWorks支持一键导入表结构功能,帮助您使用DataStudio快速批量创建与目标MaxCompute表结构相同的Hologres外部表,后续您可使用Hologres外部表加速查询MaxCompute表的数据。本文为您介绍如何创建并使用一键MaxCompute表结构同步节点。

背景信息

Hologres是阿里巴巴自主研发的一站式实时数仓引擎,它与MaxCompute在底层无缝连接,支持使用新建外部表的方式加速查询MaxCompute数据。

DataWorks是基于IMPORT FOREIGN SCHEMA语句实现可视化方式的一键MaxCompute表结构同步Hologres。

使用限制

仅支持使用该功能加速查询MaxCompute内部表的数据,不支持加速查询MaxCompute外部表的数据和视图。

进入一键MaxCompute表结构同步界面

  1. 进入数据开发页面。

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 创建业务流程

    如果您已有业务流程,则可以忽略该步骤。

    1. 鼠标悬停至新建图标,选择新建业务流程

    2. 新建业务流程对话框,输入业务名称

    3. 单击新建

  3. 创建一键MaxCompute表结构同步节点。

    1. 鼠标悬停至新建图标,选择新建节点 > Hologres > 一键MaxCompute表结构同步

      您也可以找到相应的业务流程,右键单击业务流程,选择新建节点 > Hologres > 一键MaxCompute表结构同步

    2. 新建节点对话框中,输入名称,并选择引擎实例节点类型路径

    3. 单击确认,进入节点编辑页面。

配置一键MaxCompute表结构同步节点

  1. 配置节点信息。

    在节点编辑页面,配置创建Hologres外部表所使用的Hologres连接信息、MaxCompute表的来源信息及建表时的冲突策略。配置节点信息

    1. 配置目标信息。

      用于配置创建的Hologres外部表要放于哪个Hologres实例下。

      参数

      描述

      目标连接

      Hologres的实例名称。

      目标库

      Hologres实例下的数据库名称。

      模式

      Hologres数据库下的Schema名称。默认为public

    2. 配置来源信息。

      用于配置创建的Hologres外部表的表结构来源于哪个表。DataWorks基于该信息在Hologres中创建与源表的表结构相同的外部表,方便您通过Hologres外部表快速查询源表数据。

      参数

      描述

      类型

      当前仅支持基于MaxCompute类型的源表创建Hologres外部表。

      服务器列表

      源表所在的服务器。

      您可以直接调用Hologres底层已创建的odps_server外部表服务器。详细原理请参见postgres_fdw

      来源项目

      源表所在的项目名称。

      选择要直接加速的表

      用于选择需要基于哪些源表创建外部表。

      • 整库加速:创建所选数据库中的所有表。

      • 部分加速:仅创建所选数据库中的部分表。可通过表名搜索需要创建的表。

        说明

        搜索支持模糊匹配,即输入关键词即可查询到所有名称包含关键词的表。

    3. 配置冲突策略。

      用于配置创建外部表时,对于冲突情况所采取的处理策略。

      参数

      描述

      表名冲突

      Hologres中存在与创建的外部表名称相同的表时,处理策略如下:

      • 忽略,继续创建其他表

      • 更新,修改同名表

      • 报错,不再重复创建

      数据类型不支持

      创建外部表时,对Hologres不支持的数据类型处理策略如下:

      • 报错,导入失败:该方式会导致所选表创建失败。

      • 忽略,跳过不支持字段:该方式仅会忽略不支持的字段,但不影响表的创建。

  2. 保存并运行节点。

    1. 在节点编辑页面的顶部菜单栏,单击保存图标,保存节点配置。

    2. 在节点编辑页面的顶部菜单栏,单击运行图标,批量创建外部表。

说明

运行时您需要选择Hologres实例与DataWorks网络环境处于连通状态的Serverless资源组。详情请参见网络连通方案

后续步骤

外部表创建完成后,您可进入DataWorks的表管理页面查看批量创建的外部表,详情请参见表管理;或使用Hologres的命令加速查询MaxCompute数据,详情请参见通过创建外部表加速查询MaxCompute数据

说明

仅支持加速查询MaxCompute内部表的数据,不支持加速查询MaxCompute外部表的数据和视图。