全部产品
Search
文档中心

大数据开发治理平台 DataWorks:资源组操作及网络连通

更新时间:Nov 14, 2024

在做离线同步时,我们需要先了解哪些DataWorks及其网络能力?

做数据集成同步前,您需要非常了解以下信息:

  • 需要同步的数据库所在的VPC,Vswitch,地域(Region)等信息和DataWorks所在地域(Region)情况。

  • 需要同步的数据库和DataWorks是否存在跨账号、跨region等特殊情况。

如果在任务同步时遇到问题,您可以先参考支持的数据源与读写插件,进行自助排查。

如果您在数据源测试连通性时遇到问题,您可以先根据网络连通方案文档,选择对应的解决方案进行排查。

在使用独享数据集成资源组时,需按照以下流程操作:购买资源组、绑定数据库网络连通的专有网络、评估是否添加路由、数据库白名单配置、独享资源组绑定所属工作空间。详情请参见新增和使用独享数据集成资源组

同步ECS自建的数据库的数据时,如何保障数据库与DataWorks的网络连通?

如果您需要使用独享数据集成资源组通过内网同步ECS自建的数据库,您需要为独享数据集成资源组做相关的网络配置,详情可参见新增和使用独享数据集成资源组,连通方案核心点为:

  • 独享数据集成资源组绑定ECS所在VPC,会自动添加一个路由指向VPC网段(该路由不建议人为删除哦,可能会导致访问其他数据库失败,导致任务报错。)

  • 在数据库白名单列表中添加独享数据集成资源组绑定的交换机网段。详情请参见:添加白名单

数据库和DataWorks不在同一个地域(Region)下,进行数据同步时如何保障数据库与DataWorks的网络连通?

操作前,您可以先根据网络连通方案文档,选择对应的网络连通解决方案,连通方案核心点为:

如果您使用公网同步跨地域(Region)的数据库,您需要将独享资源组本身的EIP添加到数据库白名单列表中,详情请参见:添加白名单

说明

公网会产生公网流量费,详情可参见文档公网流量计费说明

数据库和DataWorks不在同一个阿里云账号下,进行数据同步时如何保障数据库与DataWorks的网络连通?

操作前,您可以先根据网络连通方案文档,选择对应的解决方案进行排查。

  • 如果您使用公网同步跨账号的数据库,您需要将独享资源组本身的EIP添加到数据库白名单列表中,详情请参见:添加白名单

    说明

    公网会产生公网流量费,详情可参见文档公网流量计费说明

  • 如果您需要通过内网同步跨账号的数据库,您需要做以下操作:

    1. 两个阿里云账号间的网络需要先使用网络打通工具相关云产品打通,如VPN、高速通道等。

    2. 独享数据集成资源组绑定已经和另一个阿里云账号下网络打通的VPC。

    3. 绑定VPC后,再自定义路由选择“本地IDC”,添加目标数据库IP。

    4. 在数据库添加独享资源组绑定的交换机网段(注意是绑定的交换机网段)详情请参见:添加白名单

访问VPC环境下的数据库测试连通性失败,该如何处理?

  • 如果您使用VPC连接地址添加的数据源:

    1. 请确认您已经为独享数据集成资源组绑定好数据库所在的VPC。

    2. 已经将独享数据集成资源组绑定的交换机网段添加至数据库白名单。详情请参见:添加白名单

  • 如果您使用公网地址添加的数据源,使用独享数据集成资源组测试连通性失败时,请确认您是否已经将独享数据集成资源组本身的EIP添加至数据库白名单。详情请参见:添加白名单

    说明

    公网会产生公网流量费,详情可参考文档:公网流量计费说明

数据源连通性有时成功,有时失败,如何处理?

请检查是否使用了公共资源组,公共资源组网络不稳定,建议使用独享数据集成资源组,以保证连接的稳定性。

已经购买独享资源组,但在数据源测试连通性时或任务执行时找不到该资源组怎么办?

请确认独享资源组已经绑定DataWorks工作空间。详情请参见:新增和使用独享数据集成资源组

如何通过日志查看任务执行在什么资源组类型上?

  • 任务运行在默认的资源组上,日志中会出现如下信息:running in Pipeline[basecommon_ group_xxxxxxxxx]

  • 任务运行在数据集成自定义资源组上,日志中会出现如下信息:running in Pipeline[basecommon_xxxxxxxxx]

  • 任务运行在独享数据集成资源上,日志中会出现如下信息:running in Pipeline[basecommon_S_res_group_xxx]

如何切换任务在调度系统中执行所用的资源组

  • 在生产运维中心切换任务执行使用的调度资源组和数据集成任务执行资源组:切換资源组

  • 在数据开发界面走发布流程修改生产环境任务执行使用的资源组。

    说明

    以下方式修改资源组请记得发布,标准模式下提交操作生效范围是开发环境,发布后操作才会在生产环境周期任务自动调度时生效,发布后您可以在生产运维中心周期任务检查资源组修改是否生效。

    1. 修改任务调度使用的资源组:数据开发修改调度资源组

    2. 修改数据集成任务执行资源组:数据开发修改任务执行资源组

如何排查自定义调度资源组等待gateway?

登录DataWorks控制台,在左侧导航栏,单击资源组列表,进入自定义资源组页签。 单击任务使用的调度资源后的服务器管理,查看服务器的状态是否停止,或是否被其它任务占用。

如果以上排查无法解决问题,请执行下述命令重启服务。

su - admin /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart

如何查看资源组对外IP,以便用于加白放行?

如果您使用独享数据集成资源组走公网同步数据,请在数据库白名单列表中添加独享数据集成资源组本身的EIP地址。获取独享数据集成资源组EIP地址如下:

DataWorks控制台资源组页面中的独享资源组页签下,单击数据集成资源组后的详情,复制基本信息中的EIP地址至数据库白名单列表中。

资源组还有剩余资源,为什么会提示任务资源不足无法启动?

请查看资源组详细信息,通常情况下是因为资源组剩余资源已经不足被新任务使用,比如此时资源组通常会有排队任务。