DataWorks是阿里云推出的全链路大数据开发治理平台,融合了数据集成、数据开发、数据运维等多种功能。Lindorm宽表引擎支持通过DataWorks配置导入任务,将MySQL、PolarDB、PostgreSQL、Oracle、SQL Server和Cassandra中的数据全量导入至Lindorm宽表引擎中。本文介绍如何通过DataWorks配置Lindorm导入任务。
前提条件
已将客户端IP添加至Lindorm白名单。如何添加,请参见设置白名单。
注意事项
如果您想要通过公网访问或您的实例类型为Lindorm单节点,在执行本文操作前,需要先升级SDK并更改配置。具体操作,请参见通过HBase Java API连接并使用宽表引擎章节中的步骤1。
如果应用部署在ECS实例,通过专有网络访问Lindorm实例前,需要确保Lindorm实例和ECS实例满足以下条件,以保证网络的连通性。
所在地域相同,并建议所在可用区相同(以减少网络延时)。
ECS实例与Lindorm实例属于同一专有网络。
步骤一:创建工作空间
在配置导入任务前,您需要先在DataWorks中创建工作空间,用于后续数据开发和任务管理。如何创建,请参见创建工作空间。
步骤二:创建资源组
资源组(Resource Group)能够帮助您合理分配账号内的资源,管理用户的授权。
可创建的资源组如下表所示:
资源组类型 | 配置文档 | 注意事项 |
独享资源组 | 独享资源不支持跨地域使用。例如,华东2(上海)地域的独享资源,只能给华东2(上海)地域的工作空间使用(无法绑定其他区域的VPC),并且独享资源组不能夸Vswtich访问Lindorm集群。 | |
默认资源组 | 无 | 公网访问Lindorm会在DataWorks产生额外费用。 |
步骤三:网络配置
在配置导入任务前,您需要根据资源组的类型进行网络配置,以保证DataWorks和Lindorm实例的连通性。
独享资源组
默认资源组
默认资源组机器的IP地址获取方式,请参见添加白名单。请将区域对应的IP地址添加至Lindorm白名单,具体操作请参见设置白名单。
步骤四:创建同步任务
创建数据导入离线同步任务,如何操作,请参见通过脚本模式配置离线同步任务。
步骤五:修改任务配置
如果使用Lindorm SQL方式访问,请参考Reader脚本Demo和Writer脚本Demo配置文档中TableService模型的配置。
如果使用HBase兼容方式访问,请参考Reader脚本Demo和Writer脚本Demo配置文档中WideColumn模型的配置。
脚本Demo中的lindorm.client.seedserver参数为Lindorm宽表引擎的HBase Java API兼容地址,如何获取,请参见查看宽表引擎连接地址。
步骤六:提交并发布任务
若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布的相关说明,请参见发布任务。