全部产品
Search
文档中心

大数据开发治理平台 DataWorks:通用开发流程

更新时间:Nov 14, 2024

DataWorks将不同类型引擎任务封装为不同节点,通过创建节点来生成数据开发任务。同时,数据开发(DataStudio)支持使用资源、函数、以及不同的逻辑处理节点开发复杂任务。本文将为您介绍数据开发任务的通用开发流程。

前提条件

进入数据开发

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

进入数据开发后,您可根据下文流程创建所需任务。

开发流程

数据开发任务的通用开发流程如下。脚本开发流程

步骤

描述

相关文档

步骤一:新建业务流程

DataWorks数据开发基于业务流程组织与开发代码,您需先新建业务流程,才可进行后续的开发工作。

创建业务流程

步骤二:新建数据表

DataWorks支持使用可视化方式创建表,并以目录结构在界面展示。同时,支持对创建的表执行相关管理操作。

进行数据开发前,您需先在引擎创建用于存放原始数据的表、接收数据清洗结果的表。具体创建哪种类型的表,请以实际使用为准。

步骤三:新建并上传资源(可选)

DataWorks支持将文本文件、JAR压缩包等,作为不同类型的资源上传至指定计算引擎,在开发过程中读取使用。若开发过程需使用资源,您可通过DataWorks可视化方式上传资源,并进行后续资源管理操作。

说明

在DataWorks中支持新建资源的引擎,以及支持的资源类型,请以实际使用界面为准。

步骤四:新建调度节点

DataWorks基于节点进行任务开发,不同类型的引擎任务在DataWorks上被封装为不同类型的节点。您可根据业务需要,选择合适的节点开发引擎任务。

同时,支持便捷的节点管理操作。例如,使用节点组批量克隆节点;通过回收站快速恢复已删除节点。

DataWorks支持如下多类引擎:

各类引擎的不同任务可选用不同类型的节点,各引擎的节点详细列表请参见DataWorks节点合集

步骤五:节点引用资源(可选)

在DataWorks中使用资源,需先将资源加载至节点的运行环境,加载后才可在节点中使用。

步骤六:注册函数(可选)

若开发过程需使用函数,您可通过DataWorks可视化方式注册函数。注册函数前,请先将注册函数需使用的资源上传至DataWorks。

说明

在DataWorks中支持注册函数的引擎,请以实际使用界面为准。

步骤七:编辑节点代码

根据节点类型,在节点编辑页面通过对应引擎与数据库语法编写业务代码。不同节点所使用的语法可能存在差异,具体请以实际使用为准。

说明

代码编辑完成后,请尽快保存(保存),避免代码丢失。

DataWorks支持的节点列表详情请参见DataWorks节点合集

常用引擎的使用说明:

后续:调试代码及配置调度

任务代码开发完成后,您可根据需要执行如下操作:

  • 调试代码:根据业务需求调试运行单个任务,或调试运行整个业务流程,并在调试完成后查看运行结果,详情请参见任务调试流程

  • 配置调度:进行节点的调度配置,后续节点将按照该配置周期性调度执行。详情请参见任务调度配置

  • 提交发布任务:任务开发完成后,需提交至对应环境调度执行。如果您使用的是标准模式的工作空间,提交成功后,需单击右上方的发布,发布任务,操作详情请参见发布任务

  • 运维任务:任务发布完成后将默认展示在生产环境运维中心,您可前往生产环境运维中心查看生产环境任务的运行情况,并对生产任务执行相关运维操作。详情请参见运维中心概述