数据开发流程引导

更新时间:2025-04-09 02:39

本文为您介绍新版数据开发的基本开发流程。

前提条件

  • 已创建阿里云主账号或RAM账号。详情请参见准备阿里云账号(主账号)准备RAM用户(子账号)

  • 已开通DataWorks服务,详情请参见开通DataWorks服务

  • 已创建DataWorks工作空间并开通新版数据开发。

    本指南适用于新版数据开发,如需使用,请确保您的工作空间已开通新版数据开发。开通方式如下:

    • 创建工作空间时,选择参加数据开发(Data Studio)公测

    • 将已有旧版数据开发升级为新版数据开发,在旧版数据开发界面顶部单击升级按钮,根据页面提示完成升级。

    • 2025年02月18日后,主账号在如下地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发。

      华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)

  • 已创建Serverless资源组,并绑定至DataWorks工作空间。详情请参见新增和使用Serverless资源组

  • 已绑定计算资源至DataWorks工作空间。您可根据实际情况选择计算资源,详情请参见绑定计算资源(参加新版数据开发公测)

进入Data Studio界面

进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

开发目录规划

Data Studio支持您在不同目录下进行数据开发,各目录的差异如下,您可以按需选择。

目录类型

权限范围

功能特性

适用场景

目录类型

权限范围

功能特性

适用场景

个人目录

个人账号级

  • 仅当前可见。

  • 支持代码调试。

  • 不支持创建调度任务。

  • 可创建的文件类型较少,如.ipynb(Notebook文件)、.sh文件、.py文件和.sql文件等。

  • 个人目录的文件可提交至项目目录。

个人开发测试

项目目录

工作空间级

  • 支持团队协作开发。

  • 可创建多种类型节点及周期工作流。

需要周期调度的生产任务

手动目录

工作空间级

  • 支持手动任务及手动工作流。

  • 独立于周期调度系统,发布生产后,需在运维中心手动执行。

临时性手动执行任务

数据开发

通过准备阶段了解不同使用场景对应的目录差异后,您可以根据实际业务需要创建开发目录。

个人目录开发(适用于个人测试、临时查询、跨项目空间同步代码)

个人目录下的文件仅当前账号可见,不可配置调度和发布到生产,可用于个人测试或临时查询。个人目录下的文件在不同工作空间下均可见,也可用于跨空间同步,您可以将个人目录下的文件提交至不同空间的项目目录中,后续在对应空间的项目目录中为其配置调度及发布。详情请参见个人目录

  1. 在Data Studio左侧导航栏单击image,进入数据开发目录。

  2. 个人目录区域,单击image创建目录,然后在目录中按需创建文件。

  3. 个人目录下的文件如果需要提交到工作空间项目目录下,可在编辑窗口顶部单击提交到项目目录。后续步骤请参见项目目录开发(适用于生产环境)

项目目录开发(适用于生产环境)

项目目录下的文件可以团队协作开发,支持创建不同类型的节点,编排上下游节点关系。详情请参见项目目录

  1. 在Data Studio左侧导航栏单击image,进入数据开发目录。

  2. 创建项目目录、节点和工作流。

    项目目录区域,单击image,按需创建目录、节点或工作流。

    • 目录:您可以通过目录统筹管理节点和工作流。

    • 节点:Data Studio支持丰富的节点类型,如数据集成、Notebook、MaxCompute SQL等,不同节点的作用与差异,请参见节点开发

    • 工作流:工作流是一种数据处理流程自动化管理工具,提供的可视化画板功能支持以可视化拖拽方式整合多种类型的子任务节点,轻松建立任务间的依赖关系,加速数据处理流程的搭建,有效提升任务开发效率。详情请参见周期工作流

  3. 节点编排。

    • 节点:单独创建的节点,需要通过节点调度依赖配置各节点间的上下游关系。

      单击节点编辑页面右侧的调度配置,配置节点调度相关参数,定义该节点的上下游依赖关系。通过依赖关系有序运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,确保当前节点适时、正确的取到数据。

    • 工作流:工作流支持在画布中可视化拖拽编排各节点的上下游关系,您可以自行规划。

  4. 节点开发。

    Data Studio支持丰富的节点类型,不同节点可配置内容不同,您可参考节点开发,完成节点配置工作。

    说明

    您可以在节点开发时使用${变量名} 方式定义变量,然后在测试阶段为变量赋值常量,在调度配置时为变量动态赋值。

手动目录开发(适用于一次性任务)

您可以在手动目录下创建手动任务或创建手动工作流,用于无需周期调度的一次性数据处理场景。

  1. 在Data Studio左侧导航栏单击image,进入手动目录。

  2. 按需在手动任务手动工作流下创建开发目录和节点。详情请参见手动任务手动工作流

测试

节点开发完成后,您可单击节点编辑页右侧的调试配置,配置调试参数,然后单击工具栏中的运行,使用调试参数来运行节点代码。

在调试配置时,您可配置如下参数:

  • 计算资源中指定调试阶段任务下发的计算资源。

  • DataWorks配置中指定DataWorks任务执行使用的资源组等。

  • 如果您在代码中通过${变量名}方式定义了变量名,则可以在脚本参数中为对应变量赋值常量。

说明
  • 周期工作流暂不支持直接调试整个Workflow,您需要依次对其内部节点单独调试。

  • 手动工作流支持直接运行整个工作流。

调度配置与发布

调度配置

节点调试完成后,若节点需要发布至生产环境进行周期性自动调度,请单击节点编辑页右侧的调度配置为节点配置调度属性。

  • 调度参数:用于定义节点调度时使用的参数。DataWorks提供多种赋值格式,如果您在节点开发中通过 ${变量名} 方式定义了变量,则调度参数可以实现调度场景下变量的动态赋值。

  • 调度策略:用于定义节点在调度环境下除执行频率和具体执行时间点外的其他调度属性。

  • 调度时间:用于定义节点在调度环境执行频率和具体执行时间点。

  • 调度依赖:用于定义该任务的上下游依赖关系。通过依赖关系有序运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,确保当前节点适时、正确的取到数据。

说明

周期工作流的调度配置与单独节点的调度配置存在差异,详情请参见周期工作流

节点发布

节点调度配置完成后,您需要单击节点编辑页顶部的发布按钮,通过发布流程,将节点发布至生产环境,之后节点才会周期性调度。更多信息,请参见节点/工作流发布

单击工具栏中的发布按钮,将进入发布流程,单击开始发布生产,任务将按照发布检查流程进行发布。

说明

由于发布过程中受到已启用检查器的管控,发布操作可能不会成功。因此,建议在发布流程结束后确认任务在生产环境中的最终发布状态。

任务运维

节点发布完成后,即会在运维中心生产环境生成周期任务,您可前往运维中心,查看或调整周期任务的属性和状态、对指定业务日期进行补数据。

快速体验

打开Data Studio,默认会在启动时打开欢迎页,您可以根据页面指引体验Notebook经典案例或完成Data Studio入门演练。

  • 本页导读 (1)
  • 前提条件
  • 进入Data Studio界面
  • 开发目录规划
  • 数据开发
  • 个人目录开发(适用于个人测试、临时查询、跨项目空间同步代码)
  • 项目目录开发(适用于生产环境)
  • 手动目录开发(适用于一次性任务)
  • 测试
  • 调度配置与发布
  • 调度配置
  • 节点发布
  • 任务运维
  • 快速体验
文档反馈