全部产品
Search
文档中心

大数据开发治理平台 DataWorks:数据开发功能索引

更新时间:Oct 11, 2024

本文为您介绍DataWorks数据开发(DataStudio)界面的整体布局,以及进行开发操作的主界面(业务流程和节点)中各组件、按钮的功能作用,方便您快速了解及使用数据开发模块。

进入数据开发

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

进入数据开发后,您可以创建业务流程及不同类型的节点进行相关开发操作,详情请参见创建业务流程创建节点

不同开发操作的界面功能存在差异,您可根据本文快速了解对应操作的界面功能。

DataStudio界面总览

DataStudio界面总体介绍如下图所示。界面说明

区域

描述

1

2

在该区域单击切换模块图标,即可展示对应功能按钮的名称。

  • 数据开发:用于周期调度任务的开发,支持基于各类引擎创建不同节点进行数据开发,该模块开发的任务可发布到生产环境进行运维。

    说明

    您需要在数据开发中绑定相应类型的数据源后,才可以基于该引擎进行数据开发。

  • 手动业务流程:用于手动触发式任务的开发,该模块开发的任务可发布生产进行运维。

  • 运行历史:用于查看在DataStudio界面测试运行的历史记录,当前支持保留3天的历史记录。

  • 临时查询:用于进行单次简单的测试查询,无法发布生产运维。

  • 公共表:用于查看当前登录的阿里云账号下所有的生产表。

  • 表管理:用于使用可视化方式对目标表执行相关操作。支持的表操作与表对应的引擎可执行的操作一致。

  • 使用内建函数:MaxCompute系统自带函数的相关介绍。

  • 回收站:用于管理在数据开发手动业务流程中删除的节点、资源及函数。

  • 组件管理:组件是一种带有多个输入参数和输出参数的SQL代码过程模板,SQL代码过程的处理通常会引入一到多个源数据表,通过过滤、连接和聚合等操作,加工出新业务需要的目标表。

  • 操作历史:可以通过操作类型、操作人、操作时间进行筛选,查看当前工作空间中的历史操作记录。

  • 操作检查:可以通过操作类型、检查状态进行筛选,查看相应操作的详细信息。

  • MaxCompute:单击MaxCompute即可显示下列子模块。

    • MaxCompute资源管理:用于管理MaxCompute引擎现有的资源。您可以通过该功能查看资源的操作记录。同时,支持将不在DataWorks中上传的资源通过此功能加载至DataWorks的数据开发进行管理。

    • MaxCompute函数管理:用于管理MaxCompute引擎现有的函数。您可以通过该功能查看函数的操作记录。同时,支持将不在DataWorks上注册的函数通过此功能加载至DataWorks的数据开发进行管理。

说明

如果您当前的界面左侧导航栏模块展示不全,则可单击区域4的设置图标,在个人设置界面添加相应模块,详情请参见个人设置

3

DataStudio中进入其他模块的快捷入口:

  • 跨项目克隆:您可以利用跨项目克隆功能实现计算、同步等类型的任务在工作空间之间的克隆迁移。

  • 运维中心:用于快速跳转至运维中心对任务进行运维操作。运维中心分开发运维中心和生产运维中心,生产运维中心承担生产调度任务的整体运维管控。

DataWorks各模块的通用功能:

说明

本文以DataStudio界面为例,为您讲解如下通用功能,其他模块对应界面,该类功能相同。

  • 消息中心(消息中心:用于发送产品侧功能变更的消息通知,方便您及时获取产品最新信息。

  • 互动学习(互动学习:用于提供相应的产品功能说明,当您有相关需要时,可使用该功能快速查看帮助内容。

  • 工作空间管理(工作空间管理:用于快速进入工作空间配置界面,您可以在该界面查看工作空间配置的基本信息、调度信息、白名单详情及数据源和开源集群情况。详情请参见创建并管理工作空间

  • 语言切换:单击当前显示的语言,即可进行语言(中英文)的切换。

  • 账号信息:单击当前登录账号即可查看该账号的个人信息、工作台任务概况。

4

系统配置,包括如下内容:

  • 个人设置:用于配置管理模块、编辑器功能、界面风格等。

  • 配置代码模板:用于管理语句代码的模板,使其呈现所需样式。

  • 调度设置:用于配置启用调度设置页面的调度周期功能,启用后周期任务才能自动调度运行。

  • 安全设置与其他

    • 数据安全:用于控制在工作空间中查询页面内容时,是否对敏感信息进行脱敏。

    • 代码强制评审:用于开启代码强制评审,配置代码审核人员,把控开发任务的代码质量。

5

数据开发编辑器常用的快捷键。更多快捷键,详情请参见编辑器快捷键列表

数据开发(业务流程)界面功能

进入DataStudio后,默认进入数据开发模块,您需要在该模块先创建业务流程,组织后续业务开发。创建业务流程详情请参见创建业务流程。业务流程的功能界面如下图所示。业务流程

区域

功能描述

1

  • 解决方案:用于将一类业务流程组合为一个解决方案,业务流程可以被多个解决方案复用。解决方案支持使用列表及图形化的方式呈现。

  • 业务流程:用于实际业务开发,业务流程为业务的抽象实体,帮助您使用业务视角来组织数据代码开发。

单击全部图标,即可呈现当前工作空间下的所有解决方案或业务流程。

2

  • 刷新(刷新:用于手动刷新目录树,当您对业务流程或解决方案进行变更操作,可手动刷新对应目录树。

  • 定位(定位:用于快速定位当前打开的文件。

  • 代码搜索代码搜索):用于通过关键字搜索代码片段,快速定位数据开发、手动业务流程、临时查询、回收站中包含该代码片段的所有节点及相关代码片段的详细内容。当目标表数据产生变更,您需要查找操作源(即导致目标表数据变更的任务)时,可以使用该功能。

  • 批量操作批量操作):用于快速对表、资源、函数进行批量修改(包括修改责任人、引擎实例、调度资源组、调度重跑属性、调度类型、调度周期、调度超时时间等操作)。

  • 导入导入):用于快速将本地数据上传至目标表中。目前仅支持上传数据至MaxCompute表中。

  • 快捷新建快捷新建):用于快速创建业务流程,以及各类型的节点、表、资源、函数等。

  • 解决方案及业务流程目录树展示

    • 全部:目录树基于解决方案及业务流程展示当前工作空间下所有已创建的文件(节点、资源、函数等)。

    • 我负责的:目录树基于解决方案及业务流程展示当前登录账号为负责人的文件(节点、资源、函数等)。

    • 我收藏的:目录树基于解决方案及业务流程展示当前登录账号收藏的文件(节点、资源、函数等)。

  • 文件查找

    • 精确查找:您可以输入文件名称创建人,单击查找图标查找指定节点。

    • 按节点类型查找:您可以单击筛选图标,通过筛选节点类型,查找指定类型的所有节点。指定节点类型后,则目录树将仅展示当前工作空间中该类型的节点。

      说明

      您还可以根据业务需求选择是否需要隐藏引擎实例隐藏节点类型文件夹,隐藏后,目录树将不会呈现相应内容。

      • 隐藏引擎实例隐藏节点类型文件夹仅适用于新版业务流程。

      • 通常,目标引擎下仅包含一个引擎实例时,建议您将其隐藏。

      • 如果您不需要使用数据开发、表、资源、函数等节点类型文件夹时,则可以将其隐藏。

说明

如果您当前的工作空间为新建的工作空间,请先创建业务流程,并在业务流程内新建节点进行数据开发。创建业务流程详情请参见创建业务流程

3

使用目录树的方式对各业务流程中的节点、表、资源、函数进行管理:

  • 业务流程:业务开发的单位,用于进行具体的业务开发工作。

  • 节点:代码开发的最小单位,支持对应引擎、算法、数据集成、数据库、通用节点进行代码开发。

  • :使用可视化方式操作表。

  • 资源:使用可视化方式上传资源。

    说明

    当前仅支持MaxCompute、E-MapReduce、CDH引擎使用可视化方式上传资源。

  • 函数:使用可视化方式注册函数。

    说明

    当前仅支持MaxCompute、E-MapReduce、CDH引擎使用可视化方式注册函数。

您可以通过节点名称前的图标查看该节点的状态:

  • 未提交图标:表示当前的节点版本未提交。单击该图标即可快速提交节点。

  • 未发布图标:表示节点未发布。单击该图标即可进入发布中心发布节点。

同时,节点名称后为您展示了最近一次编辑该节点的时间。

双击业务流程名称,即可进入业务流程编辑页面(区域5~8),您可以在该页面进行数据开发。

4

资源组编排资源组编排):用于在数据开发阶段,批量修改指定业务流程下目标节点使用的调度资源组。当您的工作空间中有多个调度资源组时,可以根据实际业务需求,使用该功能快速为目标节点重新分配资源组,促进资源的合理使用。修改后您需要通过批量发布将该操作发布至生产运维中心,使生产环境节点使用的调度资源组修改操作生效。

5

  • 常用节点:为您展示当前工作空间中常用的类型节点,方便您快速筛选创建目标类型节点。

  • 使用节点组:用于跨业务流程引用一批节点,您可以将业务流程内复用率较高的节点组合为一个节点组,以便在其他业务流程中快速复用该节点组(即快速克隆这批节点)。

  • 快速创建节点:您可以将数据集成、MaxCompute、E-MapReduce等目录下的节点直接拖拽至右侧业务流程编辑面板,创建对应类型的节点。

6

业务流程可视化操作面板详情1:

  • 切换布局(切换布局:您可以切换当前业务流程编辑面板的布局为纵向横向网格

  • 框选(框选用于将选中的节点组合为节点组,批量执行节点相关的操作。

  • 刷新(刷新刷新当前业务流程。当您对业务流程执行变更操作时,可手动刷新,获取最新界面。

  • 格式化(格式化:将业务流程中各节点的位置格式化为水平对齐。

  • 适配窗口(适配窗口:根据当前界面的窗口大小,自动适配业务流程的布局。

  • 居中(居中居中当前业务流程的各节点。

  • 1:1(1:1用于将当前业务流程的各节点与编辑面板按照1:1比例布局。

  • 放大(放大放大当前业务流程的各节点。

  • 缩小(缩小:缩小当前业务流程的各节点。

  • 查找(查找输入关键字,搜索包含关键字的节点。

    说明

    查找方式为模糊匹配,即输入关键字后,DataWorks会展示出当前业务流程中包含关键字的所有节点。

  • 全屏(全屏全屏显示当前业务流程。

  • 隐藏引擎信息(隐藏引擎信息用于显示或隐藏各节点的引擎信息。

7

业务流程可视化操作面板详情2:

  • 流程参数:用于批量替换代码中的统一变量,目前仅支持ODPS SQL类型节点使用流程参数。

  • 操作历史:用于查看业务流程面板中节点的相关操作记录。

  • 查看版本:业务流程每次提交都会生成一个新的版本,您可以在此处查看业务流程的各个版本记录及版本详情。

8

业务流程可视化操作面板详情3:

  • 提交(提交:批量提交业务流程内更新的节点至任务发布界面。

  • 运行(运行:运行当前业务流程下所有节点。

  • 停止运行(停止运行:运行中的业务流程可以选择批量终止运行业务流程中的节点。

  • 发布发布):快速在任务发布界面定位该业务流程下待发布的节点。节点的发布操作。

  • 前往运维前往运维):快速进入生产运维中心,查看节点的运维详情。

  • 搜索:当前如果打开的页签较多,您可以单击搜索图标,使用下拉列表查看所有页签。

  • 关闭页签:单击关闭页签图标,关闭指定页签。

数据开发(业务流程)快捷菜单

将鼠标悬停至目标业务流程,单击鼠标右键,即可显示业务流程的快捷菜单,相关功能如下图所示。业务流程快捷操作

功能

描述

新建节点

用于快速新建各类型节点。

新建节点时,系统会显示最近一次使用的节点类型,单击该类型,即可自动输入最近一次使用的引擎实例节点类型。如果您需要创建近期使用过的类型节点,则可使用该方式快速创建。新建节点

新建表

用于快速新建各类型表。

新建资源

用于快速新建各类引擎资源。

说明

当前仅支持新建MaxCompute、CDH、EMR引擎资源。

新建函数

用于快速新建各类引擎函数。

说明

当前仅支持新建MaxCompute、CDH、EMR引擎函数。

看板

用于进入目标业务流程的编辑面板。

修改业务流程

用于修改业务流程的名称、负责人、描述等信息。

删除业务流程

删除当前业务流程。

说明

此操作将批量删除该业务流程下所有文件,请您谨慎操作。

删除业务流程时,针对无法删除的文件,您可以选择如下处理策略:

  • 终止,不再继续删除文件:默认选择该选项。执行删除操作时,当遇到无法删除的文件,删除操作会被中断。已删除的文件将成功删除。

  • 跳过,继续删除其他文件:执行删除操作时,当遇到无法删除的文件,系统会跳过该文件,继续删除其他文件。

删除业务流程

批量操作

用于批量修改业务流程中节点、资源、函数的责任人、引擎实例、调度属性等,并支持批量提交并发布,将变更操作发布至生产环境生效。

数据开发(节点)界面功能

业务流程创建完成后,您可以根据开发需求创建不同类型的数据开发节点,详情请参见创建开发节点。不同类型的节点功能类似,本文以ODPS SQL节点为例,为您介绍数据开发节点编辑界面的功能。节点界面功能

区域

功能描述

1

节点开发相关功能按钮:

  • 保存(保存:保存当前节点的代码及相关配置。

  • 另存为临时查询文件(另存为临时查询文件:将当前代码另存为一个临时文件,您可以进入临时查询页面查看。详情请参见创建临时查询

  • 提交(提交:提交当前节点。

  • 提交并允许他人编辑该文件(提交并允许他人编辑该文件:提交当前节点,并允许其他用户编辑该节点的代码。

  • 偷锁编辑(偷锁编辑:用于非节点责任人编辑节点。

  • 运行(运行:运行当前节点的代码。运行SQL代码时,您只需要给SQL语句中的变量赋一次值,即使节点的代码发生变更,也会保留初始的赋值。

    说明

    如果您创建的节点没有选择调度资源组,则运行任务时,系统会先提示您选择可用的调度资源组。

  • 高级运行(带参数运行)(高级运行(带参数运行):使用配置的参数运行当前节点代码。运行代码时每次都需要手动给SQL语句中的变量进行赋值,运行的初始赋值会传递给高级运行,高级运行的自定义参数赋值后,会刷新当前运行的自定义参数。

    说明

    如果您创建的节点没有选择调度资源组,则运行任务时,系统会先提示您选择可用的调度资源组。

  • 停止运行(停止运行:停止正在运行的节点。

  • 重新加载(重新加载:刷新节点页面,返回至上次保存的页面。

  • 在开发环境执行冒烟测试(在开发环境执行冒烟测试:在开发环境测试当前节点的代码。开发环境冒烟测试可以模拟调度参数在生产调度中参数的替换情况,选择业务日期后,根据您填写的调度参数替换该业务日期下的值。您可以通过该功能测试调度参数的替换情况。

    说明

    开发环境冒烟测试每次变更调度属性后,其中的参数配置需要重新保存并提交,然后选择开发环境冒烟测试,否则替换的调度属性仍会是原来的值。

  • 查看开发环境的冒烟测试日志(查看开发环境的冒烟测试日志:查看运行在开发环境的节点运行日志。

  • 前往开发环境的调度系统(前往开发环境的调度系统:跳转至开发环境的运维中心进行相关运维操作。详情请参见查看周期实例

  • 格式化(格式化:对当前节点代码排序,常用于单行代码过长的情况。

  • 分享(分享:分享当前节点给其他用户。

2

调度配置

  • 基础属性:查看调度节点的名称、ID、类型,并配置责任人、描述等基本信息。

  • 参数:任务调度时需要使用的参数,可使用调度参数实现参数的动态取值。

  • 时间属性:用于定义节点发布生产调度系统后在调度环境下的相关属性。您可以通过调度配置的时间属性,配置节点生成周期实例的方式,实例调度周期与执行时间,是否支持重跑,任务执行超过多长时间自动退出等。

  • 资源属性:配置节点调度时需要使用的资源组。

  • 调度依赖:用于配置上下游节点的依赖关系,详情请参见配置同周期调度依赖配置依赖上一周期(跨周期依赖)

  • 节点上下文:用于上下游节点参数传递,多用于使用赋值功能通过节点上下文参数,将上游节点的查询结果传递至下游节点。

血缘关系:展示当前节点和其它节点的依赖关系和内部血缘关系。

查看版本节点每次提交、发布都将生成新的版本。您可以在版本面板查看节点历史版本、提交人、提交时间、变更类型、状态、备注等信息。版本的状态说明如下:

  • 已提交:节点已提交至开发环境,在任务发布界面处于待发布状态。

  • 已发布:节点已经发布至生产环境,您可以在生产运维中心周期任务查看。详情请参见查看并管理周期任务

  • 中间版本:节点提交一次后未发布,如果再提交一次,则上一次提交的版本将成为中间版本。

  • 发布已取消:节点提交后在任务发布界面将该条待发布记录取消发布,该版本的状态则会变为发布已取消。

结构:代码结构通过SQL算子进行可视化展示。

3

SQL编辑器:您可以根据业务需求在编辑器中编写任务的SQL语句。

  • 单击跳转至首行图标,即可跳转至SQL语句的首行位置。

  • 单击全屏展示图标,即可全屏展示SQL编辑器。

  • 单击快捷运行图标,快速运行目标代码片段,测试代码片段编写是否正确。详情请参见调试代码片段:快捷运行

    说明

    鼠标单击代码行,才会显示该图标。

4

发布运维操作

  • 发布:进入任务发布页面,您可以在该页面查看节点的发布详情,或进行节点发布后的生产运维操作。

  • 运维:进入生产运维中心,执行节点相关的运维操作。

数据开发(节点)快捷菜单

将鼠标悬停至目标开发节点,单击鼠标右键,即可显示节点的快捷菜单,相关功能如下图所示。节点编辑快捷操作

功能

描述

重命名

修改目标节点的名称。

收藏

收藏目标节点后,单击数据开发目录树右上方的我收藏的,即可展示已收藏的节点。对于已收藏的节点,后续无需收藏时,则可在节点的快捷菜单单击取消收藏

移动

移动目标节点至其他业务流程目录。

克隆

用于复制出一个具有相同节点类型、责任人及资源属性的节点。

说明

同一业务流程目录下,原节点和克隆节点的名称不能相同。

查看历史版本

用于在版本面板查看节点历史版本、提交人、提交时间、变更类型、状态、备注等信息。

在运维中心查看节点

进入运维中心查看节点的运行信息。标准环境的工作空间,若节点提交至开发环境及生产环境,则您可选择进入开发环境运维中心或生产环境运维中心,分别查看节点的运行情况。

发起代码评审

提交当前节点的代码至评审人进行评审。开发人员提交的节点必须通过评审人对代码的审核才可以发布。

删除

删除该节点及其上下游依赖节点对该节点的依赖。已发布至生产环境的节点被删除后,您需要进入任务发布界面执行发布操作,发布后该节点才会在生产环境下线,详情请参见下线任务