全部產品
Search
文件中心

DataWorks:新版Data Studio概述

更新時間:Jan 15, 2026

Data Studio是阿里巴巴基於十幾年巨量資料經驗打造的智能湖倉一體資料開發平台,支援阿里雲多種計算服務,提供智能化ETL、資料目錄管理及跨引擎工作流程編排的產品能力。通過個人開發環境執行個體支援Python開發、Notebook分析與Git整合,Data Studio還支援豐富多樣的外掛程式生態,實現即時離線一體化、湖倉一體化、巨量資料AI一體化,助力“Data+AI”全生命週期的資料管理。

Data Studio 介紹

Data Studio是智能湖倉一體資料開發平台,內建阿里巴巴巨量資料建設方法論,深度適配阿里雲MaxCompute、E-MapReduce、Hologres、Flink、PAI等數十種巨量資料和AI計算服務,為資料倉儲、資料湖、OpenLake湖倉一體資料架構提供智能化ETL開發服務,它支援:

  • 湖倉一體與多引擎支援
    通過統一的資料目錄和豐富的引擎節點,實現對湖(例如,OSS)倉(例如,MaxCompute)資料的無差別訪問與多引擎混合開發。

  • 靈活的工作流程與調度
    提供豐富的流程式控制制節點,支援在工作流程中對跨引擎任務進行可視化編排,並提供時間驅動的周期調度和事件驅動的觸發式調度

  • 開放的Data+AI開發環境
    提供可自訂依賴的個人開發環境、支援SQL與Python混編的Notebook,並通過資料集Git整合等功能,構建開放、靈活的AI研發工作站。

  • 智能輔助與AI工程化
    內建強大的Copilot智能助手賦能代碼開發全過程,並通過專業的PAI演算法節點大模型節點,為端到端的AI工程化提供原生支援。

Data Studio 基本概念

概念

專業術語

核心價值

關鍵詞

工作流程

任務的組織與編排單元

實現複雜任務的依賴管理與自動化調度,是開發和調度的“容器”。

可視化、DAG、周期/觸發、編排

節點

工作流程中的最小執行單元

編寫代碼、實現具體商務邏輯的地方,是資料處理的原子操作。

SQL、Python、Shell、Data Integration

自訂鏡像

環境的標準化快照

保證環境的可拓展性、一致性與可複現性。

環境固化、標準化、可複製、一致性

調度

任務自動觸發的規則

實現資料生產的自動化,將手動任務轉化為可自動啟動並執行生產力。

周期調度、觸發式調度、依賴、自動化

資料目錄

統一的中繼資料工作台

結構化組織和管理資料資產(如表)及計算資源(如函數、資源)。

中繼資料、表管理、資料探查

資料集

外部儲存的邏輯映射

打通與外部非結構化資料(圖片/文檔)的串連,是 AI 開發的關鍵資料橋樑。

OSS/NAS 接入、資料掛載、非結構化

Notebook

互動 Data+AI 開發畫布

實現 SQL 與 Python 代碼的融合,加速資料探索與演算法驗證。

互動式、多語言、可視化、探索分析

Data Studio 流程指引

Data Studio提供面向數倉開發和AI開發的流程,以下展示常見兩種路徑。更多重路徑請按實際情況探索。

通用路徑:數倉開發流程(周期性ETL任務)

此流程適用於構建企業級資料倉儲,實現穩定、自動化的批量資料處理。

  • 面向人群:資料工程師、ETL 開發人員。

  • 核心目標:構建穩定、規範、可自動調度的企業級資料倉儲,進行批量資料處理和報表產生。

  • 關鍵技術:資料目錄、周期工作流程、SQL 節點、調度配置。

image

步驟

階段名稱

核心操作與目的

關鍵路徑和參考文檔

1

綁定計算引擎

為工作空間關聯一個或多個核心的計算引擎(如MaxCompute),作為所有SQL任務的執行環境。

image

控制台 > 工作空間配置

相關文檔,請參見綁定計算資源

2

資料目錄管理

在資料目錄中建立或探查數倉各層所需的表結構(ODS, DWD, ADS等),為資料處理定義好輸入和輸出。

推薦使用資料建模模組構建數倉體系。

image

Data Studio > 資料目錄

相關文檔,請參見資料目錄

3

建立周期工作流程

在專案目錄中建立一個周期工作流程,作為組織和管理相關ETL任務的容器。

Data Studio > 專案目錄 > 周期工作流程

相關文檔,請參見周期工作流程

4

節點開發和調試

建立ODPS SQL等節點,在編輯器中編寫核心的ETL(資料清洗、轉換、彙總)邏輯,並進行節點調試。

  • Data Studio > 節點開發 > 節點編輯器

  • Data Studio > 節點開發 > 調試配置

相關文檔,請參見節點開發

5

Copilot輔助開發

通過DataWorks Copilot能力,實現SQL、Python的代碼產生、代碼錯誤修正、代碼改寫、代碼轉換。

  • Data Studio > 節點開發 > Copilot

  • Data Studio > Copilot > Agent

    相關文檔,請參見DataWorks Copilot

6

節點編排和調度

在工作流程的DAG畫布中,通過拖拽和連線的方式,定義各節點之間的上下遊依賴關係。支援各種流程式控制制節點,可實現複雜的流程編排。

為工作流程或節點配置生產環境的調度屬性,如周期、時間和依賴。支援日均千萬級超大規模調度。

  • Data Studio > 工作流程 > 工作流程畫布

  • Data Studio > 節點開發 > 調度配置

相關文檔,請參見通用流程式控制制節點節點調度配置

7

工作流程/節點發布與營運

  • 發布:將調試完成的節點/工作流程通過發布流程部署到生產環境。

  • 營運:在營運中心對生產任務進行監控、警示、補資料等操作,並進行周期驗證。可通過智能基準確保任務按時產出,通過監控警示及時通知處理異常任務。

說明

相關入門案例可參見:進階:商品訂單暢銷類目分析

進階路徑:巨量資料AI開發流程

此流程適用於AI模型開發、資料科學探索和構建即時響應的AI應用,強調環境的靈活性與互動性。具體流程可因實際而定。

  • 面向人群:AI 工程師、資料科學家、演算法工程師。

  • 核心目標:進行資料探索、模型訓練、演算法驗證,或構建即時響應的 AI 應用(如 RAG、即時推理服務)。

  • 關鍵技術:個人開發環境、Notebook、觸發式工作流程、資料集、自訂鏡像。

    image

步驟

階段名稱

核心操作與目的

關鍵路徑和參考文檔

1

建立個人開發環境

建立一個隔離的、可自訂的雲端容器執行個體,作為安裝複雜Python依賴和進行專業AI開發的環境。

Data Studio > 個人開發環境

相關文檔,請參見個人開發環境

2

建立觸發式工作流程

在專案目錄中建立一個由外來事件驅動的工作流程,為即時AI應用提供編排容器。

Data Studio > 專案目錄 > 觸發式工作流程

相關文檔,請參見觸發式工作流程

3

建立和設定觸發器

在營運中心配置一個觸發器,定義何種外來事件(如OSS事件、Kafka訊息事件)會啟動工作流程。

  • 建立:營運中心 > 觸發器管理

  • 使用:Data Studio > 觸發式工作流程 > 調度配置

相關文檔,請參見管理觸發器設計觸發式工作流程

4

建立Notebook節點

建立用於編寫AI/Python代碼的核心開發單元。通常先在個人目錄的Notebook中進行探索。

專案目錄 > 觸發式工作流程 > Notebook節點

相關文檔,請參見建立節點

5

建立和使用資料集

將儲存在OSS/NAS上的非結構化資料(圖片、文檔等)註冊為資料集,並掛載到開發環境或任務中,供代碼訪問。

  • 建立:資料地圖 > 資料目錄 > 資料集

  • 使用:Data Studio > 個人開發環境 > 資料集配置

相關文檔,請參見管理資料集使用資料集

6

開發&調試Notebook/節點

在個人開發環境提供的互動式環境中編寫演算法邏輯,進行資料探索、模型驗證和快速迭代。

Data Studio > Notebook編輯器

相關文檔,請參見Notebook 基礎開發

7

安裝自訂依賴包

在個人開發環境的終端或Notebook的儲存格中,使用pip等工具安裝模型所需的所有Python三方庫。

Data Studio > 個人開發環境 > 終端

相關文檔,請參見附錄:完善個人開發環境

8

製作自訂鏡像

將配置好所有依賴的個人開發環境固化成一個標準化的鏡像,以保證生產環境與開發環境完全一致。

若沒有安裝自訂依賴包,則跳過此步驟。

  • Data Studio > 個人開發環境 > 管理環境

  • 控制台 > 自訂鏡像

相關文檔,請參見個人開發環境製作DataWorks鏡像

9

節點調度配置

在生產節點的調度配置中,必須指定使用上一步製作的自訂鏡像作為運行環境,並掛載所需的資料集。

Data Studio > Notebook節點 > 調度配置

相關文檔,請參見節點調度配置

10

節點/工作流程發布與營運

  • 發布:將配置完成的觸發式工作流程發布到生產環境。

  • 營運:通過觸發一個真實事件(如上傳檔案)來驗證端到端流程是否通暢,並進行觸發驗證

Data Studio 核心模組

image

核心模組

主要能力

工作流程編排

提供可視化的 DAG 畫布,支援通過拖拽方式輕鬆構建和管理複雜的任務工程。支援周期工作流程觸發式工作流程手動商務程序,滿足不同情境的自動化需求。

執行環境與模式

提供靈活、開放的開發環境,提升開發效率與協同能力。

  • 執行環境:支援預設開發環境、個人開發環境自訂鏡像,滿足個人化開發需求。同時,支援整合 Git進行代碼版本管理,方便開發人員使用熟悉的工具。

  • 開發模式:提供專案目錄(團隊協作)、個人目錄(個人開發測試)和手動目錄(臨時任務),實現開發資產的有效隔離與管理。

節點開發

支援豐富的節點類型和計算引擎,實現靈活的資料處理與分析。

  • 計算引擎:無縫對接 MaxCompute、EMR、Hologres、Flink 等巨量資料計算引擎及 PAI 等 AI 計算服務。

  • 節點類型:提供Data Integration、SQL、Python、Shell、Notebook 、大模型節點及各類AI互動節點,滿足資料同步、清洗、加工和 AI 訓練等多種需求。

更多詳情,請參見計算資源管理節點開發

節點調度

提供強大、靈活的自動化調度能力,確保任務按時、有序執行。

  • 調度機制:支援按時間(年月日時分秒)周期性調度,也支援基於事件或 OpenAPI 觸發的調度方式。

  • 調度依賴:支援設定複雜的同/跨周期、跨工作流程、跨工作空間的依賴關係,以及多種調度周期、不同類型任務的相互依賴。

  • 調度策略:支援配置任務的生效時間、失敗重跑、空跑、凍結等進階策略。

  • 調度參數:支援工作流程參數、工作空間參數、上下文參數、節點參數等。

    更多詳情,請參見節點調度配置

開發資源管理

實現對資料開發過程中涉及的各類資產的統一管理。

  • 資料目錄:提供湖倉一體的中繼資料管理能力,支援資料表的建立、查看與管理。

  • 函數與資源:支援自訂函數(UDF)和各類資源檔(如 JAR、Python)的管理與引用。

  • 資料集:支援掛載和管理 OSS/NAS 等外部儲存中的資料集。

    更多詳情,請參見資料目錄資源管理使用資料集

品質管控

內建多重管控機制,保障資料生產流程的規範性和產出資料的準確性。

  • 程式碼檢閱:支援在任務發布前進行人工 Code Review,確保代碼品質。

  • 流程管控:可結合煙霧測試 (Smoke Test)、治理項檢查、擴充程式等方式,在任務提交和發布時進行自動化校正。

  • 資料品質:可關聯資料品質監控規則,在任務運行後自動觸發資料校正,第一時間發現問題資料。

    更多詳情,請參見程式碼檢閱配置檢查項煙霧測試 (Smoke Test)資料品質規則配置

開放與拓展

提供豐富的開放介面和擴充點,方便與外部系統整合和二次開發。

Data Studio 產品計費

  • DataWorks側收費(費用在DataWorks相關賬單中)

  • 非DataWorks側收費(費用不在DataWorks相關賬單中)

    運行資料開發節點任務時,可能產生的計算引擎計儲存費用(例如,OSS儲存費)不在DataWorks收取。

Data Studio 快速開始

建立或啟用新版資料開發

  • 建立工作空間時,選擇使用新版資料開發(Data Studio)。具體操作請參見建立工作空間

  • 舊版資料開發(DataStudio)支援通過單擊資料開發頁面頂部的升級新版按鈕,按介面提示,將資料移轉至新版資料開發(Data Studio)。詳情請參見Data Studio 升級指南

    image

進入新版資料開發

進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

常見問題與答疑

  • Q:如何區分新版資料開發還是舊版資料開發?

    A:兩者頁面風格完全不同,新版為本文截圖樣式,舊版如下圖。

    image

  • Q:升級成新版資料開發之後,能退回舊版資料開發嗎?

    A:舊版資料開發升級新版為無法復原操作,成功升級後將無法回退至舊版。切換前建議先建立開啟新版資料開發的工作空間進行測試,確保新版資料開發滿足業務需求後再升級。另外,新版資料開發與舊版資料開發中的資料相互獨立。

  • Q:為什麼我建立工作空間時,沒看到使用新版資料開發(Data Studio)配置項?

    A:若您在介面上未看到此選項,代表您的工作空間已預設啟用新版資料開發。

    重要

    如您在使用新版資料開發過程中遇到問題,可添加DataWorks資料開發升級到新版專屬答疑群進行諮詢。