DataWorks基於雲原生MaxCompute輕鬆構建離線數倉分析系統。MaxCompute可通過DataWorks提供的可視化方式配置任務工作流程、周期性調度執行任務及中繼資料管理,保障資料生產及管理的高效穩定。本文為您介紹在DataWorks上開發MaxCompute任務的基本流程、費用說明、環境準備、許可權控制等內容。
前提條件
已開通DataWorks,詳情請參見開通DataWorks服務。
已開通MaxCompute,詳情請參見開通MaxCompute服務。
已建立DataWorks工作空間,詳情請參見建立工作空間。
使用說明
DataWorks on MaxCompute的相關開發說明如下。
類別 | 說明 |
在DataWorks上進行MaxCompute任務開發,除DataWorks側產品費用外,還會產出其他產品側費用。 | |
在DataWorks上進行MaxCompute任務開發前,您需根據業務需求購買相應DataWorks版本及所需資源群組,並完成相關MaxCompute資料來源的建立及綁定工作。 | |
DataWorks提供DataWorks產品級與模組層級許可權控制,以及MaxCompute資料來源的可視化許可權申請與審批能力。 | |
DataWorksData Integration提供MaxCompute資料讀取與寫入的能力,並提供離線同步、即時同步、全增量同步處理任務等多種資料同步情境。 | |
DataWorks提供資料建模服務,將無序、雜亂、繁瑣、龐大且難以管理的資料,進行結構化有序的管理。還提供資料開發(DataStudio)功能,用於調度任務的開發,並與營運中心配合使用,進行調度任務的監控營運。 | |
DataWorks資料分析提供MaxCompute資料分析與服務共用能力。 | |
DataWorks提供MaxCompute中繼資料管理與資料治理能力。 | |
DataWorks提供資料服務能力,協助您統一管理面向內外部的API服務。 | |
DataWorks支援開放能力,協助您快速實現各類應用系統對接DataWorks,並進行資料流程管控、資料治理和營運,及時響應各應用系統對接DataWorks的業務狀態變化。 |
費用說明
DataWorks資料開發與營運中心提供MaxCompute資料同步、資料加工任務的周期調度,不僅包含DataWorks相關費用,同時會產生產品側其他費用,具體如下。
一、DataWorks相關費用
以下費用會體現在DataWorks產品相關賬單中。DataWorks計費詳情請參見DataWorks計費項目說明。
費用 | 說明 |
DataWorks版本費用 | 進行任務開發前,您需先開通DataWorks。如果開通的是DataWorks標準版、專業版、企業版,則在開通時需支付相應版本的版本費用。 |
任務調度的調度資源費用 | 任務開發完成後,進行任務調度需使用調度資源。您可使用Serverless資源群組(推薦)或舊版獨享調度資源群組,支付相應資源群組費用。 說明 購買的Serverless資源群組可滿足任務調度、資料同步共同使用。 |
資料同步的同步資源費用 | 運行資料同步任務時,除調度資源外,還需使用資料同步資源。您可使用Serverless資源群組(推薦)或舊版獨享Data Integration資源群組,支付相應資源群組費用。 |
DataStudio介面使用運行、帶參運行功能執行的任務,不會收取調度費用。
沒有實際執行成功的任務及空跑的任務不收取調度費用。
您可參考DataWorks調度任務下發邏輯,以輔助瞭解上述計費說明。
二、非DataWorks相關費用
以下費用不會體現在DataWorks產品相關賬單中。任務開發運行過程中可能會產生的其他費用如下。
其他產品收費情況由對應產品的計費邏輯決定,您可查看對應產品的計費文檔瞭解詳情。以MaxCompute為例,計費詳情請參見MaxCompute計費項目說明。
費用 | 說明 |
資料庫費用 | 資料同步時,讀寫上下遊資料庫中的資料,可能會產生資料庫費用。 |
計算和儲存費用 | 運行計算引擎任務時,可能會產生計算引擎的計算和儲存費用。例如,運行一個MaxCompute的SQL任務,建立表並寫入表資料,可能會產生MaxCompute的計算和儲存費用。 |
網路服務費用 | 連通DataWorks和其他相關產品的網路環境時,可能會產生網路服務費用。例如,使用Express Connect、共用頻寬、EIP等產品連通網路時,會產生相應產品的服務費用。 |
環境準備
一、資源準備
DataWorks提供具備豐富產品能力的標準版、專業版、企業版,以及租戶專有的Serverless資源群組,您可結合實際業務開發需要選擇。
類別 | 描述 | 相關文檔 |
版本選擇 | DataWorks基礎版服務可滿足MaxCompute開發中基本的資料上雲、資料開發與調度生產、簡單的資料治理工作,若需擷取更專業的資料治理、資料安全解決方案,可選擇相應的標準版、專業版、企業版服務。 | |
資源群組選擇 |
|
二、開發環境準備
您需先將MaxCompute專案建立為DataWorks工作空間的資料來源並綁定至資料開發(DataStudio),才可進行相關開發工作。同時,支援以工作空間為單位管理空間成員以便進行協同開發。
類別 | 描述 | 相關文檔 |
資料同步環境準備 | 基於DataWorks進行MaxCompute同步任務前,您需先將MaxCompute專案建立為工作空間的資料來源。建立後,才可使用該資料來源執行相關同步任務。 | |
資料開發、資料分析環境準備 | 基於DataWorks進行MaxCompute調度任務前,您需先將MaxCompute專案建立為工作空間的資料來源並綁定至資料開發(DataStudio)。綁定後,才可使用該資料來源進行相關資料開發、資料分析、周期性調度運行任務等操作。 | |
協同開發環境準備 | 為保障RAM使用者以工作空間為單位進行協同開發,需將進行協同開發的RAM使用者添加為當前工作空間的成員,並授予其開發角色。 |
許可權控制
DataWorks為您提供了產品級與模組層級的許可權控制,並支援使用可視化方式申請與審批MaxCompute資料來源的相關許可權。許可權控制相關介紹如下。
一、資料訪問與許可權控制
您可通過ODPS SQL節點或臨時查詢節點,查詢MaxCompute表資料,簡單模式工作空間無法做到細粒度許可權控制及開發生產隔離,本文以標準模式工作空間樣本說明。
許可權預設情況說明
RAM使用者被添加至工作空間成為空白間成員後,其資料存取權限預設情況如下。
權限類別
描述
MaxCompute開發專案許可權
DataWorks通過空間級預設角色與開發環境MaxCompute資料來源Role的映射關係,讓被授予空間角色的RAM使用者(子帳號)擁有該角色映射的開發資料來源許可權,預設擁有開發環境對應的資料來源專案許可權,但無生產環境對應的資料來源專案許可權。
MaxCompute生產專案許可權
除被授予調度訪問身份的RAM使用者(子帳號)擁有生產環境MaxCompute專案較大許可權外,其他RAM使用者(子帳號)沒有生產環境專案許可權。如需操作生產表,請前往資訊安全中心申請許可權。
DataWorks為您提供了預設的審批次程序,同時,也支援管理者自訂審批次程序。
更多關於MaxCompute資料存取權限控制說明,請參見MaxCompute資料許可權控制詳情。
資料訪問行為說明
MaxCompute支援跨專案查詢表,因此,在資料開發(DataStudio)介面可通過指定專案名稱的方式,跨專案查詢DataWorks工作空間中的生產資料。跨專案訪問表的方式及各介面執行所使用的帳號說明,請見下表。
說明不同環境建立的資料來源及環境配置的執行帳號,可查看工作空間的資料來源資訊。詳情請參見建立MaxCompute資料來源。
DataWorks標準模式工作空間下,開發環境預設使用任務執行者個人身份執行任務,生產調度環境預設使用某雲帳號執行任務,即調度訪問身份。詳情請參見建立MaxCompute資料來源。
程式碼範例
開發環境(資料開發、開發環境營運中心)執行代碼
生產環境(生產環境營運中心)執行代碼
訪問開發專案中的開發表:
select col1 from projectname_dev.tablename;
使用任務執行者個人云帳號訪問開發表。
RAM使用者(子帳號)執行相關任務,則使用RAM使用者(子帳號)個人云帳號訪問開發表。
阿里雲主帳號執行相關任務,則使用阿里雲主帳號訪問開發表。
使用調度訪問身份訪問開發表。
訪問生產專案中的生產表:
select col1 from projectname.tablename;
使用任務執行者個人云帳號訪問生產表。
說明由於生產資料安全控制,個人云帳號預設無許可權訪問生產表,需前往資訊安全中心進行申請。DataWorks提供預設審批次程序,支援管理者自訂審批次程序。
使用調度訪問身份訪問生產表。
在目標類型環境(例如,開發環境)執行語句,訪問相應環境中的表(即開發表):
select col1 from tablename;
在開發環境執行時,使用任務執行者個人云帳號訪問身份,訪問開發資料來源中目標表。
在生產環境執行時,使用調度訪問身份,訪問生產資料來源中目標表。
二、功能模組許可權控制
進行資料開發前,您可為使用者授權指引授予工作空間成員不同空間角色,讓其擁有不同的操作許可權。權限類別型如下:
通過RAM Policy許可權體系,管理DataWorks功能模組(例如,不允許使用者訪問資料地圖)與DataWorks控制台的許可權(例如,允許使用者刪除工作空間)。
通過RBAC許可權模型,管理DataWorks空間級模組(例如,允許使用者進入資料開發執行相關開發操作)與全域模組的使用許可權(例如,禁止使用者訪問資料保護傘模組)。
開始使用
DataWorks為您提供了多個功能模組,您可在資料開發(DataStudio)中進行調度任務的開發,並在開發完成後進入生產營運中心進行調度任務的監控營運。同時,提供了任務開發與發布的流程管控,助力您規範開發操作,保障開發過程的安全性。
一、Data Integration
DataWorks的Data Integration模組為您提供讀取和寫入資料至MaxCompute的能力,您可將其他資料來源的資料同步至MaxCompute資料來源,或將MaxCompute資料來源的資料同步至其他資料來源。同時,可根據需要選擇離線同步、即時同步、全增量同步處理任務等情境執行相關資料同步操作。詳情請參見Data Integration。
二、資料建模與開發
模組 | 描述 | 相關文檔 |
資料建模 | 資料建模是全鏈路資料治理的第一步,沉澱阿里巴巴資料中台建模方法論,從數倉規劃、資料標準、維度建模、資料指標四個方面,以業務視角對業務的資料進行詮釋,讓企業內部實現“數同文”的快速理解與流通。 | |
資料開發 | DataWorks將MaxCompute計算引擎的能力進行了封裝,支援您執行MaxCompute相關的資料同步、資料開發工作單位。
| |
您可結合DataWorks的通用類型節點和引擎計算節點進行複雜的邏輯處理。 主要節點如下:
| ||
節點任務開發完成後,可根據需要執行如下操作:
| ||
營運中心 | 營運中心是一站式巨量資料營運、監控平台,支援即時查看任務的運行狀態,並為異常任務提供智能診斷、重跑等營運操作。它提供智能基準功能,協助您解決重要任務產出時間不可控、海量任務監控難等問題,保障任務產出的時效性。 | |
資料品質 | 資料品質針對資料研發的全鏈路,保障資料可用性。通過對資料品質規則的高效校正,以及與任務調度流程的緊密結合,可以協助使用者第一時間發現品質問題、有效防止資料品質問題擴散,為業務提供高效、可靠、可信賴的資料。 |
三、資料分析
協助您實現線上SQL分析、業務洞察、編輯和分享資料;並支援將查詢結果儲存為圖表卡片,快速搭建可視化資料報告便於日常彙報。詳情請參見資料分析概述。
四、資料治理
MaxCompute資料來源綁定完成後,DataWorks將自動採集您資料來源下的中繼資料,您可前往資料地圖進行查看;同時,也可進入資料治理中心,查看DataWorks檢測的待治理問題,進行相關資料的治理。
模組 | 說明 | 相關文檔 |
資料地圖 | DataWorks資料地圖提供了企業級資料管理平台,能夠基於統一中繼資料的底層建設,提供資料對象的管理和盤點的能力,以及資料對象的快速尋找和深度理解的能力。 | |
資訊安全中心 資料保護傘 核准中心 | 資訊安全中心是集資料資產分級分類、敏感性資料識別、資料授權管理、敏感性資料脫敏、敏感性資料訪問審計、風險識別與響應於一體的一站式資料安全治理介面,協助使用者落地資料安全治理事項。 | |
資料治理中心 | 資料治理中心針對多個治理領域,通過資料領域規則沉澱、自動識別資產待最佳化問題項、覆蓋事後及事前的治理最佳化策略等方式協助使用者主動式、體系化完成資料治理工作。 |
五、資料服務
DataWorks資料服務旨在為企業提供全面的資料服務及共用能力,協助企業統一管理面向內外部的API服務。詳情請參見資料服務概述。
六、開放平台
DataWorks支援開放能力,協助您快速實現各類應用系統對接DataWorks、方便快捷的進行資料流程管控、資料治理和營運,及時響應應用系統對接DataWorks的業務狀態變化。
類別 | 描述 | 相關文檔 |
OpenAPI | DataWorks開放平台的OpenAPI功能,為您提供開放API能力,通過開放API實現本地服務和DataWorks服務的互動,提升企業巨量資料處理效率,減少人工操作和營運工作,降低資料風險和企業成本。 | |
開放事件 | DataWorks開放平台的開放事件(OpenEvent)功能,為您提供訊息訂閱服務,通過訂閱DataWorks事件狀態、應用系統對接DataWorks、即時擷取相關內容的狀態變化,協助您及時響應相應事件,滿足個人化決策需求。 | |
擴充程式 | DataWorks通過OpenEvent為您提供訊息發送訂閱功能,您可將服務程式註冊為DataWorks的擴充程式,通過擴充程式來卡點並響應訂閱的事件訊息,實現通過擴充程式對特定事件進行訊息通知與流程管控。 |
附錄:DataWorks與MaxCompute的關係
簡單模式工作空間僅一個生產環境,並且僅對應MaxCompute一個專案,本文以標準模式工作空間進行說明。
DataWorks為MaxCompute提供任務調度、中繼資料管理、資料治理、資料安全管控等能力,但任務計算、資料存放區仍在MaxCompute中。標準模式工作空間下,DataWorks為不同環境綁定不同的MaxCompute專案,實現DataWorks開發環境與生產環境儲存、資源等隔離。
在DataWorks工作空間建立MaxCompute資料來源並綁定至資料開發(DataStudio),及查看各環境使用的MaxCompute專案,詳情請參見建立MaxCompute資料來源。
DataWorks調度任務下發邏輯,詳情請參見DataWorks調度任務下發邏輯。