本文為您介紹DataWorks中,Data Integration、資料建模、資料開發、資料分析、資料服務等模組開發過程中涉及的相關基本概念。
通用概念
工作空間
工作空間是DataWorks管理工作、成員,分配角色和許可權的基本單元。工作空間管理員可以我工作空間加入成員,並賦予工作空間管理員、開發、營運、部署、安全性系統管理員或訪客角色,以實現多角色協同工作。
建議您根據部門或業務板塊來劃分工作空間。
資源群組
DataWorks資源群組屬於DataWorks的基礎服務,為DataWorks上的各個功能模組提供計算資源,DataWorks資源群組是您正常使用DataWorks的前提。資源群組的狀態將影響到相關功能的穩定運行,資源群組的配額將影響任務或服務啟動並執行效率。
DataWorks資源群組與阿里雲帳號下的資源群組不同,阿里雲帳號下的資源群組是進行資源分組管理的一種機制,協助您解決單個阿里雲帳號內的資源分組和授權管理的複雜性問題。與DataWorks產品所說的任務運行使用的資源群組為兩個概念,請注意區分。
DataWorks產品中使用的資源群組,若無特指舊版資源群組,均指Serverless資源群組,其用途為通用型。
Serverless資源群組,可應用於Data Integration、資料調度以及資料服務。
簡單模式與標準模式
為方便不同安全管控要求的使用者生產資料,DataWorks為您提供簡單模式和標準模式兩種工作空間模式。標準模式下,一個DataWorks工作空間對應兩個資料來源,可以將開發和生產環境的資料來源隔離。
計算資源
計算資源是計算引擎用於執行資料處理和分析任務的資源執行個體,如MaxCompute專案(Quota組)、Hologres執行個體等。
一個工作空間支援添加多種資料來源執行個體。其中,在資料開發中綁定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce和CDH/CDP資料來源後,即可在工作空間開發和調度計算資源的相關任務。
Data Integration
資料來源
DataWorks資料來源用於串連不同的資料存放區服務。在配置Data Integration同步任務之前,您需要首先定義好同步任務的源端和目的端資料來源資訊,以便在配置同步任務時,能夠通過選擇資料來源名稱來確定資料的讀取和寫入資料庫。一個工作空間支援添加多種資料來源執行個體。
資料同步
Data Integration資料同步支援結構化(例如RDS、DRDS等)、半結構化、無結構化(OSS、TXT等)的資料同步。即Data Integration僅支援傳輸能夠抽象為邏輯二維表的資料,不支援同步OSS中存放完全非結構化的資料(例如一段MP3)。資料同步支援多種同步方式,如離線同步、即時同步、單表/整庫全增量同步處理等,除此之外,還支援Serverless同步任務(Serverless同步任務無資源群組概念,只需關注同步任務本身)。
資料建模
資料建模
隨著業務的快速發展,企業資料呈幾何倍增長,資料量龐大、複雜、各類資料間標準不一致,往往會出現資料難以管理的現象。DataWorks資料建模服務,將無序、雜亂、繁瑣、龐大且難以管理的資料,進行結構化、有序的管理。使企業中的資料產生更多的價值,將資料價值最大化。
逆向建模
逆向建模是將物理表逆向產生邏輯模型,該功能協助您無需再次執行建模操作即可快速建立模型,節省了大量的時間成本。
建模空間
當您所需要管理多個DataWorks工作空間且需要複用一套數倉規劃時,面對跨多個工作空間的複雜資料體系,可以通過設計空間來共用一套資料建模工具,針對整個資料體系進行統一的數倉規劃、維度建模及指標定義等工作。
維度資料表
結合業務的資料域的規劃,提取出各業務資料域中進行資料分析時可能存在的維度,並將維度及其屬性通過維度資料表的方式儲存下來。例如,在進行電商業務資料分析時,可用的維度及其屬性有:訂單維度(屬性包括訂單ID、訂單建立時間、買家ID、賣家ID等)、使用者維度(性別、出生日期等)、商品維度(包括商品ID、商品名稱、商品上架時間)等,此時您就可以將這些維度和屬性建立為訂單維度資料表、使用者維度資料表、商品維度資料表等,將維度屬性記錄作為維度資料表的欄位。
明細表
結合業務過程的規劃,梳理分析各業務過程中可能產生的實際資料,將這些實際資料欄位通過明細表的方式儲存下來。例如,在下訂單這一業務過程中,您可以建立下訂單這一明細表,用於記錄下單過程可能產生實際資料欄位,例如訂單ID、訂單建立時間、商品ID、數量、金額等。後續您可將這些明細表部署到數倉中,通過ETL將真實的資料按照明細表的定義方式進行匯總儲存,便於業務分析時取用。
匯總表
匯總表用於組織一個資料域下相同時間周期、相同維度多個派生指標的統計資料,是對業務高度抽象後的梳理結果,為後續的業務查詢,OLAP分析,資料分發等提供基礎。
應用表
應用表是面向具體業務情境,用於組織相同時間周期、相同維度多個原子指標、派生指標或統計粒度的統計資料,為後續的業務查詢,OLAP分析,資料分發等提供基礎。
資料集市
資料集市是基於業務分類,面向特定應用情境或者產品的資料群組織。通常位於資料應用程式層,依賴於公用層的整合資料。
數倉規劃
使用DataWorks進行資料建模時,數倉架構師或者模型小組成員可以在數倉規劃頁面對資料分層、業務分類、資料域、業務過程、資料集市、主題域進行設計。完成設計後,模型設計師在建模過程中可以依賴數倉規劃中的資料分層、業務分類、資料域、業務過程等對所建模型進行分層化域管理。
貼源層:用於資料庫、日誌、訊息等基礎來源資料的引入。來源資料經過一系列ETL操作進入貼源層,該層級只能掛載貼源表。
公用層:用於加工、整合貼源層輸入的公用資料,建立統一的指標維度,構建可複用面向分析和統計的明細事實資料和摘要資料。該層級可掛載明細表、維度資料表、匯總表。
應用程式層:基於實際應用需求,擷取公用層加工整合後的資料,面向具體應用情境或指定產品進行的個人化資料統計。該層級可以掛載應用表、維度資料表。
數倉分層
DataWorks的數倉分層功能,預設為您建立了資料引入層ODS(Operational Data Store)、公用維度層DIM(Dimension)、詳細資料層DWD(Data Warehouse Detail)、摘要資料層DWS(Data Warehouse Summary)及應用資料層ADS(Application Data Service)等五層,各個分層的功能介紹如下:
資料引入層 ODS(Operational Data Store)
ODS層用於接收並處理需要儲存至資料倉儲系統的未經處理資料,其資料表的結構與未經處理資料所在的資料系統中的表結構一致,是資料倉儲的資料準備區。
詳細資料層 DWD(Data Warehouse Detail)
DWD層通過企業的商務活動事件構建資料模型。基於具體業務事件的特點,構建最細粒度的詳細資料表。您可以結合企業的資料使用特點,將詳細資料表的某些重要維度屬性欄位適當冗餘,即寬表化處理。同時,也可以減少詳細資料表及維度資料表的關聯,提高明細表的易用性。
摘要資料層 DWS(Data Warehouse Summary)
DWS層通過分析的主題對象構建資料模型。基於上層的應用和產品的指標需求,構建公用粒度的匯總指標事實表。
應用資料層 ADS(Application Data Service)
ADS層用於存放資料產品個人化的統計指標資料,輸出各種報表。
公用維度層 DIM(Dimension)
DIM層使用維度構建資料模型。可基於實際業務,存放邏輯模型的維度資料表;或存放概念性模型的維度定義,通過定義維度,確定維度主鍵,添加維度屬性,關聯不同維度等操作,構建整個企業的一致性資料分析維表,協助您降低資料計算口徑和演算法不統一的風險。
主題域
主題域用於將資料集市按照分析視角進行劃分,通常是聯絡較為緊密的資料主題的集合。您可以根據業務的關注點,將這些資料主題劃分至不同的主題域。例如,電商行業通常分為交易域、會員域、商品域等。
資料域
資料域是聯絡較為緊密的資料主題的集合,通常是根據業務類別、資料來源、資料用途等多個維度,對企業的業務資料進行的地區劃分,將同類型資料存放在一起,便於您快速尋找需要的內容。不同使用目的資料,分類標準不同。例如,電商行業通常分為交易域、會員域、商品域等。
業務過程
業務過程是企業在指定的資料域中所執行的商務活動,是資料建模所需要分析的邏輯主體。例如,交易域中可以有加入購物車、下單、支付等業務過程。
複合指標
由於派生指標只是針對某商務活動某段時間的資料量統計,無法滿足貼近使用者實際使用的業務增長率、差值計算等資料的比對需求(例如,統計某商務活動的周環比增長率)。因此,DataWorks為您提供了由派生指標通過運算規則進行計算而形成的複合指標,協助您更加靈活且細粒度地定義業務指標。
資料指標
DataWorks的資料建模提供資料指標功能,為您提供統一的指標體系建立能力。
指標體系由原子指標、修飾詞、時間周期和派生指標構成。
原子指標:是基於某一業務過程下的度量,如“支付訂單”業務過程中的“支付金額”。
修飾詞:是對指標統計業務範圍的限定,如限定“支付金額”的統計範圍為“母嬰類產品”。
時間周期:用於明確指標統計的時間範圍或者時間點,如指定統計“支付金額”的時間周期為“最近7天”。
派生指標:由原子指標、修飾詞、時間周期組合定義。如,統計“最近7天”“母嬰類產品”的“支付金額”。
標準代碼
標準代碼是欄位標準的取值範圍,在標準代碼中可設定某一欄位標準可選擇的資料的內容以及範圍。例如性別欄位標準的標準代碼內容應該為男或女。
欄位標準
欄位標準是對含義相同但欄位名稱不同的資料進行統一規範管理的資料準則,欄位標準可定義欄位的取值範圍、度量單位等內容。當欄位標準發生變化時可快速定位或變更對應的表,極大地提升了應用效率和準確率。
資料開發
節點
DataWorks的資料開發模組為您提供多種類型的節點,包括用於資料同步的Data Integration節點,用於資料清洗的引擎計算節點(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對引擎計算節點進行複雜邏輯處理的通用節點(例如,可統籌管理多個節點的虛擬節點、可迴圈執行代碼的do-while節點),多種節點配合使用,滿足您不同的資料處理需求。
商務程序
針對業務實體,抽象出商務程序的概念,協助您從業務視角組織代碼的開發,提高任務管理效率。
說明商務程序可以被多個解決方案複用。
商務程序協助您從業務視角組織代碼:
支援基於任務類型的程式碼群組織方式。
支援多級子目錄(建議不超過四級)。
支援從業務視角查看整體的商務程序,並進行最佳化。
支援根據商務程序組織發布和營運。
提供商務程序看板,協助您更高效地進行開發。
SQL 組件
僅適用於MaxCompute,您可以將SQL中的通用邏輯抽象為組件,提高代碼的複用性。
SQL代碼的處理過程通常是引入一到多個來源資料表,通過過濾、串連和彙總等操作,加工出新的業務需要的目標表。組件是帶有多個輸入參數和輸出參數的SQL代碼過程模板。
依賴關係
任務間通過依賴關係定義任務的運行順序。如果節點A運行後,節點B才能運行,我們稱A是B的上遊依賴,或者B依賴A。在DAG中,依賴關係用節點間的箭頭表示。
業務日期
通常指的是與商務活動直接相關的日期,這個日期反映了業務資料的實際發生時間。這個概念在離線計算情境中尤為重要,例如在零售業務中,您需要統計20241010日的營業額,往往會在20241011日淩晨再開始計算,這時所計算出來的資料實際是20241010日的營業額,這個20241010,就是業務日期。
輸出名稱
輸出名稱:每個任務(Task)輸出點的名稱。它是您在單個租戶(阿里雲帳號)內設定依賴關係時,用於串連上下遊兩個任務(Task)的虛擬實體。
當您在設定某任務與其它任務形成上下遊依賴關係時,必鬚根據輸出名稱(而不是節點名稱或節點ID)來完成設定。設定完成後該任務的輸出名也同時作為其下遊節點的輸入名稱。
說明輸出名稱可以作為某個Task在同租戶內,區別於其它Task的唯一概念對象,每個節點的輸出名稱預設為
工作空間名稱.系統產生9位元字.out
。您可以對Task增加自訂輸出名,但需要注意輸出節點名稱在租戶內不允許重複。輸出表名
輸出表名建議配置為當前任務的產出表,正確填寫輸出表名可以方便下遊設定依賴時確認資料是否來自期望的上遊表。自動解析產生輸出表名時不建議手動修改,輸出表名僅作為標識,修改輸出表名不會影響SQL指令碼實際產出的表名,實際產出表名以SQL邏輯為準。
說明節點的輸出名需要全域唯一,而輸出表名無此限制。
調度參數
調度參數是代碼中用於調度運行時動態取值的變數。代碼在重複運行時若希望擷取到運行環境的一些資訊,例如日期、時間等,可根據DataWorks調度系統的調度參數定義,動態為代碼中的變數賦值。
營運中心
定時時間
使用者為周期任務設定預期執行的時間點,可精確到分鐘層級。
重要影響任務啟動並執行因素較多,並不意味著定時時間到了,任務就會立即執行。在任務執行前,DataWorks會檢測上遊任務是否運行成功、定時時間是否已達到、調度資源是否充足,當上述條件均已滿足後,才開始正式觸發任務的運行。
業務日期
通常指的是與商務活動直接相關的日期,這個日期反映了業務資料的實際發生時間。這個概念在離線計算情境中尤為重要,例如在零售業務中,您需要統計20241010日的營業額,往往會在20241011日淩晨再開始計算,這時所計算出來的資料實際是20241010日的營業額,這個20241010,就是業務日期。
周期任務
指根據使用者設定的調度周期,由調度系統自動觸發執行的任務。在營運中心的周期工作清單中,您可以對任務進行一系列的營運和管理操作,如查看任務的DAG圖、測試回合、補資料以及修改任務責任人等。
周期執行個體
指根據周期任務的調度配置,自動產生用於執行的任務執行個體。例如某個任務設定為每小時調度一次,則平台一天會產生24個任務執行個體,每小時會自動觸發一個任務執行個體的運行,只有執行個體才有運行狀態等資訊。在營運中心的周期執行個體列表中,您可以對執行個體進行一系列的營運操作,如終止運行、置成功、重跑等。
補資料
根據您指定的任務和選定的時間段,自動產生補資料任務執行個體。補資料功能主要應用於歷史資料回刷和資料修正。通過補資料功能,您可以針對任意過去或未來的時間段重新計算資料,以保障資料的完整性和準確性。
基準
根據您設定的基準優先順序、承諾完成時間、預警餘量等配置,自動監控基準上的所有任務,對所有影響任務按時產出的風險進行預警。基準優先順序的數字越大,優先順序越高,DataWorks會對高優先順序基準上的任務進行資源傾斜,保障任務的產出時間。基準的預警餘量主要是預留處理異常的時間,DataWorks會用承諾完成時間減去預警餘量,計算出預警時間,如果任務無法在預警時間內產出,平台會及時發出預警,將風險告知給相關業務方。
資料治理中心
健康分
健康分是衡量資料資產健康情況的一個綜合指標,範圍從0到100,數值越大則代表資料資產的健康度越高。它基於資料治理項,採用預定義的模型進行量化評估,反映當前租戶、工作空間或個人的資料治理成效。健康分體系可細分為儲存、計算、研發、品質和安全等五個健康度領域維度,每個維度均有相應的健康分指標,協助使用者簡化理解成本,直觀瞭解資產狀態。
治理項
治理項指在資料治理過程中識別資產需要最佳化或解決的問題點,覆蓋研發規範、資料品質、安全合規、資源使用率等方面的問題。治理項分為強治理項和可選治理項,前者預設開啟且不可更改,後者則根據實際需求選擇啟用。例如,任務已耗用時間超長、連續出錯節點、無人訪問葉子節點等均為治理項。
檢查項
檢查項是作用於資料生產流程的主動式治理機制,可在資料任務提交、發布等關鍵環節進行前置檢查,判斷代碼或資料是否存在潛在問題,如是否存在全表掃描、調度依賴配置是否缺失等。當檢測到不符合要求內容時,會產生檢查項事件,系統自動進行攔截處置,從而約束和管理開發流程,確保資料處理的標準化和正常化。
資料治理計劃
資料治理計劃圍繞不同治理情境提供治理計劃模板,以周期時間內的治理目標為導向,快速選擇強相關的治理項和檢查項,圈定可最佳化對象,協助負責人持續跟蹤資料治理成效,通過量化評估,推動團隊及時達成治理目標。
知識庫
知識庫包含資料治理中心內建的檢查項及治理項定義,可協助資料治理人員快速識別和瞭解治理過程中遇到的具體問題,並提供解決問題的參考資訊和實踐指導,提升人員治理效率。
資訊安全中心
資料品質
品質監控
品質監控指持續跟蹤和檢測資料對象(如分區表的具體分區)的狀態和變化的過程,確保其符合預設的品質要求,發現並解決可能影響資料品質的問題。在DataWorks中,可以通過設定通過調度事件觸發的品質監控,來自動執行品質校正,並將品質結果警示給相關負責人。
品質規則
品質規則是評估資料品質是否符合預期要求的具體條件或邏輯判斷標準。例如,“客戶年齡不能小於0歲”等都屬於品質規則。在DataWorks裡,您可以根據業務需求靈活配置不同的品質規則,並將其應用於相應的資料範圍進行驗證。當發現不符合規則預期的資料時,系統會自動識別並進行品質警示。
規則模板
規則模板是預定義好校正邏輯的品質規則範例,您可以直接使用或者根據需要進行校正閾值修改,然後建立符合自己需求的品質規則。DataWorks提供了多種類型的規則模板供選擇,同時也支援通過自訂SQL建立新的模板:
資料保護傘
資料分類分級
用於對您當前的資料按照資料價值、內容敏感程度、影響和分發範圍進行敏感層級劃分。不同敏感層級的資料管控原則和資料開發要求存在差異。
敏感性資料識別規則
根據資料的來源、用途,定義資料分類並配置敏感欄位類型,識別當前工作空間中的敏感性資料。DataWorks提供了內建資料分類及識別規則,您也可根據需要自訂資料分類及敏感性資料識別規則。
資料脫敏規則
用於對識別到的敏感性資料配置脫敏規則。根據業務管控要求,不同敏感層級的資料脫敏管控存在差異。
風險識別規則
根據智能化的分析技術,通過風險識別規則,主動發現風險操作並預警。協助您進行更加全面的風險管理,有效識別並規避風險。
資料地圖
中繼資料
中繼資料是資料的描述資料,可以為資料說明其屬性(名稱、大小、資料類型等),或結構(欄位、類型、長度等),或其相關資料(位於何處、擁有者、產出任務、存取權限等)。
血緣
資料血緣是用於描述資料在處理、流轉和融合過程中形成的關聯關係。它通常展示資料是如何被建立、加工、同步直至最終消費的整個過程,以及在這個過程中涉及到的所有資料對象。在DataWorks平台上,通過可視化的方式展示資料之間的血緣關係鏈路,協助使用者快速定位問題所在,並評估更改某張表或欄位可能帶來的影響範圍。這對於維護複雜的資料處理流程尤其重要。
資料專輯
按照業務視角,進行資料表的類目組織和管理。您可以將指定表等加入目標專輯中進行收納,實現快速、便捷地檢索和定位。
資料分析
SQL查詢
SQL查詢是使用標準的SQL語句,來查詢和分析各類資料來源中的資料,詳情請參見SQL查詢。
試算表
試算表是面向資料表格進行線上編輯和管理的工具,支援將SQL查詢結果或本地檔案中的資料匯入至目標試算表進行進一步查閱、分析和可視化,也支援將試算表中的資料進行匯出、下載和分享,靈活滿足日常資料分析需求。詳情請參見建立並管理試算表。
資料洞察
資料洞察是指通過深度資料分析和解讀來擷取深刻的資料理解和發現,它支援資料探索和可視化。您可以通過資料洞察瞭解資料分布,建立數據卡片,並組合成資料報告。此外,資料洞察結果能夠通過長圖形式的報告進一步分享。該功能利用AI技術輔助資料分析,協助您解析複雜資料,並為業務決策提供支援。
資料服務
API
API全稱為Application Programming Interface。在DataWorks資料服務中,開發人員能夠基於各類資料來源快捷封裝資料API,在業務應用、軟體、系統、報表等情境中調用資料API,實現資料擷取與消費。
函數
函數是資料API的過濾器。當函數作為API的前置過濾器時,能夠對請求參數進行處理,例如:請求參數改值、請求參數賦值等。當函數作為API的後置過濾器時,能夠對返回結果進行二次加工,例如:更改返回結果的資料結構、增加返回結果內容等。
資料推送
DataWorks提供了資料推送服務,該服務可以建立推送任務,在任務內編寫單表或多表查詢的SQL代碼來圈定資料範圍,並添加富文本或表格等內容來組織推送訊息的內容。可以通過配置調度周期和時間,定時將資料推送至目標Webhook中。
開放平台
開放API(OpenAPI)
DataWorks開放平台提供OpenAPI能力,通過調用DataWorks的OpenAPI使用DataWorks的各項功能,實現應用和DataWorks的整合和互動。
開放事件(OpenEvent)
DataWorks的OpenEvent旨在將DataWorks的各類狀態變更情況以事件訊息的方式觸達到使用者,便於使用者訂閱訊息並做出個人化的響應。例如,您可以通過OpenEvent訂閱表變更事件,從而實現核心表的即時監控;通過OpenEvent訂閱任務變更事件,實現定製化的任務監控。
擴充程式(Extensions)
DataWorks擴充程式是一種外掛程式,結合OpenAPI及OpenEvent,您可以通過擴充程式對DataWorks中的使用者操作行為進行自訂邏輯處理並實現攔截阻斷等行為管控。例如,您可以開發一個任務變更管控擴充程式,實現自訂任務發布流程管控。