當您面對巨量資料計算任務頻繁且存在大量相似子查詢情境時,資料資產治理支援自動化治理,智能推薦物化視圖,為您提供了一種智能化、自動化的解決方案。啟用此功能,資料資產治理能夠自動識別和分類MaxCompute中的相似子查詢,並產生物化視圖推薦,您可以按需一鍵產生物化視圖,從而顯著提升計算效率和節省計算資源。
功能介紹
DataWorks自動化治理中的物化視圖功能依託於MaxCompute的物化視圖推薦與管理能力,可快速掃描識別DataWorks調度情境下MaxCompute SQL中存在的大量相似子查詢,並基於這些相似子查詢推薦檢視窗產生SQL用於快速建立物化視圖。
視圖建立完成後,DataWorks將同步建立產出視圖資料的節點並發布至生產環境調度中,DataWorks上原存在相似子查詢的下遊節點將統一掛載在產出視圖資料的節點下,依靠調度依賴關係,DataWorks會優先調度產出視圖資料的節點,當下遊節點使用公用子查詢時,從已產生資料的物化視圖中查詢,以此減少資料的重複計算,達到治理目的。
支援地區:華東1(杭州)、華東2(上海)、華南1(深圳)、華北2(北京)、西南1(成都)。
前提條件
已新增MaxCompute資料來源。詳情請參見建立MaxCompute資料來源。
已在MaxCompute中開啟物化視圖智能分析。詳情請參見物化視圖推薦與管理。
使用流程
開啟物化視圖推薦。
DataWorks資料開發模組中綁定的MaxCompute專案,開啟物化視圖推薦後,當需要滿足以下條件時,將會在物化視圖推薦頁面產生物化視圖推薦。
周期任務至少連續運行3天以上。
公用子查詢中的輸入資料量大於1,000,000行。
公用子查詢中需要包含JOIN或AGG(彙總,Aggregation)等涉及資料重組計算的運算子。
查看物化視圖推薦和建立物化視圖。
您可以查看並判斷其物化視圖推薦是否合理,進行物化視圖的建立治理任務。
如果建立物化視圖時,配置了建立物化視圖重新整理節點和增加物化視圖任務依賴,則物化視圖建立成功後,將會在DataWorks調度情境下生效。
在具備相似計算的節點任務前,自動新增一個可動態重新整理的物化視圖節點,當原表任務或上遊節點產出後,先進行物化視圖重新整理,產出最新資料,下遊節點再從此物化視圖中擷取資料。
管理物化視圖。
您可以管理本空間通過物化視圖推薦建立的物化視圖,查看本工作空間下物化視圖的命中情況,對生效情況不符合預期的物化視圖進行詳情分析或刪除。
操作步驟
步驟一:開啟和停用物化視圖推薦
開啟和停用物化視圖推薦需要工作空間管理員進行操作。
進入資料資產治理。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,然後在右側單擊進入資料資產治理。
單擊左側導覽列
。選擇工作空間後,單擊物化視圖推薦設定,在需要開啟智能物化視圖推薦項目後開啟智能推薦開關。
步驟二:查看物化視圖推薦
該模組能夠自動識別可建立的物化視圖,以及其關聯的計算任務,相關責任人可判定其是否合理,進行物化視圖的建立治理。
為了更精準地產生物化視圖推薦,開啟物化視圖推薦後,需要滿足以下條件,才能在物化視圖推薦頁面查看到相關推薦。
周期任務至少連續運行3天以上。
公用子查詢中的輸入資料量大於1,000,000行。
公用子查詢中需要包含JOIN或AGG(彙總,Aggregation)等涉及資料重組計算的運算子。
在的頂部切換工作空間,然後單擊物化視圖推薦頁簽。
修改所屬專案、分析時間區間等篩選條件,查看是否有可推薦的物化檢視窗產生項。
如果在分析時間區間存在可推薦的物化檢視窗產生項,可查看如下資訊。
關鍵參數說明:
物化視圖推薦列顯示的物化視圖推薦任務標識包含公用子查詢的摘要資訊。格式:
Aggregate: xx; Inputs: xx, xx;
,其中:Aggregate:表示推薦的公用子查詢是否包含彙總操作。
Inputs:列出公用子查詢使用的所有源表表名稱。
可影響SQL數:當前公用子查詢被多少其他任務作業使用。
可影響節點數:當前公用子查詢被多少調度節點使用。
推薦程度:基於子查詢的重複次數、複雜度、輸入記錄數計算推薦程度。
單擊物化視圖推薦列的任務標識,查看子查詢的詳細資料(源表資訊、涉及的公用子查詢以及相關作業及調度任務)。
步驟三:建立物化視圖
結合實際業務需要與推薦詳情,在物化視圖推薦頁面,選擇是否建立物化視圖。如需建立,單擊操作列的建立物化視圖。
在建立物化視圖頁面配置物化視圖的具體參數。
配置項-建立物化視圖:根據輸入任務的共同子查詢,建立物化視圖節點並生產物化視圖。
參數
說明
輸入表
自動擷取,無需修改。
是否建立物化視圖
首次建立時,預設為建立物化視圖,無需修改。
說明如果已存在相同輸入表的物化視圖,則可按需配置選擇已有物化視圖。
物化視圖名稱
自訂。
生命週期
支援1天、7天和自訂天數。
重新整理方式
物化視圖的重新整理方式。
固定時間間隔重新整理
當讀取的表在DataWorks有產出任務時,預設選擇時間管理cron模式,如沒有產出任務,固定時間重新整理。
時間管理Cron模式
產出的具體時間預設為讀取的上遊表的產出節點最近產出的時間。
不重新整理
執行語句預覽
查看物化視圖的SQL語句預覽。
(可選)配置項-建立物化視圖重新整理節點:建立可動態重新整理物化視圖節點,原表任務產出後即可動態執行物化視圖重新整理,物化最新資料。
配置物化視圖節點重新整理名稱和節點運行逾時時間。
(可選)配置項-增加物化視圖任務依賴:對具備相似計算的節點任務,增加物化視圖節點任務為上遊調度依賴節點,以提高增量資料的查詢命中率。
該地區展示涉及的計算任務,包括本空間和其它空間的任務節點個數。你可以單擊查看詳情,查看具體的任務節點詳情。
單擊建立並執行,等待DataWorks自動建立物化視圖,您可以在物化視圖推薦頁面的操作狀態列查看建立狀態,或單擊操作列的查看詳情查看具體建立進度。
操作狀態包括:
待建立:未通過DataWorks發起物化視圖建立。
已建立:物化視圖建立成功。
建立中:已通過DataWorks發起物化視圖建立流程,但還未執行完成。
建立失敗:已通過DataWorks發起物化視圖建立流程,但中途出現建立失敗的情況。
查看詳情,展示物化視圖建立詳情。
如果在建立物化視圖時,配置了建立物化視圖重新整理節點和增加物化視圖任務依賴,則在對應的任務流程中,具備相似計算的節點任務前,將新增一個物化視圖重新整理節點,該節點的責任人為建立物化視圖的建立人。
步驟四:管理物化視圖
您可以管理本空間通過物化視圖推薦建立的物化視圖,查看本工作空間下物化視圖的命中情況,對未按預期生效的物化視圖進行詳情分析或刪除。
在頂部切換工作空間,然後單擊物化視圖管理頁簽。
修改所屬專案等篩選條件,查看已通過物化視圖推薦建立的物化視圖。
重要如果您MaxCompute專案的配額(Quota)為隨用隨付模式,則:
總節約計算量=計算輸入資料量×SQL複雜度
。MaxCompute SQL作業按照計算量×單價
收取費用。詳情請參見計算費用。您可以單擊物化視圖列的物化視表徵圖識,查看物化視圖詳情。
您可以單擊操作列的刪除,刪除物化視圖。