全部產品
Search
文件中心

DataWorks:基於AnalyticDB構建企業數倉

更新時間:Oct 25, 2024

本文將為您介紹如何基於AnalyticDB構建企業數倉,並進行營運和中繼資料管理等操作。

開始本文的操作前,請首先建立工作空間,詳情請參見建立工作空間

配置AnalyticDB for MySQL 3.0資料來源

  1. 進入資料來源頁面。

    1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的更多 > 管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心

    2. 進入工作空間管理中心頁面後,單擊左側導覽列的資料來源 > 資料來源列表,進入資料來源頁面。

  2. 新增資料來源對話方塊中,選擇資料來源類型為AnalyticDB for MySQL (V3.0)

  3. 配置AnalyticDB for MySQL 3.0資料來源的參數,詳情請參見配置AnalyticDB for MySQL 3.0資料來源

    說明
    • 支援Serverless資源群組(推薦)或者舊版獨享調度資源群組運行AnalyticDB for MySQL 節點任務訪問專用網路環境下的AnalyticDB for MySQL 執行個體,其他資源群組無法訪問專用網路環境下的AnalyticDB for MySQL 執行個體,會出現連結逾時的情況。Serverless資源群組使用詳情請參考文檔新增和使用Serverless資源群組

    • 如果使用的是AnalyticDB for MySQL 2.0版本,通過使用者AK資訊進行身分識別驗證。

    • 如果使用的是AnalyticDB for MySQL 3.0版本,通過資料庫的使用者名稱和密碼進行身分識別驗證(開通3.0版本資料庫後,首先在控制台建立使用者和密碼)。

  4. 單擊測試連通性

  5. 測試連通性通過後,單擊完成

設定AnalyticDB for MySQL 3.0白名單

由於AnalyticDB for MySQL 3.0版本基於使用者名稱密碼訪問,因此需要設定用戶端白名單,才允許串連資料庫。

內網環境

測試連通性的過程中,您可以通過連通性診斷工具將AnalyticDB for MySQL 3.0的VPC綁定到Serverless資源群組,並將資源群組綁定的交換器網段IP添加到AnalyticDB for MySQL 3.0白名單裡。詳情請參見測試連通性

公網環境

為Serverless資源群組綁定的VPC配置公網NAT Gateway和EIP,將配置的EIP添加到AnalyticDB for MySQL 3.0資料來源的白名單裡。

  • 為Serverless資源群組綁定的VPC配置公網NAT Gateway和EIP 。

    為了能讓DataWorks gateway請求AnalyticDB for MySQL 3.0,需要為Serverless資源群組綁定的VPC配置公網NAT Gateway和EIP,詳情可參考文檔網路連通方案。將配置的EIP添加到AnalyticDB for MySQL 3.0的白名單中(AnalyticDB for MySQL 2.0不需要設定)。

  • 設定AnalyticDB for MySQL 3.0白名單 。

    1. 登入AnalyticDB for MySQL 3.0控制台,進入叢集列表頁面。單擊叢集 ID/叢集描述詳情進入叢集管理介面。單擊左側導覽列叢集管理 > 叢集資訊,在資料安全-白名單設定位置設定白名單。

    2. 單擊添加白名單分組按鈕,進入添加白名單分組頁面。輸入自訂的分組名稱,並將對應的Serverless資源群組綁定的VPC的EIP粘貼至組內白名單中。單擊確定進行儲存。

建立商務程序

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料建模與開發 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 在資料開發頁面,單擊上方導覽列的建立 > 建立商務程序,進入建立商務程序頁面,在對話方塊中輸入業務名稱描述

  3. 單擊建立

建立離線同步任務

  1. 按右鍵建立商務程序下的Data Integration,選擇建立 > 離線同步

  2. 建立節點對話方塊中,輸入名稱,單擊提交

  3. 設定資料來源資料去向

  4. 選擇欄位的映射關係。

    左側的源頭表欄位和右側的目標表欄位為一一對應關係。單擊添加一行可以增加單個欄位,滑鼠放至需要刪除的欄位上,即可單擊刪除表徵圖進行刪除 。

  5. 通道控制。

    配置作業速率上限和髒資料檢查規則。

    參數

    描述

    任務期望最大並發數

    資料同步任務內,可以從源並行讀取或並行寫入資料存放區端的最大線程數。嚮導模式通過介面化配置並發數,指定任務所使用的並行度。

    同步速率

    設定同步速率可以保護讀取端資料庫,以避免抽取速度過大,給源庫造成太大的壓力。同步速率建議限流,結合源庫的配置,請合理配置抽取速率。

    髒資料策略

    錯誤記錄數,表示髒資料的最大容忍條數。

    分散式處理能力

    選擇任務啟動並執行機器,如果任務數比較多,使用預設資源群組出現等待資源的情況,建議購買Serverless資源群組,詳情請參見新增和使用Serverless資源群組

  6. 單擊右側的調度配置,為節點配置調度屬性。

  7. 配置完成後,單擊儲存按鈕進行儲存,並單擊提交按鈕提交任務。

建立資料開發工作單位

  1. 按右鍵商務程序下的自訂,選擇建立 > AnalyticDB for MySQL

  2. 建立節點對話方塊中,輸入節點名稱,單擊提交

  3. 選擇相應的資料來源後,根據AnalyticDB for MySQL支援的文法,編寫SQL語句。通常支援DML語句,您也可以執行DDL語句。

  4. 單擊右側的調度配置,為節點配置調度屬性。調度配置

  5. 配置完成後,單擊儲存按鈕,將其儲存至伺服器。然後單擊運行按鈕,即可立即執行編輯的SQL語句。

資料營運

任務提交發布後,會基於節點的配置周期性運行,您可單擊節點編輯介面右上方的營運,進入營運中心查看周期任務的調度運行情況。詳情請參見查看並管理周期任務

中繼資料管理

您可以單擊進入DataWorks控制台,選擇資料治理 > 資料地圖,進行中繼資料管理操作。詳情請參見資料地圖概述