全部產品
Search
文件中心

DataWorks:一鍵MaxCompute資料同步節點

更新時間:Nov 21, 2024

DataWorks支援使用DataStudio一鍵同步MaxCompute資料至Hologres,您可使用該方式快速查詢MaxCompute表資料。本文為您介紹如何建立並使用一鍵MaxCompute資料同步節點。

背景資訊

使用一鍵同步MaxCompute資料至Hologres進行資料查詢時,您需要先在Hologres中建立外部表格,該外部表格可視為MaxCompute源表(即需要同步的MaxCompute資料所在的表)與Hologres內部表的連結,通過該串連將MaxCompute源表資料同步至Hologres內部表中,外部表格的表結構與的MaxCompute源表的表結構相同。您也可以使用SQL語句匯入MaxCompute的資料至Hologres,詳情請參見使用SQL從MaxCompute匯入

匯入MaxCompute資料至Hologres的方式,比建立外部表格直接查詢資料的效能更好,建立外部表格查詢MaxCompute資料,詳情請參見一鍵MaxCompute表結構同步節點

說明

本文以下樣本操作以華東2(上海)地區為例,其它地區請以具體介面為準。

建立表資料同步節點

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 建立商務程序

    如果您已有商務程序,則可以忽略該步驟。

    1. 滑鼠移至上方至建立表徵圖,選擇建立商務程序

    2. 建立商務程序對話方塊,輸入業務名稱

    3. 單擊建立

  3. 建立一鍵MaxCompute資料同步節點。

    1. 滑鼠移至上方至建立表徵圖,選擇建立節點 > Hologres > 一鍵MaxCompute資料同步

      您也可以找到相應的商務程序,按右鍵商務程序,選擇建立節點 > Hologres > 一鍵MaxCompute資料同步

    2. 建立節點對話方塊中,輸入名稱,並選擇引擎執行個體節點類型路徑

    3. 單擊確認,進入節點編輯頁面。

  4. 配置節點資訊。

    在節點編輯頁面,配置同步MaxCompute資料所使用的MaxCompute源表、存放資料的目標表、同步策略及SQL代碼資訊。一鍵匯入MaxComputes資料

    1. 配置源表資訊。

      用於配置需要同步的MaxCompute資料來源於哪個表。此處是通過配置Hologres外部表格來映射MaxCompute源表資料。關鍵參數說明如下。

      參數

      描述

      目標串連

      Hologres外部表格所在的Hologres執行個體。

      目標庫

      Hologres外部表格存放於Hologres執行個體下哪個資料庫。

      外部表格來源

      配置Hologres外部表格的來源方式。後續使用該表作為同步MaxCompute資料至Hologres內部表的連結,映射MaxCompute源表資料。

      • 已有外部表格:若需要同步資料至內部表的外部表格已存在,可選擇此方式。該方式需要選擇已建立的外部表格所在的Schema及名稱。

      • 建立外部表格:一鍵MaxCompute資料同步需要使用Hologres外部表格加速查詢MaxCompute表資料。若尚未建立Hologres外部表格,您需要選擇此方式。

        該方式需要配置建立外部表格使用的伺服器,以及MaxCompute專案名稱和表名稱。

        說明

        您可以直接調用Hologres底層已建立的odps_server外部表格伺服器。詳細原理請參見postgres_fdw

    2. 配置目標表資訊。

      用於建立存放MaxCompute資料的Hologres內部表。

      參數

      描述

      目標schema

      Hologres內部表所屬的Schema

      目標表名

      Hologres內部表名稱。當建立內部表時,若表名稱已存在,不同類型的表處理策略如下:

      • 非分區表:刪除已存在的內部表及其資料,Hologres會建立新表。

      • 分區表:不會刪除已有表及其資料,Hologres根據分區值建立分區子表並匯入資料。

        說明

        若建立的表與原已有表的結構不同,則會報錯。

      目標表描述

      Hologres內部表的描述資訊。

    3. 配置同步策略。

      用於配置同步MaxCompute表資料的策略。

      參數

      描述

      同步欄位

      選擇需要同步的MaxCompute表欄位。

      分區配置

      選擇需要同步的MaxCompute表分區。

      說明

      Hologres當前僅支援同步一級分區。MaxCompute表的多級分區,將被設定為Hologres中的一級分區,多餘的分區自動對應為Hologres的普通欄位。

      索引配置

      為存放MaxCompute資料的Hologres內部表構建索引,後續您可根據索引快速查詢資料。建立索引,詳情請參見CREATE TABLE

    4. 產生SQL Script。

      DataWorks將根據同步配置,自動解析出運行當前同步任務的SQL語句。您可使用該語句進入Hologres的代碼編輯頁面,以SQL方式執行同步任務。

      說明
      • 產生的SQL Script無法編輯。當同步任務配置更新時,重新整理SQL Script,即可產生新的SQL語句。

      • 使用SQL方式執行同步任務,詳情請參見使用SQL從MaxCompute匯入

  5. 任務調度配置。

    如果您需要周期性執行建立的節點任務,可以單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊:

    • 配置任務調度的基本資料,詳情請參見配置基礎屬性

    • 配置時間調度周期、重跑屬性和上下遊依賴關係,詳情請參見時間屬性配置說明配置同周期調度依賴

      說明

      您需要設定節點的重跑屬性依賴的上遊節點,才可以提交節點。

    • 配置資源屬性,詳情請參見配置資源屬性。訪問公網或VPC網路的MySQL資料來源,請選擇與MySQL資料來源網路連通的調度資源群組,作為周期調度任務使用的資源群組。詳情請參見網路連通方案

  6. 儲存並運行節點。

    1. 在節點編輯頁面的頂部功能表列,單擊儲存表徵圖,儲存節點配置。

    2. 在節點編輯頁面的頂部功能表列,單擊運行表徵圖,同步MaxCompute資料。

    如果您使用的是標準模式的工作空間,任務提交成功後,請單擊頂部功能表列左側的任務發布,將任務發布至生產環境進行發布。具體操作請參見發布任務

  7. 查看周期調度任務。

    1. 單擊編輯介面右上方的營運,進入生產環境營運中心。

    2. 查看啟動並執行周期調度任務,詳情請參見查看並管理周期任務

    如果您需要查看更多周期調度任務詳情,可單擊頂部功能表列的營運中心,詳情請參見營運中心概述

後續步驟

MaxComputre資料同步完成後,您可進入DataWorks表管理頁面查看資料詳情,詳情請參見表管理;或進入Hologres,使用Holoweb查詢MaxCompute資料,詳情請參見HoloWeb