DataWorks支援使用DataStudio一鍵同步MaxCompute資料至Hologres,您可使用該方式快速查詢MaxCompute表資料。本文為您介紹如何建立並使用一鍵MaxCompute資料同步節點。
背景資訊
使用一鍵同步MaxCompute資料至Hologres進行資料查詢時,您需要先在Hologres中建立外部表格,該外部表格可視為MaxCompute源表(即需要同步的MaxCompute資料所在的表)與Hologres內部表的連結,通過該串連將MaxCompute源表資料同步至Hologres內部表中,外部表格的表結構與的MaxCompute源表的表結構相同。您也可以使用SQL語句匯入MaxCompute的資料至Hologres,詳情請參見使用SQL匯入MaxCompute的資料至Hologres。
匯入MaxCompute資料至Hologres的方式,比建立外部表格直接查詢資料的效能更好,建立外部表格查詢MaxCompute資料,詳情請參見一鍵MaxCompute表結構同步節點。
建立表資料同步節點
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
建立商務程序。
如果您已有商務程序,則可以忽略該步驟。
滑鼠移至上方至表徵圖,選擇建立商務程序。
在建立商務程序對話方塊,輸入業務名稱。
單擊建立。
建立一鍵MaxCompute資料同步節點。
滑鼠移至上方至表徵圖,選擇 。
您也可以找到相應的商務程序,按右鍵商務程序,選擇
。在建立節點對話方塊中,輸入名稱,並選擇引擎執行個體、節點類型及路徑。
單擊確認,進入節點編輯頁面。
配置節點資訊。
在節點編輯頁面,配置同步MaxCompute資料所使用的MaxCompute源表、存放資料的目標表、同步策略及SQL代碼資訊。
配置源表資訊。
用於配置需要同步的MaxCompute資料來源於哪個表。此處是通過配置Hologres外部表格來映射MaxCompute源表資料。關鍵參數說明如下。
參數
描述
目標串連
Hologres外部表格所在的Hologres執行個體。
目標庫
Hologres外部表格存放於Hologres執行個體下哪個資料庫。
外部表格來源
配置Hologres外部表格的來源方式。後續使用該表作為同步MaxCompute資料至Hologres內部表的連結,映射MaxCompute源表資料。
已有外部表格:若需要同步資料至內部表的外部表格已存在,可選擇此方式。該方式需要選擇已建立的外部表格所在的Schema及名稱。
建立外部表格:一鍵MaxCompute資料同步需要使用Hologres外部表格加速查詢MaxCompute表資料。若還未建立Hologres外部表格,您需要選擇此方式。
該方式需要配置建立外部表格使用的伺服器,以及MaxCompute專案名稱和表名稱。
說明您可以直接調用Hologres底層已建立的
odps_server
外部表格伺服器。詳細原理請參見postgres_fdw。
配置目標表資訊。
用於建立存放MaxCompute資料的Hologres內部表。
參數
描述
目標schema
Hologres內部表所屬的
Schema
。目標表名
Hologres內部表名稱。當建立內部表時,若表名稱已存在,不同類型的表處理策略如下:
非分區表:刪除已存在的內部表及其資料,Hologres會建立新表。
分區表:不會刪除已有表及其資料,Hologres根據分區值建立分區子表並匯入資料。
說明若建立的表與原已有表的結構不同,則會報錯。
目標表描述
Hologres內部表的描述資訊。
配置同步策略。
用於配置同步MaxCompute表資料的策略。
參數
描述
同步欄位
選擇需要同步的MaxCompute表欄位。
分區配置
選擇需要同步的MaxCompute表分區。
說明Hologres當前僅支援同步一級分區。MaxCompute表的多級分區,將在Hologres中被設定為一級分區,多餘的分區自動對應為Hologres的普通欄位。
索引配置
為存放MaxCompute資料的Hologres內部表構建索引,後續您可根據索引快速查詢資料。建立索引,詳情請參見建表概述。
產生SQL Script。
DataWorks將根據同步配置,自動解析出運行當前同步任務的SQL語句。您可使用該語句進入Hologres的代碼編輯頁面使用SQL方式執行同步任務。
說明產生的SQL Script無法編輯。當同步任務配置更新時,重新整理SQL Script,即可產生新的SQL語句。
使用SQL方式執行同步任務,詳情請參見使用SQL匯入MaxCompute的資料至Hologres。
任務調度配置。
如果您需要周期性執行建立的節點任務,可以單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊:
配置任務調度的基本資料,詳情請參見配置基礎屬性。
配置時間調度周期、重跑屬性和上下遊依賴關係,詳情請參見時間屬性配置說明及配置同周期調度依賴。
說明您需要設定節點的重跑屬性和依賴的上遊節點,才可以提交節點。
配置資源屬性,詳情請參見配置資源屬性。訪問公網或VPC網路的MySQL資料來源,請選擇與MySQL資料來源網路連通的調度資源群組,作為周期調度任務使用的資源群組。詳情請參見配置資源群組與網路連通。
儲存並運行節點。
在節點編輯頁面的頂部功能表列,單擊表徵圖,儲存節點配置。
在節點編輯頁面的頂部功能表列,單擊表徵圖,同步MaxCompute資料。
如果您使用的是標準模式的工作空間,任務提交成功後,請單擊頂部功能表列左側的任務發布,將任務發布至生產環境進行發布。具體操作請參見發布任務。
查看周期調度任務。
單擊編輯介面右上方的營運,進入生產環境營運中心。
查看啟動並執行周期調度任務,詳情請參見查看並管理周期任務。
如果您需要查看更多周期調度任務詳情,可單擊頂部功能表列的營運中心,詳情請參見營運中心概述。
後續步驟
MaxComputre資料同步完成後,您可進入DataWorks的表管理頁面查看資料詳情,詳情請參見表管理;或進入Hologres,使用Holoweb查詢MaxCompute資料,詳情請參見HoloWeb。