MaxCompute(原名ODPS)為您提供完善的資料匯入方案,能夠快速解決海量資料的計算問題。
前提條件
配置MaxCompute輸出節點前,您需要先配置好相應的輸入或轉換資料來源,詳情請參見即時同步能力說明。
背景資訊
寫入資料不支援去重,即如果任務重設位點或者Failover後再啟動,會導致有重複資料寫入。
操作步驟
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
滑鼠移至上方至表徵圖,單擊 。
您也可以展開商務程序,按右鍵目標商務程序,選擇
。在建立節點對話方塊中,選擇同步方式為單表(Topic)到單表(Topic)ETL,輸入名稱,並選擇路徑。
重要節點名稱必須是大小寫字母、中文、數字、底線(_)以及英文句號(.),且不能超過128個字元。
單擊確認。
在即時同步節點的編輯頁面,單擊 並拖拽至編輯面板,連線已配置好的輸入或轉換節點。
單擊MaxCompute節點,在節點配置對話方塊中,配置各項參數。
參數
描述
資料來源
選擇已經配置好的MaxCompute資料來源,此處僅支援MaxCompute資料來源。
如果您未配置資料來源,請單擊右側的建立資料來源,進入配置MaxCompute資料來源。
頁面建立,詳情請參見Tunnel資源群組
即 Tunnel Quota,l預設選擇公用傳輸資源,即MC的免費quota。
MaxCompute的資料轉送資源選擇,具體請購買與使用獨享Data Transmission Service資源群組。
說明如果獨享tunnel quota因欠費或到期不可用,任務在運行中將會自動切換為“公用傳輸資源”。
schema
選擇MaxCompute下已建立的schema。
表
選擇當前資料來源下需要同步的表名稱。
您可以單擊右側的一鍵建表建立新表,也可以單擊資料預覽進行確認。
說明建立目標資料表前,請先連線輸入節點,並確認有輸出欄位。
分區訊息
為您展示MaxCompute分區表的資訊。
分區方式
包括時間自動分區及根據欄位內容動態分區。其中時間自動分區是根據_execute_time_欄位進行分區的,詳情請參見即時同步欄位格式。根據欄位內容動態分區通過指定源端表某欄位與目標MaxCompute表分區欄位對應關係,實現源端對應欄位所在資料行寫入到MaxCompute表對應的分區中。
欄位對應
單擊欄位對應,設定源端和目標端欄位的映射。同步任務會根據欄位的映射關係同步資料。
如果您需要建立表,請單擊一鍵建表後,在建立資料表對話方塊中,配置各項參數。
參數
描述
表名稱
即時同步寫入的MaxCompute表的名稱。
生命週期
即時同步寫入的MaxCompute表的生命週期長度,詳情請參見生命週期。
資料欄位結構
即時同步寫入的MaxCompute表的欄位結構。如果您需要新增欄位,請單擊添加。
分區設定
即時同步寫入的MaxCompute表的分區資訊。 即時同步寫入MCompute表支援時間自動分區與根據欄位內容動態分區兩種分區方式
時間自動分區:根據_execute_time_欄位將資料寫入到對應時間分區中,詳情請參見即時同步欄位格式,
重要您最少需要設定二級分區(月和年),最多支援設定五級分區(分鐘、小時、天、月和年)。
關於MaxCompute表的介紹可參考文檔:分區
根據欄位內容動態分區:通過指定源端表某欄位與目標MaxCompute表分區欄位對應關係,實現源端對應欄位所在資料行寫入到MaxCompute表對應的分區中。例如:配置MaxCompute表分區欄位值來源為源端欄位A,當A欄位值為aa時,即時同步會將資料寫入到MaxCompute表對應的aa分區中,當A欄位值為bb時,即時同步會將資料寫入到MaxCompute表對應的bb分區中。
單擊工具列中的表徵圖。