MaxCompute支援通過DataWorks的Data Integration功能將其他資料來源的資料以離線或即時方式匯入MaxCompute,也支援將部分類型的本地檔案資料匯入MaxCompute。本文為您介紹使用DataWorks將資料匯入MaxCompute的主要操作流程與注意事項。
前提條件
已開通DataWorks並綁定MaxCompute引擎,並在MaxCompute引擎中已建立好表用於儲存後續同步至MaxCompute的資料。具體操作,請參見建立MaxCompute專案和建立表。
已準備好待匯入MaxCompute的資料。
情境1:匯入本地CSV檔案至MaxCompute
同步能力說明
當前支援將CSV格式的檔案,基於本地檔案或阿里雲Object Storage Service的方式匯入MaxCompute。其中:
本地檔案,最大支援上傳5 GB資料。
阿里雲Object Storage Service,僅支援上傳與當前MaxCompute同地區Bucket中的資料。
操作入口
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左上方的表徵圖,單擊
,進入上傳與下載頁面。單擊左側導覽列的表徵圖,進入資料上傳頁面。
單擊資料上傳,根據介面指引上傳目標資料。
通用操作指導
詳細操作指導請參見資料上傳。
情境2:匯入本地檔案至MaxCompute
同步能力說明
當前支援將CSV和自訂文字檔兩種格式檔案資料匯入MaxCompute,其中自訂文字檔支援.txt、.csv和.log類型的檔案。
操作入口與通用操作指導
登入DataWorks控制台,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發,可在以下入口匯入本地檔案至MaxCompute。
資料開發頁面的頂部功能表列。
下的表分組。
標準模式下,在表管理頁面按右鍵開發表,選擇匯入資料。
上述詳細操作指導請參見上傳資料。
說明如果您建立表後,在匯入資料時無法搜尋到該表,您可以先在資料地圖進行手工同步表操作後,再嘗試搜尋該表。手工同步操作,請參見我的資料。
單擊左上方的,選擇
,然後單擊左側導覽列的上傳(表徵圖),進入資料上傳頁面,單擊資料上傳。說明DataWorks的上傳與下載模組的資料上傳功能,基於本地檔案的上傳,僅支援CSV格式和最大5 GB大小的檔案。
詳細操作指導請參見資料上傳。
情境3:匯入其他資料來源資料至MaxCompute
同步能力說明
DataWorksData Integration支援將其他資料來源的資料同步至MaxCompute,例如將RDS等資料庫的資料同步至MaxCompute,針對不同的同步情境,資料同步原理與能力支援不一致。
DataWorks離線同步為您提供資料讀取(Reader)和寫入外掛程式(Writer)實現對資料來源的讀寫操作(離線同步)。
DataWorks即時同步支援您將多種輸入及輸出資料來源搭配組成同步鏈路進行單表或整庫資料的即時增量同步處理。
DataWorks還為您提供多種資料來源之間進行不同資料同步情境(整庫離線同步、全增量即時同步)的同步解決方案。
對MaxCompute的資料同步能力支援如下表所示。
離線同步
即時同步
同步解決方案
單表讀
單表寫
單表增量讀
單表增量寫
整庫增量讀
整庫增量寫
整庫離線讀
整庫離線寫
單表/整庫全增量即時讀
單表/整庫全增量即時寫
-
-
-
-
說明離線匯入情境中,每個離線同步節點僅支援將單張或多張表資料匯入至MaxCompute的一張表中。
更多DataWorksData Integration對MaxCompute資料同步能力詳情請參見MaxCompute資料來源。
操作入口與通用操作指導
DataStudio側操作
登入MaxCompute控制台,單擊控制台左側導航的 進入DataStudio(資料開發)頁面,可在DataStudio中建立離線同步節點或即時同步節點,開始配置離線或即時同步任務,將其他資料來源資料同步至MaxCompute。
離線同步節點中:將資料去向配置為MaxCompute,資料來源配置為其他資料來源。
即時同步節點中:將輸出配置為MaxCompute,輸入配置為其他資料來源。
詳細操作指導請參見通過嚮導模式配置離線同步任務、通過指令碼模式配置離線同步任務、DataStudio側即時同步任務配置。
Data Integration側操作
登入DataWorks控制台後進入工作空間列表頁面,在目標工作空間操作列單擊快速進入 > Data Integration,在Data Integration頁面建立資料同步任務,將其他資料來源的資料同步至MaxCompute。
詳細操作指導請參見Data Integration側同步任務配置。
費用說明
使用DataWorksData Integration進行資料同步時,需使用DataWorks的Data Integration資源群組與調度資源群組,您可根據需要選擇使用公用資源群組或獨享資源群組,同時在資料轉送過程中如果使用了公網傳輸,可能會涉及公網流量費用。各項可能費用的詳情請參見:
Data Integration資源群組的計費詳情請參見獨享Data Integration資源群組計費說明:訂用帳戶、公用Data Integration(調試)資源群組:隨用隨付。
公網流量費用請參見公網流量計費說明。
調度資源群組的計費詳情請參見獨享調度資源群組計費說明:訂用帳戶、公用調度資源群組計費說明:隨用隨付。