全部產品
Search
文件中心

MaxCompute:使用DataWorks(離線與即時)

更新時間:Nov 29, 2024

MaxCompute支援通過DataWorks的Data Integration功能將其他資料來源的資料以離線或即時方式匯入MaxCompute,也支援將部分類型的本地檔案資料匯入MaxCompute。本文為您介紹使用DataWorks將資料匯入MaxCompute的主要操作流程與注意事項。

前提條件

  • 已開通DataWorks並綁定MaxCompute引擎,並在MaxCompute引擎中已建立好表用於儲存後續同步至MaxCompute的資料。具體操作,請參見建立MaxCompute專案建立表

  • 已準備好待匯入MaxCompute的資料。

情境1:匯入本地CSV檔案至MaxCompute

  • 同步能力說明

    當前支援將CSV格式的檔案,基於本地檔案阿里雲Object Storage Service的方式匯入MaxCompute。其中:

    • 本地檔案,最大支援上傳5 GB資料。

    • 阿里雲Object Storage Service,僅支援上傳與當前MaxCompute同地區Bucket中的資料。

  • 操作入口

    1. 進入資料開發頁面。

      登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

    2. 單擊左上方的image.png表徵圖,單擊全部產品 > 上傳與下載,進入上傳與下載頁面。

    3. 單擊左側導覽列的image.png表徵圖,進入資料上傳頁面。

    4. 單擊資料上傳,根據介面指引上傳目標資料。

  • 通用操作指導

    詳細操作指導請參見資料上傳

情境2:匯入本地檔案至MaxCompute

  • 同步能力說明

    當前支援將CSV自訂文字檔兩種格式檔案資料匯入MaxCompute,其中自訂文字檔支援.txt.csv.log類型的檔案。

  • 操作入口與通用操作指導

    登入DataWorks控制台,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發,可在以下入口匯入本地檔案至MaxCompute。

    • 資料開發頁面的頂部功能表列。上傳資料

    • 資料開發 > 商務程序下的表分組。上傳資料2

    • 標準模式下,在表管理頁面按右鍵開發表,選擇匯入資料。上傳資料3

    上述詳細操作指導請參見上傳資料

    說明

    如果您建立表後,在匯入資料時無法搜尋到該表,您可以先在資料地圖進行手工同步表操作後,再嘗試搜尋該表。手工同步操作,請參見我的資料

    • 單擊左上方的image.png,選擇全部產品 > 上傳與下載,然後單擊左側導覽列的上傳image.png表徵圖),進入資料上傳頁面,單擊資料上傳

      說明

      DataWorks的上傳與下載模組的資料上傳功能,基於本地檔案的上傳,僅支援CSV格式和最大5 GB大小的檔案。

      詳細操作指導請參見資料上傳

情境3:匯入其他資料來源資料至MaxCompute

  • 同步能力說明

    DataWorksData Integration支援將其他資料來源的資料同步至MaxCompute,例如將RDS等資料庫的資料同步至MaxCompute,針對不同的同步情境,資料同步原理與能力支援不一致。

    • DataWorks離線同步為您提供資料讀取(Reader)寫入外掛程式(Writer)實現對資料來源的讀寫操作(離線同步)。

    • DataWorks即時同步支援您將多種輸入及輸出資料來源搭配組成同步鏈路進行單表或整庫資料的即時增量同步處理。

    • DataWorks還為您提供多種資料來源之間進行不同資料同步情境(整庫離線同步、全增量即時同步)的同步解決方案。

    對MaxCompute的資料同步能力支援如下表所示。

    離線同步

    即時同步

    同步解決方案

    單表讀

    單表寫

    單表增量讀

    單表增量寫

    整庫增量讀

    整庫增量寫

    整庫離線讀

    整庫離線寫

    單表/整庫全增量即時讀

    單表/整庫全增量即時寫

    image..png

    image..png

    -

    image..png

    -

    image..png

    -

    image..png

    -

    image..png

    說明

    離線匯入情境中,每個離線同步節點僅支援將單張或多張表資料匯入至MaxCompute的一張表中。

    更多DataWorksData Integration對MaxCompute資料同步能力詳情請參見MaxCompute資料來源

  • 操作入口與通用操作指導

  • 費用說明

    使用DataWorksData Integration進行資料同步時,需使用DataWorks的Data Integration資源群組與調度資源群組,您可根據需要選擇使用公用資源群組或獨享資源群組,同時在資料轉送過程中如果使用了公網傳輸,可能會涉及公網流量費用。各項可能費用的詳情請參見:

最佳實務

資料庫整庫離線同步至MaxCompute

資料庫增量資料離線同步至MaxCompute

資料庫分庫分表同步至MaxCompute

資料庫全增量即時同步至MaxCompute