全部產品
Search
文件中心

DataWorks:資料上傳

更新時間:Dec 19, 2024

DataWorks的資料上傳功能支援將本地檔案、資料分析的試算表、OSS檔案、HTTP檔案等資料上傳至MaxCompute、EMR Hive、Hologres等引擎進行分析及管理,為您提供便捷的Data Transmission Service,助力您快速實現資料驅動業務。本文為您介紹如何使用資料上傳功能上傳資料。

注意事項

如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。詳情請參見附錄:跨境操作資料上傳的合規聲明

功能說明

資料上傳功能僅支援將本地檔案DataWorks資料分析的試算表阿里雲Object Storage Service、HTTP檔案的資料上傳至MaxComputeEMR HiveHologres引擎的表中。不同資料來源的規則要求如下:

  • 本地檔案:

    • 支援CSVXLSXLSXJSON格式,CSV檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為100MB。

    • 預設上傳檔案的第一個Sheet。如需上傳某個檔案的多個Sheet資料,則需將每個Sheet建立一個表格且作為表格的首個Sheet。

  • OSS:僅支援上傳與當前DataWorks工作空間同地區的Bucket資料。

使用限制

計費說明

資料上傳會產生如下費用:

  • 資料轉送費用。

  • 若涉及建立表,會收取計算和儲存費用。

以上費用均由引擎側收取,具體費用請參見相應引擎的計費文檔MaxCompute計費Hologres計費E-MapReduce計費

前提條件

進入資料上傳

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊左上方的image.png表徵圖,選擇全部產品 > Data Integration > 上傳與下載

  3. 上傳與下載頁面單擊左側導覽列的image.png表徵圖,進入資料上傳頁面。

  4. 單擊資料上傳,根據介面指引上傳目標資料。

上傳目標資料

DataWorks支援將本地檔案資料、資料分析的試算表資料、Object Storage Service、HTTP檔案資料上傳至MaxCompute、EMR Hive、Hologres引擎,不同資料的上傳配置存在差異,具體如下。

上傳本地檔案資料

  1. 選擇待上傳資料。

    1. 資料來源:選擇本地檔案

    2. 指定待上傳資料:根據介面指引將本地檔案拖拽至選擇檔案地區,並設定是否需要剔除髒資料。

      • 是:如遇髒資料,平台會自動忽略,繼續上傳資料。

      • 否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。

    說明
    • 支援CSVXLSXLSXJSON格式,CSV檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為100MB。

    • 預設上傳檔案的第一個Sheet。如需上傳某個檔案的多個Sheet資料,則需將每個Sheet建立一個表格且作為表格的首個Sheet。

    • 髒資料:例如,檔案裡某個儲存格的資料為字串類型,但映射到了目標表的INT類型欄位,則該行資料會寫入失敗,該行資料為髒資料。具體的髒資料請以平台的實際判斷邏輯為準。

  2. 配置存放待上傳資料的目標表。

    您可選擇將待上傳資料存放至目標引擎資料來源的已有表建立表image.png

    參數說明如下。

    參數

    描述

    目標引擎

    僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute專案名稱資料來源

    存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。

    說明

    EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。

    區分生產專案(PROD)及開發專案(DEV):

    • 選擇生產專案:目標表僅支援選擇生產表。

    • 選擇開發專案:目標表僅支援選擇開發表。

    目標表(上傳資料至已有表)

    • 選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。

      說明

      僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制

    • 上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。

      • 先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。

      • 追加:將待上傳資料追加至目標表相應映射欄位中。

    • 主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。

      • 忽略:忽略上傳的資料,目標表中的資料不會更新。

      • 更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。

      • 更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。

      說明

      僅Hologres引擎需要配置該參數。

    目標表(上傳資料至建立表)

    • 表名:自訂表格名稱。

    • 表類型:根據需要選擇非分區表分區表。若選擇分區表,則需指定分區欄位及其取值。

    • 生命週期:指定表的可用周期,到期後該表可能無法使用。更多表生命週期的介紹,詳情請參見生命週期生命週期操作

    說明
    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    • MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。

  3. 預覽待上傳資料並設定目標表欄位。

    選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。

    說明

    目前僅支援預覽前20條資料。

    image.png參數說明如下。

    參數

    描述

    預覽資料並設定目標表欄位(上傳資料至已有表)

    需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射按順序映射。映射後您也可自訂目標表的欄位名稱。

    說明
    • 若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。

    • 待上傳資料與目標表欄位不能存在重複映射關係。

    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    預覽資料並設定目標表欄位(上傳資料至建立表)

    可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。

    說明
    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    檔案編碼

    若資料存在亂碼,則可切換編碼格式。支援選擇UTF-8GB18030Big5

    忽略首行

    是否將檔案資料的首行(通常為列名稱)上傳至目標表中。

    • 勾選:檔案首行不上傳至目標表中。

    • 不勾選:檔案首行將上傳至目標表中。

  4. 單擊資料上傳,開始上傳資料。

上傳資料分析試算表資料

  1. 選擇待上傳資料。

    1. 資料來源:選擇試算表

    2. 指定待上傳資料:選擇已建立的試算表,並設定是否需要剔除髒資料。

      • 是:如遇髒資料,平台會自動忽略,繼續上傳資料。

      • 否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。

    說明
    • 建立試算表並匯入資料,詳情請參見建立並管理試算表匯入資料至試算表

    • 髒資料:例如,檔案裡某個儲存格的資料為字串類型,但映射到了目標表的INT類型欄位,則該行資料會寫入失敗,該行資料為髒資料。具體的髒資料請以平台的實際判斷邏輯為準。

  2. 配置存放待上傳資料的目標表。

    您可選擇將待上傳資料存放至目標引擎資料來源的已有表建立表image.png

    參數說明如下。

    參數

    描述

    目標引擎

    僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute專案名稱資料來源

    存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。

    說明

    EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。

    區分生產專案(PROD)及開發專案(DEV):

    • 選擇生產專案:目標表僅支援選擇生產表。

    • 選擇開發專案:目標表僅支援選擇開發表。

    目標表(上傳資料至已有表)

    • 選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。

      說明

      僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制

    • 上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。

      • 先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。

      • 追加:將待上傳資料追加至目標表相應映射欄位中。

    • 主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。

      • 忽略:忽略上傳的資料,目標表中的資料不會更新。

      • 更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。

      • 更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。

      說明

      僅Hologres引擎需要配置該參數。

    目標表(上傳資料至建立表)

    • 表名:自訂表格名稱。

    • 表類型:根據需要選擇非分區表分區表。若選擇分區表,則需指定分區欄位及其取值。

    • 生命週期:指定表的可用周期,到期後該表可能無法使用。更多表生命週期的介紹,詳情請參見生命週期生命週期操作

    說明
    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    • MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。

  3. 預覽待上傳資料並設定目標表欄位。

    選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。

    說明

    目前僅支援預覽前20條資料。

    image.png參數說明如下。

    參數

    描述

    預覽資料並設定目標表欄位(上傳資料至已有表)

    需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射按順序映射。映射後您也可自訂目標表的欄位名稱。

    說明
    • 若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。

    • 待上傳資料與目標表欄位不能存在重複映射關係。

    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    預覽資料並設定目標表欄位(上傳資料至建立表)

    可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。

    說明
    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    檔案編碼

    若資料存在亂碼,則可切換編碼格式。支援選擇UTF-8GB18030Big5

    忽略首行

    是否將檔案資料的首行(通常為列名稱)上傳至目標表中。

    • 勾選:檔案首行不上傳至目標表中。

    • 不勾選:檔案首行將上傳至目標表中。

  4. 單擊資料上傳,根據介面指引上傳目標資料。

上傳Object Storage Service資料

  1. 選擇待上傳資料。

    1. 資料來源:選擇阿里雲Object Storage Service

    2. 指定待上傳資料:選擇已建立的Bucket檔案,並設定是否需要剔除髒資料。

      • 是:如遇髒資料,平台會自動忽略,繼續上傳資料。

      • 否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。

    說明
    • 僅支援上傳與當前DataWorks工作空間同地區的Bucket資料。建立Bucket,詳情請參見建立儲存空間

    • 髒資料:例如,檔案裡某個儲存格的資料為字串類型,但映射到了目標表的INT類型欄位,則該行資料會寫入失敗,該行資料為髒資料。具體的髒資料請以平台的實際判斷邏輯為準。

  2. 配置存放待上傳資料的目標表。

    您可選擇將待上傳資料存放至目標引擎資料來源的已有表建立表image.png

    參數說明如下。

    參數

    描述

    目標引擎

    僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute專案名稱資料來源

    存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。

    說明

    EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。

    區分生產專案(PROD)及開發專案(DEV):

    • 選擇生產專案:目標表僅支援選擇生產表。

    • 選擇開發專案:目標表僅支援選擇開發表。

    目標表(上傳資料至已有表)

    • 選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。

      說明

      僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制

    • 上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。

      • 先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。

      • 追加:將待上傳資料追加至目標表相應映射欄位中。

    • 主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。

      • 忽略:忽略上傳的資料,目標表中的資料不會更新。

      • 更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。

      • 更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。

      說明

      僅Hologres引擎需要配置該參數。

    目標表(上傳資料至建立表)

    • 表名:自訂表格名稱。

    • 表類型:根據需要選擇非分區表分區表。若選擇分區表,則需指定分區欄位及其取值。

    • 生命週期:指定表的可用周期,到期後該表可能無法使用。更多表生命週期的介紹,詳情請參見生命週期生命週期操作

    說明
    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    • MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。

  3. 預覽待上傳資料並設定目標表欄位。

    選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。

    說明

    目前僅支援預覽前20條資料。

    image.png參數說明如下。

    參數

    描述

    預覽資料並設定目標表欄位(上傳資料至已有表)

    需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射按順序映射。映射後您也可自訂目標表的欄位名稱。

    說明
    • 若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。

    • 待上傳資料與目標表欄位不能存在重複映射關係。

    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    預覽資料並設定目標表欄位(上傳資料至建立表)

    可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。

    說明
    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    檔案編碼

    若資料存在亂碼,則可切換編碼格式。支援選擇UTF-8GB18030Big5

    忽略首行

    是否將檔案資料的首行(通常為列名稱)上傳至目標表中。

    • 勾選:檔案首行不上傳至目標表中。

    • 不勾選:檔案首行將上傳至目標表中。

  4. 單擊資料上傳,開始上傳資料。

上傳HTTP檔案資料

  1. 選擇待上傳資料。

    1. 資料來源:選擇HTTP檔案

    2. 指定待上傳資料檔案地址選擇已建立的HTTP檔案,檔案類型會根據您所上傳的檔案類型進行自動識別,您可在此選擇請求MethodGETPOSTPUT,並設定是否需要剔除髒資料。

      • 是:如遇髒資料,平台會自動忽略,繼續上傳資料。

      • 否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。

      說明

      您也可根據業務情況,在進階參數裡面設定請求Header請求Body資訊。

  2. 配置存放待上傳資料的目標表。

    您可選擇將待上傳資料存放至目標引擎資料來源的已有表建立表image.png

    參數說明如下。

    參數

    描述

    目標引擎

    僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。

    MaxCompute專案名稱資料來源

    存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。

    說明

    EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。

    區分生產專案(PROD)及開發專案(DEV):

    • 選擇生產專案:目標表僅支援選擇生產表。

    • 選擇開發專案:目標表僅支援選擇開發表。

    目標表(上傳資料至已有表)

    • 選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。

      說明

      僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制

    • 上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。

      • 先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。

      • 追加:將待上傳資料追加至目標表相應映射欄位中。

    • 主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。

      • 忽略:忽略上傳的資料,目標表中的資料不會更新。

      • 更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。

      • 更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。

      說明

      僅Hologres引擎需要配置該參數。

    目標表(上傳資料至建立表)

    • 表名:自訂表格名稱。

    • 表類型:根據需要選擇非分區表分區表。若選擇分區表,則需指定分區欄位及其取值。

    • 生命週期:指定表的可用周期,到期後該表可能無法使用。更多表生命週期的介紹,詳情請參見生命週期生命週期操作

    說明
    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    • MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。

  3. 預覽待上傳資料並設定目標表欄位。

    選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。

    說明

    目前僅支援預覽前20條資料。

    image.png參數說明如下。

    參數

    描述

    預覽資料並設定目標表欄位(上傳資料至已有表)

    需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射按順序映射。映射後您也可自訂目標表的欄位名稱。

    說明
    • 若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。

    • 待上傳資料與目標表欄位不能存在重複映射關係。

    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    預覽資料並設定目標表欄位(上傳資料至建立表)

    可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。

    說明
    • 欄位名稱和欄位類型不可為空,否則資料無法上傳。

    • EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理

    檔案編碼

    若資料存在亂碼,則可切換編碼格式。支援選擇UTF-8GB18030Big5

    忽略首行

    是否將檔案資料的首行(通常為列名稱)上傳至目標表中。

    • 勾選:檔案首行不上傳至目標表中。

    • 不勾選:檔案首行將上傳至目標表中。

  4. 單擊資料上傳,開始上傳資料。

後續操作

資料上傳成功後,您可根據需要執行如下操作:

  • 資料查詢:使用資料分析功能查詢與分析資料,詳情請參見SQL查詢

  • 查看上傳資料詳情:在資料上傳頁面,單擊目標表名稱,即可進入資料地圖查看目標表詳細資料。詳情請參見通用資料查詢與管理

附錄:跨境操作資料上傳的合規聲明

重要

如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。

資料跨境操作將導致您的雲上業務資料轉送至您所選擇的地區或產品部署地區,您應確保相關操作遵循如下要求:

  • 擁有相關雲上業務資料的處理許可權。

  • 採取充分的資料安全保護技術及策略。

  • 資料轉送行為符合相關法律法規的要求。例如,傳輸的資料不含任何所適用法律限制、禁止傳輸或披露的內容。

阿里雲特別提示您,若您的資料上傳操作可能導致資料跨境傳輸,請在開展相關操作前諮詢專業的法律或合規人員,確保資料跨境傳輸行為符合所適用的法律法規及監管政策的要求(例如,獲得個人資訊主體的有效授權、完成相關合約條款的簽署及備案、完成相關安全評估等法定義務)。

若未遵守該合規聲明便開展資料跨境操作,您將承擔對應的法律後果。同時,導致阿里雲及其關係企業遭受的任何損失,您應承擔賠償責任。

相關文檔