DataWorks的資料上傳功能支援將本地檔案、資料分析的試算表、OSS檔案、HTTP檔案等資料上傳至MaxCompute、EMR Hive、Hologres等引擎進行分析及管理,為您提供便捷的Data Transmission Service,助力您快速實現資料驅動業務。本文為您介紹如何使用資料上傳功能上傳資料。
注意事項
如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。詳情請參見附錄:跨境操作資料上傳的合規聲明。
功能說明
資料上傳功能僅支援將本地檔案、DataWorks資料分析的試算表、阿里雲Object Storage Service、HTTP檔案的資料上傳至MaxCompute、EMR Hive、Hologres引擎的表中。不同資料來源的規則要求如下:
本地檔案:
支援
CSV
、XLS
、XLSX
、JSON
格式,CSV
檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為100MB。預設上傳檔案的第一個Sheet。如需上傳某個檔案的多個Sheet資料,則需將每個Sheet建立一個表格且作為表格的首個Sheet。
OSS:僅支援上傳與當前DataWorks工作空間同地區的Bucket資料。
使用限制
資源群組限制:資料上傳功能需指定調度資源群組和Data Integration資源群組。
上傳資料至MaxCompute引擎:
支援使用Serverless資源群組(推薦)、舊版資源群組(獨享調度資源群組或獨享Data Integration資源群組),且需確保資料上傳任務使用的資料來源與所選資源群組網路連通。
所選Serverless資源群組和獨享資源群組需綁定至待接收資料的表所在的DataWorks工作空間。
上傳資料至EMR Hive、Hologres引擎:
僅支援使用Serverless資源群組(推薦)和獨享資源群組(獨享調度資源群組或獨享Data Integration資源群組),即必須在 中為相應引擎配置Serverless資源群組或獨享資源群組。
所選資源群組需綁定至待接收資料的表所在的DataWorks工作空間,且需確保資料上傳任務使用的資料來源與所選資源群組網路連通。
說明通過資料分析配置引擎使用的資源群組,請參見系統管理。
配置資料來源與資源群組網路連通,請參見網路連通方案。
配置獨享資源群組綁定的歸屬工作空間,請參見使用獨享調度資源群組、使用獨享Data Integration資源群組。
表限制:僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。具體表現為以下情境:
計費說明
資料上傳會產生如下費用:
資料轉送費用。
若涉及建立表,會收取計算和儲存費用。
以上費用均由引擎側收取,具體費用請參見相應引擎的計費文檔MaxCompute計費、Hologres計費、E-MapReduce計費。
前提條件
已建立所需引擎資料來源,用於存放待上傳資料。後續您可在該資料來源中進行相關資料的分析及管理操作。請按需建立MaxCompute資料來源、EMR Hive資料來源(阿里雲執行個體模式)或Hologres資料來源。
(可選)上傳阿里雲Object Storage Service資料,需滿足如下條件:
進入資料上傳
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左上方的表徵圖,選擇
。在上傳與下載頁面單擊左側導覽列的表徵圖,進入資料上傳頁面。
單擊資料上傳,根據介面指引上傳目標資料。
上傳目標資料
DataWorks支援將本地檔案資料、資料分析的試算表資料、Object Storage Service、HTTP檔案資料上傳至MaxCompute、EMR Hive、Hologres引擎,不同資料的上傳配置存在差異,具體如下。
上傳本地檔案資料
選擇待上傳資料。
資料來源:選擇本地檔案。
指定待上傳資料:根據介面指引將本地檔案拖拽至選擇檔案地區,並設定是否需要剔除髒資料。
是:如遇髒資料,平台會自動忽略,繼續上傳資料。
否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。
說明支援
CSV
、XLS
、XLSX
、JSON
格式,CSV
檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為100MB。預設上傳檔案的第一個Sheet。如需上傳某個檔案的多個Sheet資料,則需將每個Sheet建立一個表格且作為表格的首個Sheet。
髒資料:例如,檔案裡某個儲存格的資料為字串類型,但映射到了目標表的INT類型欄位,則該行資料會寫入失敗,該行資料為髒資料。具體的髒資料請以平台的實際判斷邏輯為準。
配置存放待上傳資料的目標表。
您可選擇將待上傳資料存放至目標引擎資料來源的已有表或建立表。
參數說明如下。
參數
描述
目標引擎
僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute專案名稱或資料來源
存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。
說明EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。
區分生產專案(PROD)及開發專案(DEV):
選擇生產專案:目標表僅支援選擇生產表。
選擇開發專案:目標表僅支援選擇開發表。
目標表(上傳資料至已有表)
選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。
說明僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制。
上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。
先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。
追加:將待上傳資料追加至目標表相應映射欄位中。
主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。
忽略:忽略上傳的資料,目標表中的資料不會更新。
更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。
更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。
說明僅Hologres引擎需要配置該參數。
目標表(上傳資料至建立表)
表名:自訂表格名稱。
表類型:根據需要選擇非分區表或分區表。若選擇分區表,則需指定分區欄位及其取值。
說明EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。
預覽待上傳資料並設定目標表欄位。
選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。
說明目前僅支援預覽前20條資料。
參數說明如下。
參數
描述
預覽資料並設定目標表欄位(上傳資料至已有表)
需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射及按順序映射。映射後您也可自訂目標表的欄位名稱。
說明若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。
待上傳資料與目標表欄位不能存在重複映射關係。
欄位名稱和欄位類型不可為空,否則資料無法上傳。
預覽資料並設定目標表欄位(上傳資料至建立表)
可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。
說明欄位名稱和欄位類型不可為空,否則資料無法上傳。
EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
檔案編碼
若資料存在亂碼,則可切換編碼格式。支援選擇
UTF-8
、GB18030
、Big5
。忽略首行
是否將檔案資料的首行(通常為列名稱)上傳至目標表中。
勾選:檔案首行不上傳至目標表中。
不勾選:檔案首行將上傳至目標表中。
單擊資料上傳,開始上傳資料。
上傳資料分析試算表資料
選擇待上傳資料。
資料來源:選擇試算表。
指定待上傳資料:選擇已建立的試算表,並設定是否需要剔除髒資料。
是:如遇髒資料,平台會自動忽略,繼續上傳資料。
否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。
配置存放待上傳資料的目標表。
您可選擇將待上傳資料存放至目標引擎資料來源的已有表或建立表。
參數說明如下。
參數
描述
目標引擎
僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute專案名稱或資料來源
存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。
說明EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。
區分生產專案(PROD)及開發專案(DEV):
選擇生產專案:目標表僅支援選擇生產表。
選擇開發專案:目標表僅支援選擇開發表。
目標表(上傳資料至已有表)
選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。
說明僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制。
上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。
先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。
追加:將待上傳資料追加至目標表相應映射欄位中。
主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。
忽略:忽略上傳的資料,目標表中的資料不會更新。
更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。
更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。
說明僅Hologres引擎需要配置該參數。
目標表(上傳資料至建立表)
表名:自訂表格名稱。
表類型:根據需要選擇非分區表或分區表。若選擇分區表,則需指定分區欄位及其取值。
說明EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。
預覽待上傳資料並設定目標表欄位。
選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。
說明目前僅支援預覽前20條資料。
參數說明如下。
參數
描述
預覽資料並設定目標表欄位(上傳資料至已有表)
需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射及按順序映射。映射後您也可自訂目標表的欄位名稱。
說明若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。
待上傳資料與目標表欄位不能存在重複映射關係。
欄位名稱和欄位類型不可為空,否則資料無法上傳。
預覽資料並設定目標表欄位(上傳資料至建立表)
可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。
說明欄位名稱和欄位類型不可為空,否則資料無法上傳。
EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
檔案編碼
若資料存在亂碼,則可切換編碼格式。支援選擇
UTF-8
、GB18030
、Big5
。忽略首行
是否將檔案資料的首行(通常為列名稱)上傳至目標表中。
勾選:檔案首行不上傳至目標表中。
不勾選:檔案首行將上傳至目標表中。
單擊資料上傳,根據介面指引上傳目標資料。
上傳Object Storage Service資料
選擇待上傳資料。
資料來源:選擇阿里雲Object Storage Service。
指定待上傳資料:選擇已建立的Bucket檔案,並設定是否需要剔除髒資料。
是:如遇髒資料,平台會自動忽略,繼續上傳資料。
否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。
說明僅支援上傳與當前DataWorks工作空間同地區的Bucket資料。建立Bucket,詳情請參見建立儲存空間。
髒資料:例如,檔案裡某個儲存格的資料為字串類型,但映射到了目標表的INT類型欄位,則該行資料會寫入失敗,該行資料為髒資料。具體的髒資料請以平台的實際判斷邏輯為準。
配置存放待上傳資料的目標表。
您可選擇將待上傳資料存放至目標引擎資料來源的已有表或建立表。
參數說明如下。
參數
描述
目標引擎
僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute專案名稱或資料來源
存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。
說明EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。
區分生產專案(PROD)及開發專案(DEV):
選擇生產專案:目標表僅支援選擇生產表。
選擇開發專案:目標表僅支援選擇開發表。
目標表(上傳資料至已有表)
選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。
說明僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制。
上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。
先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。
追加:將待上傳資料追加至目標表相應映射欄位中。
主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。
忽略:忽略上傳的資料,目標表中的資料不會更新。
更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。
更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。
說明僅Hologres引擎需要配置該參數。
目標表(上傳資料至建立表)
表名:自訂表格名稱。
表類型:根據需要選擇非分區表或分區表。若選擇分區表,則需指定分區欄位及其取值。
說明EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。
預覽待上傳資料並設定目標表欄位。
選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。
說明目前僅支援預覽前20條資料。
參數說明如下。
參數
描述
預覽資料並設定目標表欄位(上傳資料至已有表)
需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射及按順序映射。映射後您也可自訂目標表的欄位名稱。
說明若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。
待上傳資料與目標表欄位不能存在重複映射關係。
欄位名稱和欄位類型不可為空,否則資料無法上傳。
預覽資料並設定目標表欄位(上傳資料至建立表)
可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。
說明欄位名稱和欄位類型不可為空,否則資料無法上傳。
EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
檔案編碼
若資料存在亂碼,則可切換編碼格式。支援選擇
UTF-8
、GB18030
、Big5
。忽略首行
是否將檔案資料的首行(通常為列名稱)上傳至目標表中。
勾選:檔案首行不上傳至目標表中。
不勾選:檔案首行將上傳至目標表中。
單擊資料上傳,開始上傳資料。
上傳HTTP檔案資料
選擇待上傳資料。
資料來源:選擇HTTP檔案。
指定待上傳資料:檔案地址選擇已建立的HTTP檔案,檔案類型會根據您所上傳的檔案類型進行自動識別,您可在此選擇請求Method為GET、POST或PUT,並設定是否需要剔除髒資料。
是:如遇髒資料,平台會自動忽略,繼續上傳資料。
否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。
說明您也可根據業務情況,在進階參數裡面設定請求Header、請求Body資訊。
配置存放待上傳資料的目標表。
您可選擇將待上傳資料存放至目標引擎資料來源的已有表或建立表。
參數說明如下。
參數
描述
目標引擎
僅支援將資料上傳至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute專案名稱或資料來源
存放待上傳資料的專案或資料來源,不同引擎需要配置的參數不同,具體參考實際介面。
說明EMR Hive僅支援選擇阿里雲執行個體模式建立的資料來源。
區分生產專案(PROD)及開發專案(DEV):
選擇生產專案:目標表僅支援選擇生產表。
選擇開發專案:目標表僅支援選擇開發表。
目標表(上傳資料至已有表)
選擇目標表:存放待上傳資料的表。支援通過關鍵字匹配搜尋。
說明僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。詳情請參見使用限制。
上傳方式:選擇以哪種方式將待上傳資料添加至目標表中。該參數需要與步驟3(配置的源檔案與目標表的映射關係)配合使用。
先清空表資料:先清空目標表資料,再全量將資料匯入至目標表中相應的映射欄位。
追加:將待上傳資料追加至目標表相應映射欄位中。
主鍵衝突策略:若上傳資料導致目標表主鍵衝突,可採取如下處理策略。
忽略:忽略上傳的資料,目標表中的資料不會更新。
更新(replace):上傳的資料會全量覆蓋目標表的舊資料,未配置列映射的欄位強制寫為NULL。
更新(update):上傳的資料覆蓋目標表的舊資料,但僅覆蓋配置有列映射的欄位資料。
說明僅Hologres引擎需要配置該參數。
目標表(上傳資料至建立表)
表名:自訂表格名稱。
表類型:根據需要選擇非分區表或分區表。若選擇分區表,則需指定分區欄位及其取值。
說明EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
MaxCompute引擎建立表過程,使用的是DataWorks資料來源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。
預覽待上傳資料並設定目標表欄位。
選擇待上傳資料及存放該資料的目標表後,您可預覽資料詳情,並配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。
說明目前僅支援預覽前20條資料。
參數說明如下。
參數
描述
預覽資料並設定目標表欄位(上傳資料至已有表)
需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射及按順序映射。映射後您也可自訂目標表的欄位名稱。
說明若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。
待上傳資料與目標表欄位不能存在重複映射關係。
欄位名稱和欄位類型不可為空,否則資料無法上傳。
預覽資料並設定目標表欄位(上傳資料至建立表)
可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。
說明欄位名稱和欄位類型不可為空,否則資料無法上傳。
EMR Hive、Hologres引擎不支援在資料上傳建立表。您需在資料開發(DataStudio)建立表後,才可在資料上傳中選擇目標表。建立表,詳情請參見表管理。
檔案編碼
若資料存在亂碼,則可切換編碼格式。支援選擇
UTF-8
、GB18030
、Big5
。忽略首行
是否將檔案資料的首行(通常為列名稱)上傳至目標表中。
勾選:檔案首行不上傳至目標表中。
不勾選:檔案首行將上傳至目標表中。
單擊資料上傳,開始上傳資料。
後續操作
資料上傳成功後,您可根據需要執行如下操作:
附錄:跨境操作資料上傳的合規聲明
如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。
資料跨境操作將導致您的雲上業務資料轉送至您所選擇的地區或產品部署地區,您應確保相關操作遵循如下要求:
擁有相關雲上業務資料的處理許可權。
採取充分的資料安全保護技術及策略。
資料轉送行為符合相關法律法規的要求。例如,傳輸的資料不含任何所適用法律限制、禁止傳輸或披露的內容。
阿里雲特別提示您,若您的資料上傳操作可能導致資料跨境傳輸,請在開展相關操作前諮詢專業的法律或合規人員,確保資料跨境傳輸行為符合所適用的法律法規及監管政策的要求(例如,獲得個人資訊主體的有效授權、完成相關合約條款的簽署及備案、完成相關安全評估等法定義務)。
若未遵守該合規聲明便開展資料跨境操作,您將承擔對應的法律後果。同時,導致阿里雲及其關係企業遭受的任何損失,您應承擔賠償責任。
相關文檔
DataStudio(資料開發)也支援上傳本地CSV檔案或文字檔資料至MaxCompute表,詳情請參見上傳資料。
MaxCompute表的更多操作,請參見建立並使用MaxCompute表。
Hologres表的更多操作,請參見建立Hologres表。
EMR表的更多操作,請參見建立EMR表。