本文介紹如何使用DataWorks的資料同步功能將MaxCompute資料移轉至Object Storage Service(Object Storage Service)。
操作步驟
開通服務
MaxCompute、DataWorks、OSS應在同一地區下。
在DataWorks上建立表
登入DataWorks控制台,在左上方選擇地區。
在左側導覽列選擇工作空间。
在工作空间列表頁面,單擊目標工作空間對應的操作列。
在Data Studio頁面,建立MaxCompute SQL節點。按照如下語句建立表
transs。CREATE TABLE transs (name STRING, id STRING, gender STRING);
為表
transs匯入資料下載樣本CSV檔案至本地demo_data.csv。
在左側導覽列選擇。
單擊进入数据上传与下载。
在左側導覽列單擊上傳表徵圖
,單擊資料上傳。將上述本機資料上傳至已建立好的MaxCompute表
transs中。
在OSS控制台上建立表
在左側導覽列單擊Bucket 列表。
在Bucket 列表頁面,單擊建立 Bucket。
在本地建立一個空
qwee.csv檔案,並上傳至OSS,用於接收MaxCompute資料。請確保qwee.csv檔案中的欄位名與表transs的欄位名完全一致。上傳操作詳情請參見控制台上傳檔案。
在DataWorks上新增MaxCompute資料來源
登入DataWorks控制台,在左上方選擇地區。
在左側導覽列選擇工作空间。
在工作空间列表頁面,單擊目標工作空間名稱。
在空间详情頁面,單擊左側導覽列数据源。
在資料來源頁簽,單擊添加資料來源,選擇MaxCompute。
在添加MaxCompute資料來源頁面,填寫基本資料。
詳情請參見配置MaxCompute資料來源。
在DataWorks上新增OSS資料來源
詳情請參見配置OSS資料來源。
配置MaxCompute(ODPS)Reader和Object Storage ServiceWriter
登入DataWorks控制台,在左上方選擇地區。
在左側導覽列選擇。
选择工作空间,單擊進入Data Studio。
在Data Studio左側,單擊
,選擇。資料來源選擇MaxCompute(ODPS)。
資料去向選擇OSS。
在節點配置頁面,填寫如下資訊。
資料來源-來源:選擇新增的資料來源MaxCompute名稱。
資料來源-去向:選擇新增的資料來源OSS名稱。
資料來源-表:已建立MaxCompute表。
資料去向-文本類型:選擇CSV。
資料去向-檔案名稱:OSS上的檔案名稱,可以帶有路徑,比如a.txt, aaa/bbb/cc.csv。
運行資源:選擇建立的獨享資源群組。
其他保持預設即可。
也可以單擊配置地區上方的
表徵圖,轉換為指令碼模式,通過指令碼配置。樣本如下:{ "order":{ "hops":[ { "from":"Reader", "to":"Writer" } ] }, "setting":{ "errorLimit":{ "record":"0" }, "speed":{ "concurrent":1, "dmu":1, "throttle":false } }, "steps":[ { "category":"reader", "name":"Reader", "parameter":{ "column":[ "name", "id", "gender" ], "datasource":"odps_first", "partition":[], "table":"Transs" }, "stepType":"odps" }, { "category":"writer", "name":"Writer", "parameter":{ "datasource":"Trans", "dateFormat":"yyyy-MM-dd HH:mm:ss", "encoding":"UTF-8", "fieldDelimiter":",", "fileFormat":"csv", "nullFormat":"null", "object":"qwee.csv", "writeMode":"truncate" }, "stepType":"oss" } ], "type":"job", "version":"2.0" }單擊運行。
在OSS控制台中可以看到已上傳的CSV檔案中已存在通過MaxCompute遷移到OSS的資料。詳情請參見控制台下載檔案。