本文為您介紹如何將資料上傳至MaxCompute或從MaxCompute下載資料,包括服務串連、SDK、工具和資料匯入匯出、上雲等常見操作。
背景資訊
MaxCompute提供了多種資料上傳下載的通道支援,方便您在各種情境下進行技術方案選型時參考。
批量資料通道:支援批量上傳及下載資料情境。
流式資料通道:提供了以流式的方式把資料寫入MaxCompute的能力。
即時資料通道:DataHub是流式資料(Streaming Data)的處理平台,提供對流式資料的發布(Publish)、訂閱(Subscribe)和分發功能,支援流式資料歸檔至MaxCompute。
功能介紹
批量資料通道上傳
使用批量資料通道上傳資料時,可以通過單個大量操作將資料上傳到MaxCompute中。例如上傳資料來源可以是外部檔案、外部資料庫、外部Object Storage Service或記錄檔。MaxCompute中批量資料通道上傳包含如下方案。
Tunnel SDK:您可以通過Tunnel向MaxCompute中上傳資料。
資料同步服務:您可以通過Data Integration(DataWorks)任務,提取、轉換、載入(ETL)資料到MaxCompute。
開源工具及外掛程式:您可以通過Sqoop、Kettle、Flume、Fluentd外掛程式、OGG將資料上傳至MaxCompute。
產品工具:MaxCompute用戶端基於批量資料通道的SDK,實現了內建的Tunnel命令,可對資料進行上傳,Tunnel命令的使用請參見Tunnel命令。
說明對於離線資料的同步,推薦您優先使用Data Integration,詳情請參見Data Integration概述。
流式資料通道寫入
解決方案的可靠性
MaxCompute具有服務等級協議(SLA),因批量資料通道、流式資料通道預設使用免費共用資源,您還需考慮實現特定方案的可靠性。Tunnel資料通道服務依照訪問的先後順序,分配服務可用資源(Slot)。
當服務的剩餘可用資源為0時,將拒絕任何新增訪問,直至可用資源得到釋放。
5分鐘內未達到100個有效請求的情況,不計為服務不可用,有效請求參見Data Transmission Service有效狀態代碼。
請求延遲不包含在SLA保障範圍,限制請求不包含在SLA保障範圍,限制請求請參見Data Transmission Service使用限制。
注意事項
網路因素對Tunnel上傳下載速度的影響較大,正常情況下速度範圍為1 MB/s~10 MB/s。當上傳的資料量較大時,建議配置Tunnel Endpoint為雲產品互連網絡或VPC網路相應的Tunnel Endpoint。雲產品互連網絡或VPC網路需要通過阿里雲ECS連通或者通過網路專線開通。如果上傳資料速度太慢,可以考慮使用多線程上傳方式。
更多Tunnel Endpoint資訊,請參見Endpoint。