全部產品
Search
文件中心

MaxCompute:Data Transmission Service(上傳)情境與工具

更新時間:Oct 16, 2024

本文為您介紹如何將資料上傳至MaxCompute或從MaxCompute下載資料,包括服務串連、SDK、工具和資料匯入匯出、上雲等常見操作。

背景資訊

MaxCompute提供了多種資料上傳下載的通道支援,方便您在各種情境下進行技術方案選型時參考。

  • 批量資料通道:支援批量上傳及下載資料情境。

  • 流式資料通道:提供了以流式的方式把資料寫入MaxCompute的能力。

  • 即時資料通道:DataHub是流式資料(Streaming Data)的處理平台,提供對流式資料的發布(Publish)、訂閱(Subscribe)和分發功能,支援流式資料歸檔至MaxCompute。

功能介紹

  • 批量資料通道上傳

    使用批量資料通道上傳資料時,可以通過單個大量操作將資料上傳到MaxCompute中。例如上傳資料來源可以是外部檔案、外部資料庫、外部Object Storage Service或記錄檔。MaxCompute中批量資料通道上傳包含如下方案。

    • Tunnel SDK:您可以通過Tunnel向MaxCompute中上傳資料。

    • 資料同步服務:您可以通過Data Integration(DataWorks)任務,提取、轉換、載入(ETL)資料到MaxCompute。

    • 開源工具及外掛程式:您可以通過SqoopKettleFlumeFluentd外掛程式、OGG將資料上傳至MaxCompute。

    • 產品工具:MaxCompute用戶端基於批量資料通道的SDK,實現了內建的Tunnel命令,可對資料進行上傳,Tunnel命令的使用請參見Tunnel命令

    說明

    對於離線資料的同步,推薦您優先使用Data Integration,詳情請參見Data Integration概述

  • 流式資料通道寫入

    MaxCompute流式資料通道服務提供了以流式的方式將資料寫入MaxCompute的能力,使用與原批量資料通道服務不同的一套全新的API及後端服務。流式資料寫入到MaxCompute的方案如下。

    • 資料同步服務:您可以通過Data Integration即時同步任務實現流式資料寫入(StreamX)。

    • 資料投遞:您可以通過已整合流式寫入API的資料投遞模式實現流式資料寫入。支援SLS、訊息佇列Kafka版方式。

    • Flink即時寫入:您可以通過Flink平台對流式資料進行即時寫入。

解決方案的可靠性

MaxCompute具有服務等級協議(SLA),因批量資料通道、流式資料通道預設使用免費共用資源,您還需考慮實現特定方案的可靠性。Tunnel資料通道服務依照訪問的先後順序,分配服務可用資源(Slot)。

注意事項

網路因素對Tunnel上傳下載速度的影響較大,正常情況下速度範圍為1 MB/s~10 MB/s。當上傳的資料量較大時,建議配置Tunnel Endpoint為雲產品互連網絡或VPC網路相應的Tunnel Endpoint。雲產品互連網絡或VPC網路需要通過阿里雲ECS連通或者通過網路專線開通。如果上傳資料速度太慢,可以考慮使用多線程上傳方式。

更多Tunnel Endpoint資訊,請參見Endpoint