全部產品
Search
文件中心

Tablestore:資料湖投遞概述

更新時間:Aug 27, 2024

Tablestore資料湖投遞可以全量備份或即時投遞資料到資料湖OSS中儲存,以滿足更低成本的歷史資料存放區,以及更大規模的離線和准即時資料分析需求。

應用情境

利用資料湖投遞可以實現如下情境需求:

  • 冷熱資料分層

    資料湖投遞結合Tablestore資料生命週期功能,可以快速實現OSS低成本儲存全量資料,Tablestore提供熱資料的低延遲查詢和分析的需求。

  • 全量資料備份

    資料湖投遞可以自動將Tablestore的全表資料投遞到OSS Bucket中,作為備份歸檔資料。

  • 大規模即時資料分析

    資料湖投遞可以即時(每2分鐘)投遞增量的Tablestore資料到OSS,投遞的資料支援按系統時間分區、Parquet列存格式儲存;再利用OSS的高讀頻寬和列存面向掃描情境最佳化實現高效即時資料分析。

image.png

功能特性

資料湖投遞的主要功能特性如下:

  • 資料湖投遞會自動拉取Tablestore的全量和增量資料,資料積累到合適大小或者投遞超過2分鐘後,持久化到OSS中儲存。

  • 支援配置增量、全量、全量&增量三種資料投遞模式,投遞的所有資料均按照Parquet列存格式儲存。

  • 支援監控即時投遞的同步時間點,資料湖投遞提供了DescribeDeliveryTask API,該API會返回任務已成功投遞的即時資料位點。

核心優勢

  • 便於使用

    只需在控制台完成簡單配置,即可實現全託管的Tablestore到OSS的自動投遞。無需監控和營運,投遞任務保證SLA內同步任務平穩執行和隨吞吐規模擴充。

  • 全增量一體

    提供全增量一體的資料投遞能力。增量投遞任務提供准即時體驗,持續拉取新資料並緩衝兩分鐘後寫入OSS。

  • 與計算生態無縫整合

    投遞的資料相容開源生態標準,按照Parquet列存格式儲存,相容Hive命名規範。使用E-MapReduce可以直接對投遞到OSS的資料進行外表分析。

  • 資料分層的儲存與訪問體驗

    資料投遞到OSS後,Tablestore提供資料表、索引表、投遞OSS等分層資料。滿足不同情境的流量分析需求。

注意事項

目前支援使用資料湖投遞功能的地區有華東1(杭州)、華東2(上海)、華北2(北京)和華北3(張家口)。

使用流程

  1. 通過建立投遞任務將Tablestore資料投遞到OSS。具體操作,請參見通過控制台投遞資料到OSS通過SDK投遞資料到OSS

  2. 使用EMR分析投遞到OSS中的Tablestore資料。具體操作,請參見使用EMR分析資料