Tablestore資料湖投遞可以全量備份或即時投遞資料到資料湖OSS中儲存,以滿足更低成本的歷史資料存放區,以及更大規模的離線和准即時資料分析需求。
應用情境
利用資料湖投遞可以實現如下情境需求:
冷熱資料分層
資料湖投遞結合Tablestore的資料生命週期功能,可以快速實現OSS低成本儲存全量資料,Tablestore提供熱資料的低延遲查詢和分析的需求。
全量資料備份
資料湖投遞可以自動將Tablestore的全表資料投遞到OSS Bucket中,作為備份歸檔資料。
大規模即時資料分析
資料湖投遞可以即時(每2分鐘)投遞增量的Tablestore資料到OSS,投遞的資料支援按系統時間分區、Parquet列存格式儲存;再利用OSS的高讀頻寬和列存面向掃描情境最佳化實現高效即時資料分析。
功能特性
資料湖投遞的主要功能特性如下:
資料湖投遞會自動拉取Tablestore的全量和增量資料,資料積累到合適大小或者投遞超過2分鐘後,持久化到OSS中儲存。
支援配置增量、全量、全量&增量三種資料投遞模式,投遞的所有資料均按照Parquet列存格式儲存。
支援監控即時投遞的同步時間點,資料湖投遞提供了DescribeDeliveryTask API,該API會返回任務已成功投遞的即時資料位點。
核心優勢
便於使用
只需在控制台完成簡單配置,即可實現全託管的Tablestore到OSS的自動投遞。無需監控和營運,投遞任務保證SLA內同步任務平穩執行和隨吞吐規模擴充。
全增量一體
提供全增量一體的資料投遞能力。增量投遞任務提供准即時體驗,持續拉取新資料並緩衝兩分鐘後寫入OSS。
與計算生態無縫整合
投遞的資料相容開源生態標準,按照Parquet列存格式儲存,相容Hive命名規範。使用E-MapReduce可以直接對投遞到OSS的資料進行外表分析。
資料分層的儲存與訪問體驗
資料投遞到OSS後,Tablestore提供資料表、索引表、投遞OSS等分層資料。滿足不同情境的流量分析需求。
注意事項
目前支援資料湖投遞功能的地區包括華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)。
使用流程
通過建立投遞任務將Tablestore資料投遞到OSS。具體操作,請參見通過控制台投遞資料到OSS和通過SDK投遞資料到OSS。
使用EMR分析投遞到OSS中的Tablestore資料。具體操作,請參見使用EMR分析資料。