MaxCompute提供湖倉一體方案,該方案可以打破資料湖與資料倉儲割裂的體系,並將資料湖的靈活性、生態豐富能力與資料倉儲的企業級部署能力進行融合,助力構建資料湖和資料倉儲相融合的資料管理平台。本文介紹如何通過MaxCompute和異構資料平台構建湖倉一體(本功能處於公測階段)。
湖倉一體搭建
MaxCompute湖倉一體方案通過資料倉儲MaxCompute和資料湖共同實現。當前支援的湖倉一體構建方式如下:
通過MaxCompute、資料湖構建DLF和Object Storage Service構建湖倉一體:資料湖的中繼資料(Schema)全部位於DLF中。MaxCompute可以利用DLF對OSS中繼資料的管理能力,提升對OSS半結構化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)資料的處理能力。
通過MaxCompute與Hadoop構建湖倉一體:該方式包括本地機房搭建、雲端式上虛擬機器搭建以及阿里雲E-MapReduce等。當MaxCompute與Hadoop平台所在的VPC地區網路開通後,MaxCompute可以直接存取Hive中繼資料服務,並將中繼資料資訊映射到MaxCompute的外部項目(External Project)中。
使用限制
僅華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、新加坡和德國(法蘭克福)地區支援構建湖倉一體能力。
MaxCompute需要與DLF、OSS部署在同一地區。
相關文檔
當External Project建立完畢之後,其中的表的所有者歸屬於建立External Project的帳號,如果您需要授權其他使用者外部表格專案操作許可權,請參見對於外部項目的使用者以及許可權操作。
在構建湖倉一體時,可使用SQL方式執行外部項目(External Project)管理,詳情請參見使用SQL管理外部項目。