全部產品
Search
文件中心

E-MapReduce:Hudi資料來源

更新時間:Jul 17, 2024

Hudi Catalog是一種External Catalog。通過Hudi Catalog,您可以直接查詢Hudi中的資料。本文為您介紹如何在E-MapReduce的StarRocks叢集上建立和查看Hudi Catalog。

前提條件

  • 已建立包含Hudi服務的叢集,例如DataLake或Custom叢集,詳情請見建立叢集

  • 已建立包含StarRocks服務的叢集,例如OLAP或Custom叢集,並成功串連到叢集,詳情請參見建立叢集快速入門

使用限制

建立的兩個叢集需要在同一個VPC下,並且在同一個可用性區域下。

建立Hudi Catalog

文法

CREATE EXTERNAL CATALOG <catalog_name>
PROPERTIES
( 
  "key"="value", 
  ...
);

參數說明

  • catalog_name:Hudi Catalog的名稱,必選參數。命名要求如下:

    • 必須由字母(a~z或A~Z)、數字(0~9)或底線(_)組成,且只能以字母開頭。

    • 總長度不能超過64個字元。

  • PROPERTIES:Hudi Catalog的屬性,必選參數。Hudi使用的中繼資料服務不同,該參數的配置也不同。不同中繼資料服務的配置方法如下:

    屬性

    是否必選

    說明

    type

    資料來源類型,取值為hudi

    hive.metastore.uris

    Hive MetaStore的URI。格式為thrift://<Hive metastore的IP地址>:<連接埠號碼>,連接埠號碼預設為9083。當使用DLF的中繼資料時,該配置可省略。

    hive.metastore.type

    配置MetaStore類型,預設為空白,代表使用Hive MetaStore的中繼資料。當需要使用DLF的中繼資料時,請設定為dlf

    dlf.catalog.id

    待讀取的DLF Catalog ID,當hive.metastore.type設定為dlf時配置。如果不添加該配置,則使用預設DLF Catalog。

    • Hive MetaStore

      屬性

      是否必選

      說明

      type

      資料來源類型,取值為hudi

      hive.metastore.uris

      Hive MetaStore的URI。格式為thrift://<Hive metastore的IP地址>:<連接埠號碼>,連接埠號碼預設為9083。

    • DLF

      使用DLF查看資料來源,詳情請參見使用DLF中繼資料

樣本

以下樣本建立了一個名為hudi_catalog的Hudi Catalog。

CREATE EXTERNAL CATALOG hudi_catalog
PROPERTIES
(
    "type" = "hudi",
    "hive.metastore.uris" = "thrift://xx.xx.xx.xx:9083"
);

查看Hudi表資料

您可以通過SELECT查詢目標資料庫中的目標表。

SELECT * FROM <catalog_name>.<database_name>.<table_name>;

相關文檔

Hudi更多介紹,請參見Hudi概述